中关村科金得助OCR平台破解证券企业OCR应用难题

产品动态

2023-01-11

文章摘要：公司动态

随着我国“十四五”数字经济顶层设计的出炉，各行各业都驶入数字化转型的“快车道”，金融行业也不例外。证券行业作为金融体系的重要组成部分，也进入到数字化转型竞争的“白热化”阶段。

OCR识别技术主要是将各类证件、财报、凭证等纸质材料转为结构化数据存储，因此，也就成为了证券行业数字化转型落地实践的重要抓手之一。但由于证券业务复杂度高、数据量大、风控要求高，且存在各种非标版式文档，在实际应用中OCR的落地效果还不是很显著。

目前，很多企业采购和应用的往往都是单一功能的OCR模块，在实际落地过程中会遇到很多问题：

成本高：针对大量非标版式文字识别需求，需要借助第三方供应商定制开发，采购成本高。

周期长：OCR模型训练需要数据收集、标注、模型开发、调优等复杂过程，开发和采购流程时间至少需要3-6个月，无法快速响应业务需求。

兼容性差：单据/凭证存在新增版式或不定期版式变化问题，定制化的模型无法适配场景变化，需要二次开发或调优。

鉴于此，企业应该建设自己的OCR能力平台，来满足自主定制开发OCR的需求。

解决多种文字识别需求

构建企业AI大脑

在实际应用中，企业的文字识别需求是多样的，例如固定板式、半固定和非固定板式等等，为了满足这些需求，中关村科金推出了得助OCR平台。

中关村科金得助OCR平台采用了自主研发的计算机视觉和自然语言理解技术，通过内置智能图像预处理、文字检测、文字识别和多模态结构化分析等四大引擎，构建了专门面向业务人员使用的智能结构化文字提取工具，从而提升人工录入文字和业务审核效率，实现企业降本增效。

固定板式识别方案：自定义模板，3分钟搞定文字信息提取

具体实现只需要三步，第一步，上传模板图片；第二步，框选定位锚点；第三步，框选识别字段。

自定义模板基于通用OCR和多模态结构化双引擎技术，实现了高适配业务场景的OCR识别方案。通用OCR算法经过上亿数据训练迭代优化，模板文字检测和识别精度高达95%以上；针对版式不规范场景，通过多模态结构化技术，结合文字语义理解信息，可以对版式倾斜、拍照、跨页流水表格、换行和行列变化情况进行识别，大大提高了模板识别鲁棒性，从而将自定义模板真正实现落地应用。

半固定版式识别方案：自定义模型，持续进化模型精度

针对复杂版式的识别需求，中关村科金得助OCR平台是通过自训练工具来构建自定义模型。目前，基于少量样本就可以完成模型构建、同时可以完成数据标注、训练、评价、测试及部署上线全流程，当数据量不足时，还可自动生成海量训练数据。

在数据集工具层面，得助OCR平台支持模板标注模式和数据合成工具，数据标注效率至少提升10倍以上，可以大大降低企业训练数据的构建成本；针对大量数据人工标注效率低的问题，可以通过单张图片标注结构化提取字段模板，然后后台调用模板智能标注服务，通过人工审核智能标注字段信息即可，极大提升了标注效率和人力成本。针对实际业务场景训练数据不足的场景，后台可以自动合成原始数据100倍级别的训练数据，合成数据模拟拍照、阴影、倾斜等多种样式，从而提升模型训练精度和泛化性。

在训练算法层面，平台内置了多种图像预处理、文字检测、文字识别和结构化等60+基线算法，后台通过数据特征自动寻找最优算法，即使业务人员也可以轻松上手操作，大大降低模型应用门槛。

非固定版式文档要素抽取方案：自定义新增字段，90%以上场景不需要训练模型

传统的定制化合同要素抽取模型方案，抽取字段固定且业务方无法自定义添加新的字段。针对这种复杂场景，中关村科金的解决方法是文档要素抽取工具，支持用户自定义新增字段。

通过内置NLP语义理解算法和字段抽取规则引擎，90%以上场景不需要训练模型，用户可以方便的扩增字段，大大提高业务响应效率。通过支持各种标准合同文本和用印合同智能比对与审核，提升交易结构和文本审核效率，避免要素遗漏并减少人工操作误差。

得助OCR平台

赋能证券多样化场景需求

相比传统OCR定制化服务，中关村科金得助OCR平台预估开发成本可降低10倍，同时适用于80+文字识别场景，例如各类各类票据、合同文档、身份验证等等，能够满足证券行业多样化场景需求。

中国证监会【首发业务若干问题解答（2020年06月修订）】问题54要求，对发行人及其控股股东、实际控制人、主要关联方、高管、关键岗位人员、主要客户、供应商等开立或控制的银行账户流水进行核查；投行IPO业务中银行流水核查已成为监管处罚的重灾区，后台工作人员面临流水账户多、时间跨度大，项目种类繁杂，需要大量时间校验审阅等问题。

因此，如何高效率完成银行流水的真实性和完备性的校验、对重要数据进行统计和分析、准确识别其中的风险成为投行从业人员面临的重要挑战。

为了解决流水审核效率低、合规风险高等问题，中关村科金提供了银行流水智能核查系统。系统内置OCR+NLP技术，将流水信息结构化为可编辑、可统计数据，深度融合证券行业审核知识库，辅助人工进行数据和业务层面分析，例如完整性检查、真实性校验，判断流水交易对手、交易金额合理性，挖掘潜在关联交易，全自动探测发现大额非经营交易、关联交易、隐性负债等尽调风险，显著提高尽调效率。

证券客户开户过程中，要求用户上传开户公司营业执照、税务登记证、法定代表人身份证件，以及其他补充证件等。同时还需要需要对移动用户资料、柜台业务资料进行集中审核，包括身份审核、资料审核、合规审核等。

面对这些高频、常见的卡证识别算法，业内普遍提供客户标准模型，在实际业务使用过程中往往无法避免的会存在一些Badcase，不仅影响用户体验，也会降低业务办理效率；如果模型优化周期比较长，则无法快速响应业务要求。

而中关村科金得助OCR平台，可以基于用户场景数据，随时启动算法优化，从数据、训练、测试和发布上线形成闭环，模型精度持续进化，准确率高达98%以上，帮助业务人员从重复机械的工作中解放出来，为核心业务办理降本增效。

证券公司

如何应用得助OCR平台

某证券公司旗下拥有30+分公司、近百家证券营业部门，营业网点覆盖全国绝大多数省份。在远程开户、智能复核、资料数字化、智慧财务等多个场景中，都要对用户资料、业务资料、机构资质等相关文件进行审核。人工审核的方式不仅成本高、效率低下，而且还容易出现疏漏，带来风险隐患。

基于此，中关村科金为该公司建立了统一的OCR服务平台，实现了包括图像质检、标准卡证识别、手写体识别、表格识别、混贴票据识别、文档图像分类、图像混贴检测、财报审核、银行流水审核等OCR功能需求，同时通过用户自主制作模板、自主训练OCR模型、自主完成合同字段抽取，使得OCR快速适用于多种不同的业务场景。

通过统一的标准化接口对外提供服务，实现平台API、SDK管理，基于公司私有云服务建立统一的监控平台、管理平台。内置精准模型支持“开箱即用”，可视化界面可方便快捷地进行框选标注、训练测试，实现各种标准证照和个性化定制识别的模型建设。

数字化大潮正滚滚向前。中关村科金得助OCR平台，采用丰富实用的OCR工具库，实现图像智能处理、分类、检测、识别和结构化等全流程，立足于赋能证券、银行、信托、保险、基金、制造、能源、零售等多个领域客户经营，打造体系化的数字化支持平台，纵向有效联通前中后台，让企业真正具备OCR核心大脑。中关村科金基于用户画像和业务需求挖掘，主动对接和落实科技部门数字化发展战略，积极推动证券行业持续规模化数字化发展变革转型，促进资本市场高质量发展。

联系我们

您的数字化转型伙伴

方案咨询

首页

产品

解决方案

客户案例

资源中心

新闻资讯

关于我们

智能营销

智能办公

智能销售

智能客服

智能运营

企业出海

金融

汽车

政法

制造

能源

零售

消费电子

区块链

财富&保险

金融

政府公共服务

企业服务

中关村科金得助OCR平台破解证券企业OCR应用难题