我们非常重视您的个人隐私,当您访问我们的网站时,请同意使用的所有cookie。有关个人数据处理的更多信息可访问《隐私政策》

400-090-9889

中关村科金得助OCR平台破解证券企业OCR应用难题

产品动态
2023-01-11

随着我国“十四五”数字经济顶层设计的出炉,各行各业都驶入数字化转型的“快车道”,金融行业也不例外。证券行业作为金融体系的重要组成部分,也进入到数字化转型竞争的“白热化”阶段。


OCR识别技术主要是将各类证件、财报、凭证等纸质材料转为结构化数据存储,因此,也就成为了证券行业数字化转型落地实践的重要抓手之一。但由于证券业务复杂度高、数据量大、风控要求高,且存在各种非标版式文档,在实际应用中OCR的落地效果还不是很显著。


目前,很多企业采购和应用的往往都是单一功能的OCR模块,在实际落地过程中会遇到很多问题:


成本高:针对大量非标版式文字识别需求,需要借助第三方供应商定制开发,采购成本高。


周期长:OCR模型训练需要数据收集、标注、模型开发、调优等复杂过程,开发和采购流程时间至少需要3-6个月,无法快速响应业务需求。


兼容性差:单据/凭证存在新增版式或不定期版式变化问题,定制化的模型无法适配场景变化,需要二次开发或调优。


鉴于此,企业应该建设自己的OCR能力平台,来满足自主定制开发OCR的需求。


解决多种文字识别需求

构建企业AI大脑


在实际应用中,企业的文字识别需求是多样的,例如固定板式、半固定和非固定板式等等,为了满足这些需求,中关村科金推出了得助OCR平台。


中关村科金得助OCR平台采用了自主研发的计算机视觉和自然语言理解技术,通过内置智能图像预处理、文字检测、文字识别和多模态结构化分析等四大引擎,构建了专门面向业务人员使用的智能结构化文字提取工具,从而提升人工录入文字和业务审核效率,实现企业降本增效。







图片

固定板式识别方案:自定义模板,3分钟搞定文字信息提取


图片


具体实现只需要三步,第一步,上传模板图片;第二步,框选定位锚点;第三步,框选识别字段。

图片

自定义模板基于通用OCR和多模态结构化双引擎技术,实现了高适配业务场景的OCR识别方案。通用OCR算法经过上亿数据训练迭代优化,模板文字检测和识别精度高达95%以上;针对版式不规范场景,通过多模态结构化技术,结合文字语义理解信息,可以对版式倾斜、拍照、跨页流水表格、换行和行列变化情况进行识别,大大提高了模板识别鲁棒性,从而将自定义模板真正实现落地应用。


半固定版式识别方案:自定义模型,持续进化模型精度



图片

针对复杂版式的识别需求,中关村科金得助OCR平台是通过自训练工具来构建自定义模型。目前,基于少量样本就可以完成模型构建、同时可以完成数据标注、训练、评价、测试及部署上线全流程,当数据量不足时,还可自动生成海量训练数据。


在数据集工具层面,得助OCR平台支持模板标注模式和数据合成工具,数据标注效率至少提升10倍以上,可以大大降低企业训练数据的构建成本;针对大量数据人工标注效率低的问题,可以通过单张图片标注结构化提取字段模板,然后后台调用模板智能标注服务,通过人工审核智能标注字段信息即可,极大提升了标注效率和人力成本。针对实际业务场景训练数据不足的场景,后台可以自动合成原始数据100倍级别的训练数据,合成数据模拟拍照、阴影、倾斜等多种样式,从而提升模型训练精度和泛化性。


在训练算法层面,平台内置了多种图像预处理、文字检测、文字识别和结构化等60+基线算法,后台通过数据特征自动寻找最优算法,即使业务人员也可以轻松上手操作,大大降低模型应用门槛。


非固定版式文档要素抽取方案:自定义新增字段,90%以上场景不需要训练模型



图片

传统的定制化合同要素抽取模型方案,抽取字段固定且业务方无法自定义添加新的字段。针对这种复杂场景,中关村科金的解决方法是文档要素抽取工具,支持用户自定义新增字段。


通过内置NLP语义理解算法和字段抽取规则引擎,90%以上场景不需要训练模型,用户可以方便的扩增字段,大大提高业务响应效率。通过支持各种标准合同文本和用印合同智能比对与审核,提升交易结构和文本审核效率,避免要素遗漏并减少人工操作误差。


得助OCR平台

赋能证券多样化场景需求


相比传统OCR定制化服务,中关村科金得助OCR平台预估开发成本可降低10倍,同时适用于80+文字识别场景,例如各类各类票据、合同文档、身份验证等等,能够满足证券行业多样化场景需求。

图片

中国证监会【首发业务若干问题解答(2020年06月修订)】问题54要求,对发行人及其控股股东、实际控制人、主要关联方、高管、关键岗位人员、主要客户、供应商等开立或控制的银行账户流水进行核查;投行IPO业务中银行流水核查已成为监管处罚的重灾区,后台工作人员面临流水账户多、时间跨度大,项目种类繁杂,需要大量时间校验审阅等问题。


因此,如何高效率完成银行流水的真实性和完备性的校验、对重要数据进行统计和分析、准确识别其中的风险成为投行从业人员面临的重要挑战。

图片为了解决流水审核效率低、合规风险高等问题,中关村科金提供了银行流水智能核查系统。系统内置OCR+NLP技术,将流水信息结构化为可编辑、可统计数据,深度融合证券行业审核知识库,辅助人工进行数据和业务层面分析,例如完整性检查、真实性校验,判断流水交易对手、交易金额合理性,挖掘潜在关联交易,全自动探测发现大额非经营交易、关联交易、隐性负债等尽调风险,显著提高尽调效率。

证券客户开户过程中,要求用户上传开户公司营业执照、税务登记证、法定代表人身份证件,以及其他补充证件等。同时还需要需要对移动用户资料、柜台业务资料进行集中审核,包括身份审核、资料审核、合规审核等。


面对这些高频、常见的卡证识别算法,业内普遍提供客户标准模型,在实际业务使用过程中往往无法避免的会存在一些Badcase,不仅影响用户体验,也会降低业务办理效率;如果模型优化周期比较长,则无法快速响应业务要求。


而中关村科金得助OCR平台,可以基于用户场景数据,随时启动算法优化,从数据、训练、测试和发布上线形成闭环,模型精度持续进化,准确率高达98%以上,帮助业务人员从重复机械的工作中解放出来,为核心业务办理降本增效。

图片

证券公司

如何应用得助OCR平台


某证券公司旗下拥有30+分公司、近百家证券营业部门,营业网点覆盖全国绝大多数省份。在远程开户、智能复核、资料数字化、智慧财务等多个场景中,都要对用户资料、业务资料、机构资质等相关文件进行审核。人工审核的方式不仅成本高、效率低下,而且还容易出现疏漏,带来风险隐患。


基于此,中关村科金为该公司建立了统一的OCR服务平台,实现了包括图像质检、标准卡证识别、手写体识别、表格识别、混贴票据识别、文档图像分类、图像混贴检测、财报审核、银行流水审核等OCR功能需求,同时通过用户自主制作模板、自主训练OCR模型、自主完成合同字段抽取,使得OCR快速适用于多种不同的业务场景。


通过统一的标准化接口对外提供服务,实现平台API、SDK管理,基于公司私有云服务建立统一的监控平台、管理平台。内置精准模型支持“开箱即用”,可视化界面可方便快捷地进行框选标注、训练测试,实现各种标准证照和个性化定制识别的模型建设。


数字化大潮正滚滚向前。中关村科金得助OCR平台,采用丰富实用的OCR工具库,实现图像智能处理、分类、检测、识别和结构化等全流程,立足于赋能证券、银行、信托、保险、基金、制造、能源、零售等多个领域客户经营,打造体系化的数字化支持平台,纵向有效联通前中后台,让企业真正具备OCR核心大脑。中关村科金基于用户画像和业务需求挖掘,主动对接和落实科技部门数字化发展战略,积极推动证券行业持续规模化数字化发展变革转型,促进资本市场高质量发展。









方案咨询