不固定版式文档的OCR模型自主开发流程及技术应用实例

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

随着各行业数字化、智能化建设的脚步加快OCR得到了普及应用。当前OCR技术主要应用于标准证件、票据识别通过自动检测并识别、提取文字减少人工录入信息的工作量提升业务效率。

目前企业对OCR的识别精度、定制灵活度、迭代速度等有了更高的要求。范围有限的常规证件、发票识别已经无法满足企业业务场景中种类繁多的单证处理需求越来越多的企业开始定制OCR识别模型以满足个性化的卡证、票据、文档识别需求。

定制OCR通常的方式有委托外部厂商定制OCR模型或自行开发OCR模型。

委托外部厂商定制OCR存在以下难点

1.定制成本高

企业的业务场景复杂需要识别多类型的卡证、票据、单据且同类单据常会有多种版式交付定制成本高昂。

2.定制周期长

厂商驻场定制开发识别引擎周期长、效率低、沟通对接时间成本高技术能力无法很快赋能业务。尤其是对于定期会更改版式的银行单据版式调整后需要厂商进行模型调适工作流程长效率低。

3.不固定版式文档识别率低

传统规则算法在不固定版式上不具备很好的泛化能力。对于不固定版式文档识别率低可用性差定制OCR时常常需要对特定版式做高度定制化开发存在重复采购风险。

4.业务数据保密性要求高

金融机构数据保密性要求强可能无法对厂商提供业务数据作为训练样本模型性能无法保障。

而自行开发模型可以满足模型迭代灵活性与数据保密性需求但需要从零开始搭建技术团队、招聘算法人才在研发成本与时间投入上常常比采购外部服务更高由于缺乏算法积累在应对复杂场景与不固定版式文档上生产的模型也较难具备可用性。

1.基于文字识别训练平台自主开发OCR模型

除了上述两种方式目前一种更具效率、可用性、灵活性的OCR模型开发方式正在被越来越多的企业所采用依托外部厂商开发的文字识别训练平台自主开发OCR模型。由于这些文字识别训练平台内置成熟的算法模型企业不需要组建专业的算法团队即可自行完成模型的创建、训练、部署全流程开发工作流。

合合信息基于在智能文字识别领域深耕16年的深度学习算法能力与实训经验推出了文字识别训练平台为有OCR自主定制开发需求的企业提供低代码、自动化的一站式OCR开发平台。

合合信息文字识别训练平台是面向零基础的开发者或实际业务人员的全流程一站式OCR开发平台。针对文本检测、文字识别、文档分类、信息抽取等任务基于先进的深度学习算法提供了集模型创建、数据标注、模型训练、模型测试、模型部署于一体的机器学习服务。

合合信息文字识别训练平台内置了场景丰富的预训练模型配备了信息抽取锚点、信息抽取K-V、信息抽取NLP、信息抽取长文本、分类识别五大模型类型以满足固定版式、半固定版式、不固定版式、长文本文档的识别与分类需求根据文档特点创建适配的模型类型有效提升识别精度降低训练难度。

1.1信息抽取锚点

基于预置的文字检测与识别模型针对固定版式的卡证票据框选出版式参照区与所需提取的信息区域即可实现数据的结构化提取。选择该模型无需训练只需要一张样本配置好固定字段与识别字段后即可直接完成模型创建。

1.2信息抽取K-V

基于内置的高性能预训练模型针对用户标注的键值对位置和文本信息训练专属场景的AI模型从而提升文本检测、文本识别、字段属性分析的精度此方法适用于半固定版式的文档分析例如卡证、票据。

1.3信息抽取NLP

基于内置的多模态图像、文本高性能预训练模型针对用户标注的键值对位置和文本信息训练专属场景的信息抽取模型从而提升文本检测、文本识别、字段属性分析的精度此方法适用于不固定版式的文档分析例如海外Invoice、物流单据、采购单据等。

1.4信息抽取长文本

智能化语义理解不受文本空间位置变化影响适用于多页不固定版式文档的信息抽取例如合同、报告、标书、档案等。

1.5分类识别

通过大量图片类型标注基于深度学习算法学习图片特征从而达到图片的分类识别。该模型有两种算法纯图像算法模式适合差异较大的图像分类图像+文本算法模式能对图像特征与文本特征进行特征融合处理适合相似度较高的图像分类。

2.数据回流终身自主学习

合合信息文字识别训练平台具备特有的数据回流功能通过搭建数据回流交换平台连接业务平台数据生产系统与文字识别训练平台将实际业务中产生的标注信息数据进行拉取、整合、格式转换与统计后回流至文字识别训练平台并用于对应模型的训练、测试提升模型的识别准确率实现“在业务场景中越用越好用”的持续迭代效果真正做到了智能化和终身学习。

3.CPU/GPU训练与部署

合合信息文字识别训练平台支持GPU/CPU混合训练、混合推理部署、多模块合并支持单GPU训练和纯CPU训练推理。企业可以在现有的硬件基础上直接部署文字识别训练平台不需要额外的硬件投入可降低企业硬件改造成本灵活性高鲁棒性强。

4.技术应用典型场景

4.1银行集中运营

当前股份制银行、头部城商行、农商行与头部券商纷纷推进集中运营建设形成分支机构前台受理、专门机构后台集中处理的业务运作模式。在集中运营中长流程的业务被切分成“前台受理-录入-审核-授权”几段清晰分离、相对短的流程。录入环节通常为“两录一校”两位录入员分别录入凭证切片上的信息校验员判断两录结果是否一致。

基于文字识别训练平台可生产多类型凭证的OCR识别模型将其中一录由人工录入转变为智能文字识别录入系统自动识别提取切片信息另一录依然为人工录入将智能文字识别结果与人工录入结果进行一致性校验在保证录入流程严格准确的基础上大幅度提升了业务效率降低人力成本。

4.2银行后督

银行需要根据会计规范与银行相关法规对行内各网点的业务交易进行事后监督通过对业务凭证、营业日报表等进行复审、核对、检验实现重点监督、差错处理与综合对账。传统事后监督流程中由于人工审核的人力与效率的局限性无法对全业务进行审查只能手工抽查部分大额交易凭证后督业务覆盖不全面。

文字识别训练平台可输出覆盖全类型凭证的智能文字识别能力如转账支票、现金支票、进账单、收款凭证、电子转账凭证、信汇凭证、托收凭证、收费凭证、现金交款单、银行承兑汇票、商业承兑汇票及各类申请书、缴款书、通知书等赋能银行后督系统对全业务凭证需审核字段进行自动识别提取后督员依照审核要求对字段相互间信息、字段与身份证件信息、联网信息等进行核对校验建立全业务后督体系充分发挥后督防弊纠错、规范行为、保证资金安全的作用。

4.3跨境贸易反洗钱审查

应国内与国际监管要求外资银行需要对从事跨境贸易的企业客户在行内的每笔资金交易往来进行排查确保交易有实际匹配的跨境贸易活动严格识别与筛查洗钱风险。由于跨境贸易的凭证种类多样且有大量的不固定版式凭证如海外invoice、订单合同、运输单人工审核方式需要耗费大量人力传统OCR模型对不固定版式的识别精度较低需要高度定制。

基于文字识别训练平台银行可自主对固定、半固定、不固定版式凭证进行识别模型创建和迭代训练持续提升识别准确率实现AI全生命流程管理通过对报关单、核注清单、进账单、信用证开立申请书、海外invoice、订单合同等贸易凭证的智能识别、匹配、审核构建智能化的跨境贸易反洗钱审查体系。

4.4供应链管理

集团企业的供应链管理业务中涉及到发票、合同、运输单、货物清单、出/入库单等多类型票据、单据且由于集团企业供应商数量庞大供应链票据种类繁多且数量巨大票据录入审核、电子化归档需要花费大量人力与时间。

集团企业可通过文字识别训练平台实现模型创建、数据标注、模型训练、模型测试、模型部署的一站式OCR开发实现对多类型、多版式供应链票据的智能分类与识别并支持对接ERP系统赋能供应链管理智能化升级。

合合信息文字识别训练平台产品试用

https://www.wenjuan.com/s/EZVZNbu/

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

返回列表

上一篇：字节跳动“技穷”，火山引擎“啃老”

下一篇：Ubuntu Linux 解压压缩目录 .tar.xz .tgz .tar.gz .tar.bz2 .7z