云脉表单识别解决方案是基于云脉核心的光学字符识别(OCR)技术,通过定义识别模板的方式,将表单拆分成不同的元素,分别对各个元素进行识别,从而提取表单中的数据。
创建识别模板
给单据中不同位置的各样内容定义属性,将单据拆分成多个识别对象,以便分别提取其中的数据。调用相应的模板进行识别将准确提取表单数据。
智能分类识别
根据所拍摄的单据图片的特征,云脉识别引擎智能查找相应的模板,并根据模板将单据图片分类。按照模板对各元素进行识别,提取其中的表单数据。
表格识别
模板中定义表格各列值的属性和位置,执行识别后,图像中的表格将被转化成数值型的表格。
创建识别词库
为识别对象创建词库,执行识别时,根据词库对OCR引擎提取的识别结果进行智能分析,并自动从词库中查找相同或最接近的数据进行确认或替换,以保证识别准确无误。
方案描述
云脉表单识别解决方案是基于云脉公司的光学字符识别技术(OCR),将发票、化验单、行政表单等各类纸质单据中的数据、图像、二维码等进行识别,并将里面的字符信息提取出来保存成可编辑的文字。该方案通过人工版面分析将表单分成不同的区块,并配置识别模板,针对不同的表单调用相应的识别模板,OCR引擎根据配置的属性参数分别对各个区块进行针对性识别,从而准确地将纸质表单中的信息提取出来,实现大量纸质表单的快速智能电子化。
行业应用
云脉表单识别可应用到各类有大量表单数据录入的企业或政府机构。用户用这套系统结合文档拍摄设备,将纸质文档通过拍摄的方式快速提取表单数据,并将数据导入到常规的管理系统,实现了智能快速纸质表单数据电子化。
云脉表单识别将为企业机构带来:
智能判断表单的类别,节省大量表单分类的工作量;
节省大量的数据录入工作量;
大大加快数据录入的效率;
提高数据录入的准确性;
大量纸质表单原图的安全保存。
技术说明
去除红章
智能查找图像中红章的位置,并将红章去除。
类型判断
对要识别的图片和模板图片进行匹配,传出最相似的模板类型,或传出匹配不成功。
模板匹配
模板匹配主要是对模板进行特征提取,然后对特征点对应的特征描述进行匹配。
二值化
通过边缘信息查找每个文字区域的信息,并对每个文字区域信息进行局部二值化处理。
版面分析
将图片中的文字块、线条块、图形块进行分割和属性的判断。
边框切割
通过LSD直线检测找到前景的边框线,从而确定前景的位置,并去掉背景。
透视变换
对畸变或者倾斜的前景部分进行校正。
识别元素
表单图片可被拆分成以下识别元素:
文本——输出文本信息
栏位——输出文本格式的栏位值
图像——框选区域输出成图像
表格——输出表格及其中文本格式的内容
勾选框——输出Yes或者No
扫码——读取条形码或二维码的内容