金融票据OCR系统实现的五个阶段

作者: 厦门云脉技术有限公司 来源: http://www.yunmai.com/ 时间: 2016-06-29

在金融电子化的趋势下,如何快捷、准确、高效地实现银行日常业务的信息化,缩短业务操作时间,保存客户原始信息,并对其进行电子认证,最终都可通过日益完善的OCR技术加以解决。

金融票据OCR系统是将印刷或手写的金融票据内容扫描后以图像形式录入计算机,经字符识别版面理解后,以字符内码的形式输出或保存票据内容。金融票据OCR系统识别率可以达到70%以上。

金融票据OCR系统是一套实现银行票据自动录入与分类识别的系统,代替传统的靠手工分类,手工核对的方式,对银行大型机中的账务数据进行分类与识别。具备速度快、效率高、使用简便等优点。利用目前的金融票据OCR系统,直接从票据影像中提取帐号、金额等重要数据,代替人的手工录入。与条码识别/流水识别紧密结合。

票据OCR可以分成不同的阶段进行,每个阶段的关键技术都影响着最终的识别结果。主要的五个阶段是:票据图像的顸处理,识别要素的训练,识别算法的选择,可信度的研究,后处理。

1、图像的预处理

手写汉字变形问题是非特定人脱机手写汉字识别中的关键问题,所谓脱机手写汉字识别的预处理,就是探讨直接从汉字点阵图象上补偿手写变形、减小同一类别的不同模式之间的差异的理论和方祛。

2、识别要素的训练

对于不同识别要素,我们基本上要训练出各自对应的标准模板。这样才能保证每种识别要素的识别性能。这里,识别要亲的训练,包括训练样本的挑选(主要根据识别样本的好坏,全是太好的不行,质量普遍太差的也不行),训练特征及特征维数的选择(尽量选比较稳定的、具有一定代表性、区分性好的特征,维数要选择恰当,维数太少不行,维数太多也不行)。

对于金融票据OCR系统而言,尤其是汉字识别部分,样本空问的维数比较高,而且能够用来训练的样本也不是很多。在这种情况下,特征提取与选择的必要性就显得尤为突出了。该系统应用的特征提取器主要是利用散度准则函数进行特征提取的。实验证明,通过特征提取与选择,在样本数日不多的条件下改善了系统整体的性能,而且简化了特征的获取过程,并且减少了识别部分的运算量降低了系统的运行代价。

3、识别算法的选择

对与不同的识别要素,我们需要根据识别要素的特点,选择各自合适的识别的算法。比如,对于印刷的小写数字,由于它们的外型相对固定,变形小,所以,我们用传统的统计识别的方法:而对于手写的小写数字的识别,由于手写的小写数字的风格根据手写人的不同而不同。笔画有粗有细,形状也有大有小,很不固定,变形大,所以,我们选择神经网络的识别方法。

汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不问的特征或基元(Primitive),每种特征或基元又有不同的抽取方法,这就使得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式各别的汉字识别方法。总的来说,不同的特征抽取和分类器的设计方法决定了识别系统采用不同的处理方法,通常可以分为结构模式识别方法、统计模式识别方法、统计与结构相结合的识别方法以及人工神经网络方法等。

4、可信度的研究

票据的自动作业处理,特别是对于银行票据的处理,要求有很高的准确识别率,要求误识率几乎等于0.这就需要引进可信度的概念,把可能识别错误的要素,尽量给拒识掉。这里,包括可信度的定义,以及可信度的计算方法的研究。

5、后处理

票据中的识别要素,一般都有一些可寻的规律和规则。比如,票据中的日期书写,不可能出现“13月32日”。利用这些类似的信息,进行适当的后处理,可以提高系统的识别性能。