浅析OCR光学字符识别技术

作者: Alice 来源: 网络 时间: 2017-08-02

现代社会,随着互联网技术的发展,以及无纸化办公的成熟与普及,OCR技术已越来越被人们所接受。所谓的OCR技术(光学字符识别技术),其实就是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

其实早在60、70年代,世界各国就开始有OCR的研究了,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。我国的研究汉字识别的起步就比较晚了,20世纪70年代末才开始进行OCR的研究工作。而且早期的OCR软件,由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,运行速度慢,也没有达到实用的程度。所以,只有个别部门,如信息部门、新闻出版单位等使用OCR软件。

在1986年以后我国的OCR研究便有了很大进展,在汉字建模和识别方法上都有所创新,在系统研制和开发应用中都取得了丰硕的成果,不少单位相继推出了中文OCR产品。进入20世纪90年代以后,随着我国自动化和办公自动化的普及,使得OCR技术更进一步发展,在识别率、识别速度上满足了广大用户的要求。

目前,市场上研发OCR技术的公司不在少数,厦门云脉便是其中之一。云脉精心专研OCR技术20余年,目前在亚洲文字识别方面已经位居国际先进水平。在中文识别方面,能够识别的字体已多达百种,各种字体综合识别率达到99.5%以上。同时还可识别近20种国外文字语言(英文、法文、德文、意大利文、西班牙文、葡萄牙文、荷兰文、芬兰文、瑞典文、土耳其文、日文等)。

如今随着信息化和数字化的发展进程,OCR技术已应用到信息化时代的多个领域,如数字化图书馆,各种报表的识别,以及银行、税务系统票据的识别等,相信在未来其应用将越来越广泛。