OCR技术按待识别对象的不容可以分为:印刷体识别、手写体识别、手写体数字识别。
从识别技术的难度来说,印刷体识别要比手写体识别容易,而且与手写体识别相比,印刷体识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。因为它有着广泛的应用前景。目前,办公自动化已经成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版物,但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻社、图书馆、古籍出版社、报刊馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷材料更为符合人的自然阅读习惯;同时,网络信息资源的爆炸性增长以及网络传输容量的限制,都是方便、快速地获取这些信息的约束因素。电子文档与印刷文本资料如同一枚硬币的两面,互相补充,互相促进,在未来的十几年或更长的时间内将不会出现一者被另一者取代的情况。
手写汉字识别是一种重要的、适用于手写文稿随时输入计算机的方法,也是机器字符识别最为困难的一个课题,这些困难和问题表现在:
1)汉字类别多。仅《康熙字典》中就包含了49000多个汉字,而常用的汉字就有4000多个,因而汉字识别问题属于大类别(或者成为超多类)模式和别问题,在模式识别理论和方法研究方面有重大意义。
2)汉字字形结构复杂。汉字集合中相似字较多,有些汉字的差别仅为一点或一个笔画,由于手写变形的存在,使得手写体中相似字的区分比印刷体要困难得多。因不同人书写风格的差异造成手写汉字的变形很大。
手写汉字字形的变化是最难以解决的问题。一般认为,联机手写汉字识别比脱机手写汉字识别相对容易些。联机手写汉字识别是一种人工实时地把汉字输入计算机的方法,它利用书写板把笔画变为一维电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线串含有笔画数目、笔画走向、笔顺和书写速度等信息,而脱机手写汉字识别理的仅是二维的汉字点阵图像,是汉字识别领域中最后一个十分困难的问题,目前仍然处于实验室研究阶段。由此可见,对非特定人脱机手写汉字识别而言,如果对手写汉字的书写不加任何限制(即为自由手写体汉字),则识别难度相当大。
手写字数字识别是光学字符识别的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。在整个OCR领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离。
字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。因此,手写数字的识别研究有着重大的显示意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。