中文化

OCR与中文化

有两大突破传统键盘输入技术的信息输入技术:一是语音,二是手写和OCR(意译为“文字识别”)。本文主要讨论OCR,但也适用于手写,因为两者使用的技术是一致的。

国际上第一流的OCR软件是ABBYY FineReader和ScanSoft OmniPage(ScanSoft公司前2个月更名为Nuance),其它OCR软件都明显不如这两款软件1。ABBYY FineReader是俄国人开发的。俄国人开发的著名软件不多,但却有2个是世界第一流的,一个是OCR软件ABBYY FineReader,还有一个就是Kaspersky Anti-Virus反病毒软件(原名AVP)。OmniPage是美国公司Nuance推出的,该公司在语音和图像识别技术上都有一定的功力。

这两款世界一流的OCR软件在文字识别上功能很强大,只是对于科技文献(尤其是含有各种数理表达式的文献)的识别有些弱。另外,这两个第一流的OCR软件都有一个共同点,就是支持多种文字语言,大约支持170种到190种文字语言。这两个软件还有一个共同点,就是都不支持东亚文字语言,例如中文繁简体、韩文和日文。这说明针对东亚文字的OCR技术是和针对字母的OCR技术是有一些明显的不同的。

如果要使用中文OCR软件,最有名的两个是清华文通的TH-OCR(原名清华紫光OCR)和汉王科技的文本王系列。其它的国产OCR软件要么是基于这2个软件的,要么效果比较差。例如超星阅读器内嵌的OCR功能就颇不能让人满意。

即使是这两个最著名的中文OCR软件,也是不能让人满意的,具体不细评价(何况我还没有测试过汉王科技的文本王系列)。总之,这些国产OCR产品的产品介绍是超出了它们在现实中所具有的能力的。

举例而言,汉王吹嘘文本王软件“对印刷文稿录入的识别率高达99.5%”。这是一种典型的吹嘘法2:用一个理想化的事例作为典型实例告诉听众(就像房地产商卖房子),但事实是听众大部分时候所需要处理的数据都不是处在理想化的状态的。因此可以讲,实际使用中大部分时候(远远)达不到99.5%的识别率。而且,正确识别了文字也不等于所识别的文字就有用。你可以把所有的字都识别的,但是如果这些被识别后的字是无序的,那么识别率就算是100%也是没有意义的。目前所有的OCR软件在文字识别后的格式处理都不尽如人意,这是OCR软件的一个软肋。

中文OCR应该仍然有很多需要解决的(关键性的)技术问题。

中文OCR的需求应该是非常强大的,因为中国是一个有着数千年历史积淀的国度,有着太多的纸质资料需要电子化。因此,中文OCR是一个很有前途的方向,但需要相应的技术实力去做。目前国产OCR软件还有很大的提升空间。如果结合国外先进的OCR技术进行中文化,会是一个比较好的中文OCR发展方向。

[补充说明1] 对于OCR软件的具体评测请参见“文字识别(OCR)软件评测”一文。

[补充说明2] 这种吹嘘的手法我们曾经在“对《金山快译2005》的评价”一文中见过。

[补充说明3] 用过“Google Scholar”的朋友可能会发现,Google也是一个潜在的OCR巨人,因为它的搜索技术能够搜索到通过扫描录入的论文内容。要做到这点,首先必须具备相应的OCR技术,而Google在任何一个它准备进入的领域都做得极其出色。只是不知道Google使用的OCR技术是自己的还是别人的。

[补充说明4] 如果ABBYY和OmniPage能够突破OCR中文识别技术并进入中文市场,当前的国产OCR软件都将死得很惨,就如同曾经的文字处理软件WPS、CCED等。

有意思的是,应用软件开发中,大部分国产软件处于溃败状态,敌不过国外软件。能够存活下来并且发展得比较好的,好些是那些对中文文字依赖度比较高的软件,例如金山词霸,还有就是OCR软件。

在杀毒软件市场,虽然国外软件技术上做得更好,但是由于国内杀毒公司能够提供更好的中文化服务和本地服务,并且使用方式更适合中国人的习惯,何况杀毒效果表面上看起来差异性不是太大,因此国产杀毒软件也能在市场上占据相当的地盘。但是纯粹从技术的角度来讲,国内的软件技术整体上始终是落后的。只是由于有文化这样的一个屏障,使得国产软件公司可以更轻松一点地喘口气。
类别: