OCR

OCR与中文化

有两大突破传统键盘输入技术的信息输入技术:一是语音,二是手写和OCR(意译为“文字识别”)。本文主要讨论OCR,但也适用于手写,因为两者使用的技术是一致的。

国际上第一流的OCR软件是ABBYY FineReader和ScanSoft OmniPage(ScanSoft公司前2个月更名为Nuance),其它OCR软件都明显不如这两款软件1。ABBYY FineReader是俄国人开发的。俄国人开发的著名软件不多,但却有2个是世界第一流的,一个是OCR软件ABBYY FineReader,还有一个就是Kaspersky Anti-Virus反病毒软件(原名AVP)。OmniPage是美国公司Nuance推出的,该公司在语音和图像识别技术上都有一定的功力。

这两款世界一流的OCR软件在文字识别上功能很强大,只是对于科技文献(尤其是含有各种数理表达式的文献)的识别有些弱。另外,这两个第一流的OCR软件都有一个共同点,就是支持多种文字语言,大约支持170种到190种文字语言。这两个软件还有一个共同点,就是都不支持东亚文字语言,例如中文繁简体、韩文和日文。这说明针对东亚文字的OCR技术是和针对字母的OCR技术是有一些明显的不同的。

如果要使用中文OCR软件,最有名的两个是清华文通的TH-OCR(原名清华紫光OCR)和汉王科技的文本王系列。其它的国产OCR软件要么是基于这2个软件的,要么效果比较差。例如超星阅读器内嵌的OCR功能就颇不能让人满意。

即使是这两个最著名的中文OCR软件,也是不能让人满意的,具体不细评价(何况我还没有测试过汉王科技的文本王系列)。总之,这些国产OCR产品的产品介绍是超出了它们在现实中所具有的能力的。

举例而言,汉王吹嘘文本王软件“对印刷文稿录入的识别率高达99.5%”。这是一种典型的吹嘘法2:用一个理想化的事例作为典型实例告诉听众(就像房地产商卖房子),但事实是听众大部分时候所需要处理的数据都不是处在理想化的状态的。因此可以讲,实际使用中大部分时候(远远)达不到99.5%的识别率。而且,正确识别了文字也不等于所识别的文字就有用。你可以把所有的字都识别的,但是如果这些被识别后的字是无序的,那么识别率就算是100%也是没有意义的。目前所有的OCR软件在文字识别后的格式处理都不尽如人意,这是OCR软件的一个软肋。

中文OCR应该仍然有很多需要解决的(关键性的)技术问题。

中文OCR的需求应该是非常强大的,因为中国是一个有着数千年历史积淀的国度,有着太多的纸质资料需要电子化。因此,中文OCR是一个很有前途的方向,但需要相应的技术实力去做。目前国产OCR软件还有很大的提升空间。如果结合国外先进的OCR技术进行中文化,会是一个比较好的中文OCR发展方向。

[补充说明1] 对于OCR软件的具体评测请参见“文字识别(OCR)软件评测”一文。

[补充说明2] 这种吹嘘的手法我们曾经在“对《金山快译2005》的评价”一文中见过。

[补充说明3] 用过“Google Scholar”的朋友可能会发现,Google也是一个潜在的OCR巨人,因为它的搜索技术能够搜索到通过扫描录入的论文内容。要做到这点,首先必须具备相应的OCR技术,而Google在任何一个它准备进入的领域都做得极其出色。只是不知道Google使用的OCR技术是自己的还是别人的。

[补充说明4] 如果ABBYY和OmniPage能够突破OCR中文识别技术并进入中文市场,当前的国产OCR软件都将死得很惨,就如同曾经的文字处理软件WPS、CCED等。

有意思的是,应用软件开发中,大部分国产软件处于溃败状态,敌不过国外软件。能够存活下来并且发展得比较好的,好些是那些对中文文字依赖度比较高的软件,例如金山词霸,还有就是OCR软件。

在杀毒软件市场,虽然国外软件技术上做得更好,但是由于国内杀毒公司能够提供更好的中文化服务和本地服务,并且使用方式更适合中国人的习惯,何况杀毒效果表面上看起来差异性不是太大,因此国产杀毒软件也能在市场上占据相当的地盘。但是纯粹从技术的角度来讲,国内的软件技术整体上始终是落后的。只是由于有文化这样的一个屏障,使得国产软件公司可以更轻松一点地喘口气。
类别: 

文字识别(OCR)软件评测

** 综述
        本次评测将评测专业OCR(文字识别)软件。
        若非特别说明,所有评测都基于最新版的该软件进行。
        本次评测将评测6个软件。其中5款是根据about.com的一篇文章"Top 5 OCR Software for Windows"(Windows上最佳的5款OCR软件)而选出的,另外一款(Readiris)是通过google.com搜索得到的。
        因为OCR软件的具体评测涉及到一些比较深入、专业的评测标准,需要较多时间来完成具体的评测,而本人对于软件评测向来不愿多耗时间,因此本次评测仅仅是对该类软件的粗略评测。本次评测不评测OCR对东亚字体的识别能力,也不评测中文OCR软件。清华紫光TH-OCR是唯一一个我所知道的比较出色的中文OCR软件。
        评测结论:ABBYY FineReader Pro最佳。其次ScanSoft OmniPage。

** ABBYY FineReader Pro (推荐)
        当前最新版本:
                v7.0.0.643
        缺点:
                不支持中文文字识别。
        优点:
                相对而言,对于"上标"这样的特殊字符识别能力很强,对于文字格式识别能力很强。
                相对而言,对于文章中用于分割文章内容的长横线识别能力很强。
                相对而言,单词识别准确率最高。
        其它:
                有最新版本XX。
                单个软件价值$300美元。
        评测时间:
                2005-03-25 01:13:50

** Presto! OCR Pro (未具体测试,不推荐)
        当前最新版本:
                v4.0b build 4.0.2.40
        缺点:
                当前最新版本(v4.0)发布日期为2002-01-30,到目前已经2年多没有更新了。
                该软件基于ABBYY的FineReader技术。
        优点:
                N/A
        其它:
                有最新版本XX。
                基于以上两点缺点,没有必要具体评测该软件。
        评测时间:
                2005-03-24 23:26:51

** Readiris Pro (不推荐)
        当前最新版本:
                v10.02 build 3925
        缺点:
                相对而言,对于"上标"这样的特殊字符识别能力弱,对于文字格式识别能力弱。
                相对而言,单词识别准确率相对较低。
                因为在上述两点上明显弱于ScanSoft OmniPage和ABBYY FineReader Pro,因此没有详细评测该软件其他功能。
        优点:
                N/A
        其它:
                有最新版本XX。
                单个软件价值$130美元。
        评测时间:
                2005-03-25 01:13:43

** ScanSoft OmniPage (推荐。第二选择)
        当前最新版本:
                v14
        缺点:
                不支持中文文字识别。
        优点:
                相对而言,对于"上标"这样的特殊字符识别能力很强,对于文字格式识别能力很强。但对于文字格式过于敏感,尤其是在区分文字是否是粗体的时候过于敏感。
                相对而言,对于文章中用于分割文章内容的长横线识别能力比较强,但部分时候不能正确识别。
                相对而言,单词识别准确率很高,但对于被分割的单词自动识别能力差。(例如单词listen若在某行末尾,被切割换行成"lis-ten"后,该软件不能识别出该单词为listen,而是生硬的转换成"lis-ten")。
                有未经测试的声音书籍转换功能(将生成的电子文档转换成声音书籍)。
        其它:
                有最新版本XX。
                单个软件价值$150美元。
        评测时间:
                2005-03-25 01:13:40

** ScanSoft TextBridge (未具体测试,不推荐)
        当前最新版本:
                v11
        缺点:
                N/A
        优点:
                N/A
        其它:
                有最新版本XX。
                单个软件价值$80美元。
                基于个人的理解,我认为该软件的功能相当于ScanSoft OmniPage的部分功能加上扫描功能。因此没有必要具体评测该软件。
        评测时间:
                2005-03-24 23:50:39

** TypeReader Pro (未具体测试,不推荐)
        当前最新版本:
                v6.0
        缺点:
                暂无最新版本XX。
                根据官方网站的资料,当前最新版本(v6.0)是在2002年5月8日发布,将近5年没有更新。
        优点:
                N/A
        其它:
                因为软件很久没有更新,因此没有必要具体评测该软件。
        评测时间:
                2005-02-20 20:34:37

[补充说明] 关于中文OCR的相关信息参见“OCR与中文化”一文。
类别: