文字识别(OCR)软件评测

** 综述
        本次评测将评测专业OCR(文字识别)软件。
        若非特别说明,所有评测都基于最新版的该软件进行。
        本次评测将评测6个软件。其中5款是根据about.com的一篇文章"Top 5 OCR Software for Windows"(Windows上最佳的5款OCR软件)而选出的,另外一款(Readiris)是通过google.com搜索得到的。
        因为OCR软件的具体评测涉及到一些比较深入、专业的评测标准,需要较多时间来完成具体的评测,而本人对于软件评测向来不愿多耗时间,因此本次评测仅仅是对该类软件的粗略评测。本次评测不评测OCR对东亚字体的识别能力,也不评测中文OCR软件。清华紫光TH-OCR是唯一一个我所知道的比较出色的中文OCR软件。
        评测结论:ABBYY FineReader Pro最佳。其次ScanSoft OmniPage。

** ABBYY FineReader Pro (推荐)
        当前最新版本:
                v7.0.0.643
        缺点:
                不支持中文文字识别。
        优点:
                相对而言,对于"上标"这样的特殊字符识别能力很强,对于文字格式识别能力很强。
                相对而言,对于文章中用于分割文章内容的长横线识别能力很强。
                相对而言,单词识别准确率最高。
        其它:
                有最新版本XX。
                单个软件价值$300美元。
        评测时间:
                2005-03-25 01:13:50

** Presto! OCR Pro (未具体测试,不推荐)
        当前最新版本:
                v4.0b build 4.0.2.40
        缺点:
                当前最新版本(v4.0)发布日期为2002-01-30,到目前已经2年多没有更新了。
                该软件基于ABBYY的FineReader技术。
        优点:
                N/A
        其它:
                有最新版本XX。
                基于以上两点缺点,没有必要具体评测该软件。
        评测时间:
                2005-03-24 23:26:51

** Readiris Pro (不推荐)
        当前最新版本:
                v10.02 build 3925
        缺点:
                相对而言,对于"上标"这样的特殊字符识别能力弱,对于文字格式识别能力弱。
                相对而言,单词识别准确率相对较低。
                因为在上述两点上明显弱于ScanSoft OmniPage和ABBYY FineReader Pro,因此没有详细评测该软件其他功能。
        优点:
                N/A
        其它:
                有最新版本XX。
                单个软件价值$130美元。
        评测时间:
                2005-03-25 01:13:43

** ScanSoft OmniPage (推荐。第二选择)
        当前最新版本:
                v14
        缺点:
                不支持中文文字识别。
        优点:
                相对而言,对于"上标"这样的特殊字符识别能力很强,对于文字格式识别能力很强。但对于文字格式过于敏感,尤其是在区分文字是否是粗体的时候过于敏感。
                相对而言,对于文章中用于分割文章内容的长横线识别能力比较强,但部分时候不能正确识别。
                相对而言,单词识别准确率很高,但对于被分割的单词自动识别能力差。(例如单词listen若在某行末尾,被切割换行成"lis-ten"后,该软件不能识别出该单词为listen,而是生硬的转换成"lis-ten")。
                有未经测试的声音书籍转换功能(将生成的电子文档转换成声音书籍)。
        其它:
                有最新版本XX。
                单个软件价值$150美元。
        评测时间:
                2005-03-25 01:13:40

** ScanSoft TextBridge (未具体测试,不推荐)
        当前最新版本:
                v11
        缺点:
                N/A
        优点:
                N/A
        其它:
                有最新版本XX。
                单个软件价值$80美元。
                基于个人的理解,我认为该软件的功能相当于ScanSoft OmniPage的部分功能加上扫描功能。因此没有必要具体评测该软件。
        评测时间:
                2005-03-24 23:50:39

** TypeReader Pro (未具体测试,不推荐)
        当前最新版本:
                v6.0
        缺点:
                暂无最新版本XX。
                根据官方网站的资料,当前最新版本(v6.0)是在2002年5月8日发布,将近5年没有更新。
        优点:
                N/A
        其它:
                因为软件很久没有更新,因此没有必要具体评测该软件。
        评测时间:
                2005-02-20 20:34:37

[补充说明] 关于中文OCR的相关信息参见“OCR与中文化”一文。
类别: 

评论

你丫推荐的都没有中文,乱写什么

支持,国产的多不好

FineReader 和Readiris 都已经支持中文了
OmniPage好像也加入了中文,

大哥测试看看如何?

是的。FineReader支持中文已经有好一些日子了,不过我对识别中文的需求几乎没有,因此也就没有做这方面的测试。后面一段时间也不一定能有机会做这个。

谢谢关注

做了下实验
对比产品
汉王文本王7600
清华紫光thocr 7.0
FineReader 最新的10版
其他的什么尚书7号之类或者office2003自带的都是汉王或者紫光的OEM,不用测试

实验结果是FineReader 远远超越前面两者
理由1,汉王和紫光还是老习惯,很多格式不支持,pdf格式不支持,jpg还是gif的某一种提示什么颜色数过多还是什么来着,感觉莫名其妙

理由2.随便搞了个pdf的书,转换成图片,三者对比,FineReader 完全正确,汉王的有10%的错字,紫光的识别乱七八糟没法看

理由3,偶拿破手机随便拍了个墙壁上的排行榜,颜色和光源都不怎么样,测试。汉王虽然有照片模式,但是识别出一堆乱码。没法用,紫光也是乱码一堆,FineReader 选择用表格模式,重新划分下识别区域以后,正确识别70%以上的内容

至于OmniPage和Readiris就没仔细测试,因为FineReader 虽然识别比较慢,但是结果很好,偶是个测试最看重结果的,结果ok,过程慢点什么的无所谓,识别的再快,乱码错误一大堆,干脆不用。。

支持格式太少始终是国产软件的困难

实话实说,国产OCR一直不怎么样的
多少年了还是固守着那几种可识别格式
似乎丝毫不想支持目前已经很流行的pdf格式

对了,国产OCR还有一个巨大的bug
我识别测试的是本高等数学教材
FineReader 能够自动把里面的图片和文字分开,虽然数学公式识别怎么样,但是能够让他自己以图片模式处理
识别完以后发送到word,几乎一模一样。。。
其他两款产品OmniPage和Readiris没仔细测试了,

添加新评论

友情提醒:您的言论自由在本站会得到充分保证;不过,由于广告留言等猖獗,因此本站的内容过滤系统有可能会暂时屏蔽您新发的留言或评论。不便之处,希望理解。