文字识别(OCR)软件评测
deminy 在 周四, 2005-03-24 23:14 提交
** 综述
本次评测将评测专业OCR(文字识别)软件。
若非特别说明,所有评测都基于最新版的该软件进行。
本次评测将评测6个软件。其中5款是根据about.com的一篇文章"Top 5 OCR Software for Windows"(Windows上最佳的5款OCR软件)而选出的,另外一款(Readiris)是通过google.com搜索得到的。
因为OCR软件的具体评测涉及到一些比较深入、专业的评测标准,需要较多时间来完成具体的评测,而本人对于软件评测向来不愿多耗时间,因此本次评测仅仅是对该类软件的粗略评测。本次评测不评测OCR对东亚字体的识别能力,也不评测中文OCR软件。清华紫光TH-OCR是唯一一个我所知道的比较出色的中文OCR软件。
评测结论:ABBYY FineReader Pro最佳。其次ScanSoft OmniPage。
** ABBYY FineReader Pro (推荐)
当前最新版本:
v7.0.0.643
缺点:
不支持中文文字识别。
优点:
相对而言,对于"上标"这样的特殊字符识别能力很强,对于文字格式识别能力很强。
相对而言,对于文章中用于分割文章内容的长横线识别能力很强。
相对而言,单词识别准确率最高。
其它:
有最新版本XX。
单个软件价值$300美元。
评测时间:
2005-03-25 01:13:50
** Presto! OCR Pro (未具体测试,不推荐)
当前最新版本:
v4.0b build 4.0.2.40
缺点:
当前最新版本(v4.0)发布日期为2002-01-30,到目前已经2年多没有更新了。
该软件基于ABBYY的FineReader技术。
优点:
N/A
其它:
有最新版本XX。
基于以上两点缺点,没有必要具体评测该软件。
评测时间:
2005-03-24 23:26:51
** Readiris Pro (不推荐)
当前最新版本:
v10.02 build 3925
缺点:
相对而言,对于"上标"这样的特殊字符识别能力弱,对于文字格式识别能力弱。
相对而言,单词识别准确率相对较低。
因为在上述两点上明显弱于ScanSoft OmniPage和ABBYY FineReader Pro,因此没有详细评测该软件其他功能。
优点:
N/A
其它:
有最新版本XX。
单个软件价值$130美元。
评测时间:
2005-03-25 01:13:43
** ScanSoft OmniPage (推荐。第二选择)
当前最新版本:
v14
缺点:
不支持中文文字识别。
优点:
相对而言,对于"上标"这样的特殊字符识别能力很强,对于文字格式识别能力很强。但对于文字格式过于敏感,尤其是在区分文字是否是粗体的时候过于敏感。
相对而言,对于文章中用于分割文章内容的长横线识别能力比较强,但部分时候不能正确识别。
相对而言,单词识别准确率很高,但对于被分割的单词自动识别能力差。(例如单词listen若在某行末尾,被切割换行成"lis-ten"后,该软件不能识别出该单词为listen,而是生硬的转换成"lis-ten")。
有未经测试的声音书籍转换功能(将生成的电子文档转换成声音书籍)。
其它:
有最新版本XX。
单个软件价值$150美元。
评测时间:
2005-03-25 01:13:40
** ScanSoft TextBridge (未具体测试,不推荐)
当前最新版本:
v11
缺点:
N/A
优点:
N/A
其它:
有最新版本XX。
单个软件价值$80美元。
基于个人的理解,我认为该软件的功能相当于ScanSoft OmniPage的部分功能加上扫描功能。因此没有必要具体评测该软件。
评测时间:
2005-03-24 23:50:39
** TypeReader Pro (未具体测试,不推荐)
当前最新版本:
v6.0
缺点:
暂无最新版本XX。
根据官方网站的资料,当前最新版本(v6.0)是在2002年5月8日发布,将近5年没有更新。
优点:
N/A
其它:
因为软件很久没有更新,因此没有必要具体评测该软件。
评测时间:
2005-02-20 20:34:37
[补充说明] 关于中文OCR的相关信息参见“OCR与中文化”一文。
本次评测将评测专业OCR(文字识别)软件。
若非特别说明,所有评测都基于最新版的该软件进行。
本次评测将评测6个软件。其中5款是根据about.com的一篇文章"Top 5 OCR Software for Windows"(Windows上最佳的5款OCR软件)而选出的,另外一款(Readiris)是通过google.com搜索得到的。
因为OCR软件的具体评测涉及到一些比较深入、专业的评测标准,需要较多时间来完成具体的评测,而本人对于软件评测向来不愿多耗时间,因此本次评测仅仅是对该类软件的粗略评测。本次评测不评测OCR对东亚字体的识别能力,也不评测中文OCR软件。清华紫光TH-OCR是唯一一个我所知道的比较出色的中文OCR软件。
评测结论:ABBYY FineReader Pro最佳。其次ScanSoft OmniPage。
** ABBYY FineReader Pro (推荐)
当前最新版本:
v7.0.0.643
缺点:
不支持中文文字识别。
优点:
相对而言,对于"上标"这样的特殊字符识别能力很强,对于文字格式识别能力很强。
相对而言,对于文章中用于分割文章内容的长横线识别能力很强。
相对而言,单词识别准确率最高。
其它:
有最新版本XX。
单个软件价值$300美元。
评测时间:
2005-03-25 01:13:50
** Presto! OCR Pro (未具体测试,不推荐)
当前最新版本:
v4.0b build 4.0.2.40
缺点:
当前最新版本(v4.0)发布日期为2002-01-30,到目前已经2年多没有更新了。
该软件基于ABBYY的FineReader技术。
优点:
N/A
其它:
有最新版本XX。
基于以上两点缺点,没有必要具体评测该软件。
评测时间:
2005-03-24 23:26:51
** Readiris Pro (不推荐)
当前最新版本:
v10.02 build 3925
缺点:
相对而言,对于"上标"这样的特殊字符识别能力弱,对于文字格式识别能力弱。
相对而言,单词识别准确率相对较低。
因为在上述两点上明显弱于ScanSoft OmniPage和ABBYY FineReader Pro,因此没有详细评测该软件其他功能。
优点:
N/A
其它:
有最新版本XX。
单个软件价值$130美元。
评测时间:
2005-03-25 01:13:43
** ScanSoft OmniPage (推荐。第二选择)
当前最新版本:
v14
缺点:
不支持中文文字识别。
优点:
相对而言,对于"上标"这样的特殊字符识别能力很强,对于文字格式识别能力很强。但对于文字格式过于敏感,尤其是在区分文字是否是粗体的时候过于敏感。
相对而言,对于文章中用于分割文章内容的长横线识别能力比较强,但部分时候不能正确识别。
相对而言,单词识别准确率很高,但对于被分割的单词自动识别能力差。(例如单词listen若在某行末尾,被切割换行成"lis-ten"后,该软件不能识别出该单词为listen,而是生硬的转换成"lis-ten")。
有未经测试的声音书籍转换功能(将生成的电子文档转换成声音书籍)。
其它:
有最新版本XX。
单个软件价值$150美元。
评测时间:
2005-03-25 01:13:40
** ScanSoft TextBridge (未具体测试,不推荐)
当前最新版本:
v11
缺点:
N/A
优点:
N/A
其它:
有最新版本XX。
单个软件价值$80美元。
基于个人的理解,我认为该软件的功能相当于ScanSoft OmniPage的部分功能加上扫描功能。因此没有必要具体评测该软件。
评测时间:
2005-03-24 23:50:39
** TypeReader Pro (未具体测试,不推荐)
当前最新版本:
v6.0
缺点:
暂无最新版本XX。
根据官方网站的资料,当前最新版本(v6.0)是在2002年5月8日发布,将近5年没有更新。
优点:
N/A
其它:
因为软件很久没有更新,因此没有必要具体评测该软件。
评测时间:
2005-02-20 20:34:37
[补充说明] 关于中文OCR的相关信息参见“OCR与中文化”一文。
类别:
评论
你丫推荐的都没有中文,乱写什么
支持,国产的多不好
FineReader 和Readiris 都已经支持中文了
OmniPage好像也加入了中文,
大哥测试看看如何?
是的。FineReader支持中文已经有好一些日子了,不过我对识别中文的需求几乎没有,因此也就没有做这方面的测试。后面一段时间也不一定能有机会做这个。
谢谢关注
做了下实验
对比产品
汉王文本王7600
清华紫光thocr 7.0
FineReader 最新的10版
其他的什么尚书7号之类或者office2003自带的都是汉王或者紫光的OEM,不用测试
实验结果是FineReader 远远超越前面两者
理由1,汉王和紫光还是老习惯,很多格式不支持,pdf格式不支持,jpg还是gif的某一种提示什么颜色数过多还是什么来着,感觉莫名其妙
理由2.随便搞了个pdf的书,转换成图片,三者对比,FineReader 完全正确,汉王的有10%的错字,紫光的识别乱七八糟没法看
理由3,偶拿破手机随便拍了个墙壁上的排行榜,颜色和光源都不怎么样,测试。汉王虽然有照片模式,但是识别出一堆乱码。没法用,紫光也是乱码一堆,FineReader 选择用表格模式,重新划分下识别区域以后,正确识别70%以上的内容
至于OmniPage和Readiris就没仔细测试,因为FineReader 虽然识别比较慢,但是结果很好,偶是个测试最看重结果的,结果ok,过程慢点什么的无所谓,识别的再快,乱码错误一大堆,干脆不用。。
支持格式太少始终是国产软件的困难
实话实说,国产OCR一直不怎么样的
多少年了还是固守着那几种可识别格式
似乎丝毫不想支持目前已经很流行的pdf格式
对了,国产OCR还有一个巨大的bug
我识别测试的是本高等数学教材
FineReader 能够自动把里面的图片和文字分开,虽然数学公式识别怎么样,但是能够让他自己以图片模式处理
识别完以后发送到word,几乎一模一样。。。
其他两款产品OmniPage和Readiris没仔细测试了,
添加新评论
友情提醒:您的言论自由在本站会得到充分保证;不过,由于广告留言等猖獗,因此本站的内容过滤系统有可能会暂时屏蔽您新发的留言或评论。不便之处,希望理解。