中文

关于MySQL的中文全文检索技术

昨天有访客提到网志程序senrendipity的站内搜索功能(需要用到MySQL数据库的全文检索技术)对中文的支持很差。我当时的回复是“限于客观原因等,此问题暂无理想的方案”。

后来我进一步地去网上做了相关的调查。根据MySQL数据库产品开发人员的意见,MySQL全文检索技术对东亚文字(包括中文、日文和韩文)的支持很差,是因为对于东亚文字的有效分词很难实现。一个并不完美但可以参考的使用方案是在用数据库存储东亚文字的时候,将两个东亚文字之间都留上空格,这样就可以实现对东亚文字的全文检索了。

当然这个方案只是一个临时的无可奈何之举。

2个著名的免费数据库系统MySQL和PostgreSQL都支持全文检索,但好像都不支持东亚文字的全文检索。而据我所知微软的SQL Server数据库产品是支持针对中文的全文检索的(想必Oracle也应该支持中文的全文检索)。因此,我在想,为什么就没有人去做一下MySQL的中文全文检索的研究工作呢?我们很多的研究生所作的毕业论文涉及各种各样的课题,但其中真正有价值、有意义的也许不是很多,那为什么不能把我们有限的精力拿来做点更有意义的事情呢?

当然我是不会去做这方面的研究的了,但我期望有人能够去解决这个问题。

[补充说明1] 可参考海量科技的MySQL Chinese+产品。该产品(部分)支持中文全文检索。 2006-03-04 04:03:26
类别: