如何修复eGroupWare邮件乱码问题

程序: eGroupWare
版本: v1.0.0.009
问题: 邮件显示标题和内容均为乱码。此现象应该会出现在所有使用东亚文字的该系统中。
文件: email/inc/class.mail_msg_base.inc.php
函数: htmlspecialchars_encode($str, $charset='')
行数: 5188-5191左右


改写为:
1 if (!$charset)
2 {
3 $charset = "gb2312"; // 修改,仅对中文简体有效
4 }
5 $str = mb_convert_encoding($str, "UTF-8", $charset); // 新增
6 $str = htmlentities($str, ENT_QUOTES, $charset);

对论坛email的搜集

今天早上做了520的个人陈述(presentation),标题是“web欺骗和web防御”。自己讲的比较尽兴,但是估计理解清楚的听众不是很多,何况自己的表达能力也就一般般 :D

刚上mycust,突然看到一则新帖《mycust的会员资料成了网上商品》,里面说到,“在试用百度搜索时,想试看看mycust的知名度,作为关键字一搜乖乖不得了,发现了一个链接,点击进入一看发现竟然是一个提供mycust会员资料下载的链接!”。

初阅此贴既吃惊又愤怒:居然有校友吃里爬外把这种内部消息泄露到网络上!继而想到,应该不是校友外泄资料,而是也许网站有漏洞,因此被人偷去了资料;进而想到,哈!这不就是我今天课程陈述里讲的内容吗:有个混蛋写了个程序专门收集论坛的email!

一些造福全人类的公益项目

一些纯民间组织的、造福全人类的、大公无私的、公益性的、无政治种族偏见的、让人感动的项目:

1. GNU源代码开放sf.net等。

[小笑话] 老相好

傍晚,一个也是南京来的女孩来访。她跟我打个招呼说,“老乡好”。我答道:“是老乡,不是老相好(老乡好)”。

谈海外软件巨头在中国设立技术研究院

在“OCR与中文化”一文的最后,我提到“如果ABBYY和OmniPage能够突破OCR中文识别技术并进入中文市场,当前的国产OCR软件都将死得很惨,就如同曾经的文字处理软件WPS、CCED等”。

这里,我不由得想起来两个正在为信息技术本土化和中文化而做出努力的两大软件巨头:微软和Google。这两大巨头不约而同地先后在中国设立了技术研究院。

曾几何时,国人和信息产业部都为微软和Google在中国开设研究院而兴奋,认为这是中国市场在世界上得以提升、中国信息技术水平得到世界认可的标志之一。但是,为什么微软和Google要在中国开设研究院?一是中国的人才潜力,另外一个,则是因为文化问题阻碍了其产品市场的进一步拓展。东亚文化(主要指中文、日文和韩文)和以字母为载体的西方文化有着一些根本性的差异,微软和Google要进入东亚市场,有很多依靠他们自己难以克服的阻力。文化问题阻挡了微软和Google产品在东亚市场的进一步拓展。因此,微软和Google需要借助东亚人自己的技术力量和研究成果,让自己的产品更强有力地占据东亚市场。

OCR与中文化

有两大突破传统键盘输入技术的信息输入技术:一是语音,二是手写和OCR(意译为“文字识别”)。本文主要讨论OCR,但也适用于手写,因为两者使用的技术是一致的。

国际上第一流的OCR软件是ABBYY FineReader和ScanSoft OmniPage(ScanSoft公司前2个月更名为Nuance),其它OCR软件都明显不如这两款软件1。ABBYY FineReader是俄国人开发的。俄国人开发的著名软件不多,但却有2个是世界第一流的,一个是OCR软件ABBYY FineReader,还有一个就是Kaspersky Anti-Virus反病毒软件(原名AVP)。OmniPage是美国公司Nuance推出的,该公司在语音和图像识别技术上都有一定的功力。

这两款世界一流的OCR软件在文字识别上功能很强大,只是对于科技文献(尤其是含有各种数理表达式的文献)的识别有些弱。另外,这两个第一流的OCR软件都有一个共同点,就是支持多种文字语言,大约支持170种到190种文字语言。这两个软件还有一个共同点,就是都不支持东亚文字语言,例如中文繁简体、韩文和日文。这说明针对东亚文字的OCR技术是和针对字母的OCR技术是有一些明显的不同的。

技术是永远的双刃剑

周一在569课程上我作汇报,讲述web services的几个不实传言,其中提到“动态链接”功能看似不错,其实是个双刃剑。

其实,很多技术都是双刃剑。

最简单的例子就是枪。枪可以用来防身,但弄不好就成了作案工具了。

如果从技术上来讲,Windows操作系统也是一个双刃剑。它的不断升级使得其功能越来越强大,但是它对硬件的要求也越来越高、系统的复杂程度也越来越复杂了。

好了,回过头来说说我为什么想到双刃剑这个问题。

/robots.txt这个文件可以用来防止搜索引擎把自己不想发布的一些网站信息发布到搜索引擎当中去。看上去,/robots这个文件是挺有作用的。

但是这个“有作用”是仅仅针对(按逻辑出牌的)搜索引擎来讲的,对人来讲是不适用的。

就拿deminy.net来讲,deminy.net的/robots.txt定义了好些子目录不该被搜索引擎收录,但是一个刻意搜寻deminy.net信息的技术人员却可以通过这个文件发现deminy.net下面很多不公开的内容。

网站变更记录 v1.8.6

接Simonkey昨日在留言本的建议,在本站每个页面(仅限于中文版大部分内容)的底部增加了Google站内搜索的功能。

注册Google Sitemap功能,创建为Google Sitemap服务的sitemap.gz文件(仍有待完善)。

定义robots.txt。

[补充说明] 关于站内搜索,以前用过HouseSpider,一个源代码开放的基于Java Applet的程序。它的实现机制是:每次搜索都通过HTTP把整个网站的所有页面访问一遍,然后进行信息匹配。(:D)

谈王垠

夜里好好看了看王垠在清华的个人主页MSN空间的Blog

从我的理解来看,王垠退学的举措不是疯狂,不是高分低能,也不是心理脆弱。虽然他的退学举动很可能还有些冲动和不成熟的成分在里面,但是他的退学举动是深思过的、是勇敢的、是值得欣赏的,甚至是值得鼓励的。他是一个有思想的学生。

他不是完人,未来他的道路也不一定能够很顺利,但是他今天的举措会让很多人欣赏,甚至佩服。因为在周围好些人被迫选择趴着生存的时候,他选择站着生存。

《完全用Linux工作》读后感(2)

王垠的文章里面还有好几个有趣的观点,介绍Unix的一些设计理念(此处我暂时无法转述其相关文字,因为没有详细阅读和摘录),而这些理念是一个真正的信息技术研究者所应该重视的,而他所批评的一些理念也正是我的一些缺点所在。

我前几天写了点草稿文字,把我和我的一位技术方面的网友yahao之间的差异做了点比较。我说,“在技术上,deminy和yahao最明显的区别是,yahao很专情,而deminy则很滥情。yahao很专注于微软的技术,而且前2年尤其专注于如何提高M$ web和数据库服务器程序性能,为此他做了好些研究,思考了很多,在这方面也做出了非常明显的成绩;而deminy呢,在技术上喜欢尝试各种新鲜玩艺,一个新东西、新技术拿到手后,把玩得差不多了,就丢一边去了,眼界是越来越高了,具体手艺则有些生疏了。”

举例来讲,deminy以前觉得,要能站在技术的前沿,就要同时也能看得多、看得广、看到最前沿的。拿软件来讲,就应该多使用不同的软件,多试用最新的、最好的软件。熟读唐诗三百首,不会作诗也会吟嘛。这一点是没有大错的,但是,当自己的眼界到了一定的地步后,就应该开始专情一点,而不能继续滥情,因为从技术研究的角度来讲,滥情是没有好的结果的。