卷起袖子做老师
《李开复自传》连载
2010-08-20   作者:  来源:经济参考网
 
    是不是做了院长,就可以不做项目了?我给自己的答案是:不行。其实原因非常简单——人手不够。
    当时,研究院确立的研究方向之一是“音字技术组”,也就是教电脑听话、讲话。这个恰好是我的博士论文的内容,但是我早就脱离了这个领域,而且已经多年没有写程序。但在研究院,我是唯一懂这方面技术的人,我只有勉为其难地卷起袖子,和我招到的几位副研究员一起工作。
    邸烁和陈正是清华的高材生,尽管不是学语音的,但是1999年他们进入希格玛大厦的时候,选择了语音识别小组。每天,我拿着语音的教科书,从最基础的知识开始教他们。读完基础的课本后,他们开始练习在这个新的领域编程,然后,我再把我的论文拿出来,一章一章地讲给他们听。这两个年轻人都聪明过人,可以阅读世界水平的学术论文。另外,他们可以利用微软的“资源共享”制度,从美国研究院语音负责人那里拿来全套的语音软件。有了这些技术和源代码,这就像攀登100层的高楼,两人一开始就站在了50层。他们俩进步神速,两年后,都成了项目负责人,如今在不同的公司取得了骄人的成绩。
    在他们俩之后,我们组又来了个年轻人——高剑峰。高虽然也是名校(上海交通大学)的博士,但是他的专业是机械设计,方向是“工业造型”。因此,他经历过一段颇为迷茫的时期。
    那一年,我去上海交大招聘,正好遇到了高剑峰,就问他在研究些什么?他兴致勃勃地说了他的研究。我当头泼了他一盆冷水,说,“这个东西在美国早过时了,你还研究什么,还不如到微软来换个有用的题目呢。”没想到,他真的来了,闯过了应聘的重重关卡,加入了语音识别小组。
    不过,他马上感觉到了强大的压力,邸烁和陈正不断取得突破,而他连门道都没摸清楚,有时候遇到一个问题,他还没有弄明白是怎么回事,人家已经解决了。
    看到高剑峰非常苦恼,我开玩笑地对他说,“你是不是混进来的啊?”他抬头看我,表情很窘迫。我笑了笑,对他说,“你不是计算机专业毕业的,但是我觉得你还是有潜力的,如果有不懂的问题,我觉得你可以去请教一下组里的同事,毕竟我们是一个团队,也欢迎你随时来找我。”
    高剑峰点了点头,就去找邸烁和陈正了。这两个小伙子一点都不吝啬,把自己知道的东西都告诉了高剑锋,一些问题经他们点拨,就轻松化解了。
    在不断的学习中,高剑峰的信心被慢慢地树立了起来。他觉得,作研究就像一场长跑比赛,遇到了高手,被人家甩得很远,不能着急,不能乱了方寸,该怎么跑还是怎么跑。他后来总是告诉新来的研究员不要在意中途的快慢,最后胜出的人,才是真正的胜者。
    高剑峰就这么跟了几年,先学着跑,再自己跑,渐渐地不再感觉累。到了第四年,他已经是“项目带头人”,换句话说,他也是一个“领跑者”了。现在,他已经转到微软美国,在那里做资深研究员。
    语音识别不是仅仅把每个字分别识别出来,而是像人一样,要运用到语言的知识。中文有一个特殊的问题,就是分词。一个笑话就是“杭州市长春药店”,人们看到这个店名的时候,自然而然地知道是“杭州市/长春/药店”。但是仅仅向前推一个字,电脑很可能会识别成为“杭州/市长/春药店”。
    如何做到正确的识别呢?我告诉陈正:“国内的语音识别往往是先分词,然后识别。这是彻底的错误,因为第一次分词总可能出错,一定要同时分词和识别,经过所有的排列与组合,挑选出最好的结合。”
    然后,我发现我们的语言模型语料远远不够。语言模型的功能是经过大量的统计,来判断在下一个位置最可能出现哪些字,比如说,看到“尊敬的李”时,我们可能预测下面会是“先生”、“老师”、“女士”等词,各有不同的概率。我对他说,“在中国做语音搜索统计,只联系到前面的一个词,但是中文的语言特点是歧义特别多。仅仅依靠向前推一个词,电脑并不能作出正确的判断,至少要向前推两个词。”我们请黄昌宁教授去开始一个语料采购的计划,训练出这样推两个词的语言模型。
    另外,中文和英文很大的一个差别就是中文有四声的识别。这方面团队很快地做了一个四声识别器,和整体的识别系统结合起来。就像分词一样,一定不能先把四声识别出来,而要考虑所有的可能性,再作出总体最优的选择。
    在他们三人以及后来加入的几位副研究员的努力下,很快,一个中文语音识别系统就做出来了。
    此后,陈正和我发现这个系统不但可以做语音识别,也可以做拼音转换。我们尝试了一下,果然转换率比当时任何系统都要高很多。除此之外,我们还发现可以用统计模型做出一种奇妙的功效——自动纠正人为造成的拼写错误,也就是说,如果你打入:“zunjingdelixansheng”,这个系统可以发现你少打了一个“i”,而自动转换成“尊敬的李先生”。后来,这个项目,由陈正做内核的技术,王坚做用户界面,成为了一个高质量的输入法。
    在短短的一年内,这个五人团队就做出了多项傲人的成果:中文的四声识别、最精确的输入法、中文的听写机,还有多用途的统计语言模型。这些项目都符合了我们“有用”的目标,也用我们的“兵团”模式迅速获得了成果。
    与此同时,研究院里其他小组,都在为有用的梦想而全力打拼。
  凡标注来源为“经济参考报”或“经济参考网”的所有文字、图片、音视频稿件,及电子杂志等数字媒体产品,版权均属新华社经济参考报社,未经书面授权,不得以任何形式发表使用。
 
相关新闻:
· 《巴菲特致股东的信》:价值投资者的必读书 2010-08-13
· 深圳读书月"全民阅读网"上线 2010-08-11
· 第六届江苏读书节在南京开幕 2010-07-20
· 深圳民间读书会网罗爱书人参与 2010-07-20
· [读书频道]《五常学经济》 2010-07-01
 
频道精选:
·[财智频道]天价奇石开价过亿元 谁是价格推手?·[财智频道]存款返现赤裸裸 银行揽存大战白热化
·[思想频道]垄断行业收入分配改革的理论廓清·[思想频道]中国品牌的追求不能急于求成
·[读书频道]《五常学经济》·[读书频道]投资尽可逆向思维 做人恪守道德底线