《微软的梦工场》

下载本书

添加书签

微软的梦工场- 第35部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
夜色已深了。真有“不觉碧山暮,秋云暗几重”之境。
  电脑对联成功决
  我经常在想,为什么这么一个听起来有点天方夜谭的项目居然获得了如此大的成功?到底有哪些地方值得今后的工作借鉴呢?
  首先我认为,得益于沈向洋的匠心独运的选题。在此之前,重庆大学陈廷槐教授曾经给我写过一封信,寻求在计算机自动生成诗词曲联领域的合作。当时为此事跟沈向洋请教过。沈向洋认为这个题目太难了,最关键的一点就是生成的诗词的意境和表达形式可能是发散的。很难说什么是对的,什么不对的,因此不能有效地评价,而能够进行自动评价是关系到系统可持续发展的关键。我们认为对联需要首先输入上联,然后输出下联。两者已经要么相对,要么相合。在形式上,上联、下联要符合平仄,字数、词数要相当,而且上下联文字使用的规律要一致。譬如上联出现了叠字则下联一定要出现叠字,上联出现了叠音则下联一定要出现叠音。因此在形式上也有衡量的标准。而且,从机器学习的角度来讲,输入是上联和输出则是下联,结构非常清晰,便于学习。
  我们也讨论了项目的重要性。对联的研究,看似小题目,却牵扯大问题。首先,依靠互联网和人工智能技术帮助振兴和普及数千年中华文化,于国于民都是大事。在学术研究上,因为涉及到自然语言处理,人工智能、机器翻译的重要算法的研究,对推动以上学科领域的发展也大有价值。
  第二,我认为本项目的成功,得益于微软亚洲研究院的创新文化。微软研究院历来鼓励创新,不怕失败。因此,这样一个大胆的项目得到了沈向洋院长和继任的洪小文院长的大力支持,
  第三,这个项目涉及到自然语言处理、网络挖掘、网络服务、界面设计。需要上述种种领域的人才通力配合。微软研究院各个方面的人才济济,而且大家配合默契。良好的组织管理和团队精神,保证了这个项目的有条不紊地顺利进行。同时这个系统也是许多来自不同学校的实习同学一起努力的结果。在此,特别向参加本项目的所有同事和同学表示诚挚的谢意。
  许多人问我下一步的计划。我在想,利用微软对联技术,应该可以试一试绝句和律诗的自动生成了。但愿能够做出来,把中华文明发扬光大。
  作者介绍:
  周明,从2001年至今,担任微软亚洲研究院自然语言处理组主任。从事自然语言处理有23年历史。在1999年加入微软之前,曾任清华大学计算机系自然语言处理研究组的负责人。他是中国第一个中英机器翻译系统CEMT…1的研制者,在日本连续10年 (1998…2008) 市占率超60%的中—日、日—中机器翻译产品 “J…Beijing”的发明人。他领导的自然语言组在中文分词、跨语言检索,机器翻译等国际竞争中均获得第一名的佳绩。目前他担任《计算语言学》、《机器翻译》、《亚洲自然语言信息处理》等国际学术期刊的编委,还曾任世界计算语言学会议、世界人工智能大会的领域主席,亚洲信息检索大会程序委员会主席。他的信念是第一要做对的事,第二要用简单的方法,第三要做认真和执着的人。他业余时间喜欢读书,欣赏唐诗、宋词,当然还有对联。
  

找到属于自己的关键词 刘铁岩(1)
在研究院工作快5年了,没想到电子工程出身的我会和SIGIR ,这一信息检索领域的顶级会议,结下如此的不解之缘。
  从2004年到2008年,自己在信息检索这个方向上走过的道路,也是自己在微软亚洲研究院不断成长的过程:从熟悉信息检索这个领域,量身定做地投出第一篇SIGIR论文,到提高研究能力和写作技巧,到确定自己的主攻方向,到为引领一个研究学派而努力。
  期间的收获和感悟颇多,写下来愿与大家分享。
  第一年:“发表第一篇SIGIR论文”
  我毕业于清华大学电子工程系,博士论文工作是关于视频信号处理的,如视频切割、关键帧抽取、视频总结等。2003年加入微软亚洲研究院,2004年转入互联网搜索与挖掘组,从此开始了对信息检索这一全新领域的探索。
  这次转行没有想象的那么艰难,因为微软亚洲研究院在信息检索领域已经有了很多的成果,在SIGIR上也发表了不少论文。有这么好的一个平台,可以通过和同事们的交流很快进入状态。
  但是过程并不轻松,毕竟信息检索领域几十年的历史沉淀了很多的知识和经验,需要一点点去体会和掌握。为了更快更好地掌握这些知识,我和我的实习生们一起,在组内开展了一系列的讲座,包括《现代信息检索》、《最优化方法》、《统计机器学习》等等。经验证明,这种方法十分有效:自己看书学习是一种感觉,要能够在众人面前把东西透彻地讲出来,是另外一种境界。虽然不得不花很多的功夫,但是这个过程为我和我的实习生日后在信息检索领域的研究打下了坚实的理论基础。
  在提高基础知识的同时,我们也开始通过阅读论文,以及和同事的交流来了解SIGIR这个会议。当时的愿望很朴素:能够尽快地像其他同事一样,在SIGIR这个顶级学术会议上有论文发表。通过阅读论文,我逐渐发现SIGIR其实是个很传统,很重视经验结果的会议。SIGIR的论文通常都有很翔实的实验结果,因为只有这样才能验证所提出的算法在海量信息处理中是否有上佳的表现。作为进入这个领域的第一个尝试,我决定“投其所好”,为SIGIR“量身定做”一篇有关经验比较的论文。
  当时研究院正在参加TREC 比赛。这个比赛中有一个任务叫做Topic Distillation,其目的是找到与所查询主题最相关的子网站入口,也就是说即便有的时候子页面比父页面更加相关,我们还是希望返回父页面。为了解决这个问题,我们提出把网页里的关键词按照网站结构向父页面进行传播。经过实验验证,这个方法非常有效。于是我就想,是不是还有其他类似的做法呢?除了关键词以外,我们是否可以把网页的相关性得分(relevance score)进行传播?除了沿着网站结构以外,我们是否还可以沿着超级链接结构进行传播?有了这个想法以后,我们对以往的相关文献进行了调研,发现确实有人做过把相关性得分沿着超级链接进行传播的尝试。这就启发我对以上提及的各种传播方式进行系统的对比研究。于是我把所有相关的方法进行列举、分类,并对其进行了大量的实验比较,并最终得到了很多有意思的结果。我按照自己总结的SIGIR的“范式文本”,把这些比较结果写成了一篇论文,提交给了SIGIR 2005。最终这篇文章被录用了。虽然有些幸运的成分,但是不管怎么样,通过“模仿”,我的SIGIR之旅正式启航了。
  第二年:“掌握扩大战果的本领”
  发表第一篇文章固然重要,但是如何排除幸运的因素,真正具有持续发表SIGIR论文的实力更加重要。这方面,微软亚洲研究院的国际化平台给了我很大的帮助。每年,研究院都会吸引大量国外的知名学者来进行访问交流,我正是借助这样的机会认识了杨益銘教授。
  杨益銘教授是美国卡耐基梅隆大学的教授,是文本分类领域的专家。我有幸在她访问研究院期间和她合作了的一篇论文。当我把初稿写出来让她修改的时候,她来来回回和我讨论了5遍“引言”怎么写。其实她完全可以直接帮我把这一章改好,所花的力气要少很多。但是杨老师耐心地给我提意见,让我自己一点一点修改。这个过程使我意识到有了好的技术,还要清晰准确地表达出来,恰到好处地突出自己的贡献。这对我日后的论文写作以及给学生改论文都有很大的帮助。至今仍然十分羡慕杨老师的境界:“写论文其实是一件很享受的事情,写起来象清泉流水一样,禁不住要把那么好的研究成果和别人分享”。 电子书 分享网站

找到属于自己的关键词 刘铁岩(2)
和杨老师合作在SIGKDD Explorations 上发表了一篇关于大规模文本分类的论文之后,我又开始了独立准备下一年度SIGIR论文的阶段。不过,这次明显感觉与以往不同了:不再是为了量身定做一篇论文而找题目做,而是围绕着自己正在做的研究题目写论文。
  这次我准备的两篇文章一篇讲的是基于随机补的网络图排序,另外一篇则是关于文档检索的新算法。它们都不是有关经验比较的论文,也没有像第一年那样按照SIGIR的“范式文本”来写,但是这两篇文章也都被SIGIR 2006录用了。
  经过这个过程,我感觉自己真的入门了:至少知道什么样的工作是SIGIR这个领域真正认可的工作,也知道如何写出具有自己风格的论文来。
  第三年:“找到属于自己的关键词”
  入行两年发表了3篇SIGIR论文,其实并不是一件容易的事情,因为这个会议竞争非常激烈,每年全球范围内只收录几十篇文章,而且无疑来自美国的论文占了绝大多数。也因此,我慢慢被一些外面的学者认可,也接触到了更多的同行朋友。
  一次开会的时候,和几个同行聚在一次聊天,各自介绍自己的研究方向。到我表达的时候,发现只能用“信息检索”这样的大词来形容,因为自己做过的3篇SIGIR论文相关性并不大,很难找到更贴切的描述。一个朋友说:你要有自己的关键词,比如美国伊利诺斯大学香槟分校的翟老师的关键词就是语言模型,卡内基梅隆的杨老师的关键词就是文本分类,你的关键词是什么?
  这个问题给了我很大的触动。仔细想想,确实知名学者多半都有他们自己的成名之作,有很集中的研究方向。而我目前的状态似乎还是有点为了发论文而发论文,没有真正地去规划属于自己的研究方向。如果继续

小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架