《微软的梦工场》

下载本书

添加书签

微软的梦工场- 第32部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
要TTS技术的产品中去。不光要做中文、英文,还要做西班牙语、日语、法语等二十多种语言。大概在2004年8月份左右,在工程院中,我们已经孵化出一支完整的TTS开发团队,而我们几个仍想致力于研究工作的人逐渐抽身,开始考虑下一步的研究方向。而那时候,为Vista做的工作已经完成了80%以上。
  当我的木兰最终“嫁”了出去后,有段时间我产生了一种空落感,茫然若失。TTS作为一个产品化了的技术算是大功告成了,那么接下来应该怎么走,还能做些什么?在这些问题上我们的团队做了很多思考。在随后的两年中,我们主要在语音合成技术的应用化、个性化层面进行大胆的探索,通过把十余种较有代表性的地方方言运用到语音的表达中,试图使对话效果更富趣味性、拟人性和娱乐性。在这个创意的基础上,我们做出了一些原型系统,效果还很不错。这些工作都是木兰的延伸。
  18年的缘份,妙不可言
  回想起来,我与语音合成这个研究方向已经结缘十多年了。这缘分源自于硕士入学之初的一次选择。
  当时我从西北工业大学保送到哈尔滨船舶工程学院读研究生,信号处理专业有两个方向供我们选择,图象处理和语音处理,当时图象处理很热,好几个同学想选,我就决定不凑热闹了,选了语音处理。后来发现这个方向还蛮有意思的,就开始投入其中。等两年后报考中科院声学所博士时,我依然申请了语音合成方向。就这样,我的硕士、博士论文工作奠定了我之后长达十多年的研究兴趣。
  大家都说爱一行,干一行。从硕士阶段开始算起,到后来留在声学所工作、直到在微软亚洲研究院工作到2007年,我已经在这个领域奋战了近18个年头了。我一直觉得自己是个很专注的人,但是仍不敢想象这种执着竟坚持了这么久。
  语音合成是一个交叉学科,既要懂得语音信号处理,还要掌握语言内部的音韵、语法等系统的知识,并且需要能将这些知识很好的融合到语音合成系统之中。此外,还需要了解心理学实验方法,通过各种实验来帮助我们更好地理解人的听觉特点,从而更好的满足用户的需求。正是因为它所要求的相关学科的知识面比较广,才吸引我投入了这么多时间在上面。
  而研究院,也是从事这样专注研究的一个好地方,它为每个研究员提供了很好的平台与环境,还有做事情的自由,每个人有很大的自由决定想做什么,不做什么。而且,只要要求合理,研究院总是会保障你有足够的资源做自己的研究。我曾经很奢侈地拥有过一个专门的录音室,在那里,我们进行了各式各样的录音实验,这也是木兰会有很好的音质的一个重要保障。
  期盼再做一次“妈妈”
  到2007年的时候,我已在TTS领域耕耘了十多年了。虽然,颇有收获,但内心深处逐渐萌生去打探一下TTS之外的领域的念头。这时,我对大规模数据加工处理产生了兴趣,这其中麻省理工学院的Victor Zue教授给了我很大的启示。
  有一次,他来研究院访问时时,对我们提过这样一个问题:如果将你在做研究中所使用的数据量,乘上一百或者一千倍,同样的问题还能用同样的方法来解决吗?
  是呀,随着互联网技术的发展,我们可以接触、收集的数据量迅速增长,面对这样大规模增长的数据,我们能做什么呢?应该怎么做呢?如何对大规模数据进行挖掘、分析和再利用成为了一个极富挑战的研究难题,对我也产生了强烈的吸引力。于是,就在2007年,我做了一个重要决定,扩展一下自己的研究领域,从语音组转到了以数据为中心的计算组,开始了一段新的研究历程。
  将来会怎样,我无法预期,但我充满信心的期待着下一个硕果累累的十年,希望自己能孕育出另一个木兰,再做一次妈妈。
  作者介绍:
  初敏,2000年3月加入微软亚洲研究院,从事语音分析与合成、韵律模型和文语转换等方面的研究,她主持研究的木兰中英文双语文语转换技术成功的应用于微软的新一代操作系统Vista之中。2007年开始,初敏致力于将各种机器学习和数据挖掘技术用于大规模数据的分布式计算。工作之余,她最大兴趣是游山玩水,希望有生之年能走遍祖国的山山水水和世界的角角落落。
   电子书 分享网站

TechFest:我们的技术节 谢幸(1)
最近流行一个词叫做创意市集,其组织形式和普通市集基本相同,最大不同之处就在于“创意”。在这里,每个摊主都是设计者,摊位上的每件物品都是他们亲手设计制作的,独一无二,具有独特的创意与强烈的个人风格。他们来创意市集的目的不只是为推销个人的作品,更重要的是,这里是一个设计者之间、设计者与爱好者之间沟通的平台。一群志同道合者们在这里聚集,聊得兴高采烈,海阔天空。
  其实,在Microsoft,也有这样一个“创意市集”,那就是一年一度的技术节!
  你一定不会相信。
  技术节,粗看上去,不过就是各自说说自己的工作成果,不过就是很多人聚集在一起,各自show自己的demo而已,有什么特别的呢?
  我以前也是这么想的。这要从2002年2月说起。
  半夜的电话
  2002年2月的一天,北京,凌晨两三点。电话铃声突然响起,我从床上一跃而起,直觉告诉我,一定是演示出麻烦了。
  其实,严格说起来,我并没有真正“参加”这次的技术节,我的任务是留守北京负责后方监控。这时的我来微软工作还不满一年,技术节,对我来说,不过是个模糊的概念。这次我们组的demo之一是把网络视频转换成适合手机屏幕显示的格式,虽然之前我们对其进行了严格调试,力求不出任何问题,可意外还是发生了。这也许就是所谓的墨菲定律 (Murphy’s Law),担心什么就有可能发生什么,不论平时准备的多好,你的技术总是会在给最多人演示的时候出问题。
  整个演示需要多台服务器之间进行配合,用手机来播放最终的结果,代理服务器接收视频,对其进行分析、处理和转换,还有一台服务器专门负责发送视频流。由于用到的机器数量比较多,其中一部分还位于中国。在现场安装设置过程中,任何一个微小的错误都可能会导致整个demo不能工作。通过电话,我和远在美国的同事们一点点排查,一遍遍调试,最终保证了演示的顺利进行。
  背下来的讲稿
  2003年,西雅图。我终于有了与技术节亲密接触的机会。
  由于这也是我第一次去美国,语言交流成了我们这些年轻员工最担心的问题。为了防止可能出现的尴尬场面,我用了一个笨方法,把演示的内容背下来。于是,我事先准备好一份详细的讲稿,并找来英文水平好的同事修改润色,每句话都经过仔细推敲。定稿后反复朗读,牢记于心。此外,我还花费很多时间精心设计了海报,虽然现在看来,它显得那么稚嫩朴素。直到现在,这张海报还悬挂在我的办公室墙上,记录着当年的历史。
  准备好这些,我终于有足够的信心站在演示台前。虽然我来之前对技术节有过很多设想,可现场看到如此热闹的场景依然让我兴奋不已。来观看的都是公司各部门的同事,大家在会场中往来穿梭,自由选择感兴趣的展示,而每一个展示者也都乐于与大家分享自己的技术。
  展示者在台前兴奋的说,观看者在周围投入的听,并不时提出疑问或新的想法。产品组的项目经理们也会到现场观看,并借机寻找是否有相关技术可供合作。两天的技术节里,我一直积极认真地做着每一次演示,虽然辛苦,却很兴奋。有很多观众被我们的展示所吸引,这也让初次参加的我很有成就感。
  这次美国之行,我还见到了在微软总部工作的几个本科同学。因为大部分时间观众都很多,为了不打扰我,他们特意等在一旁,直到我做完演示才过来打招呼。他们夸赞我说,没想到你第一次来美国英文就这么好。我听了暗自得意,他们哪里知道我全部是背下来的呢。这次技术节之后,我已经不再需要提前背诵讲稿了,可是这段经历却让我一直记忆犹新。
  在做完演示的空暇我会在会场四处走走,参观其他研究员的展台。我发现有很多研究员非常认真,甚至是一些资深研究员们也都一直坚守在展台前演示自己的项目,不管我何时经过,都看到他们有着饱满的热情,我可以感受到他们对研究的热爱,而这份热爱和年龄与职位都没有关系。他们身上所展现出的激情与创造力让我深受感染。
  我心目中对技术节的看法也因此一点点地改变了。

TechFest:我们的技术节 谢幸(2)
我见到了鲍尔默
  鲍尔默,那个听说会在公司年会上骑马冲上台的CEO,我曾在公司的内部视频上看过他充满激情的演讲片段,但我从未想到有一天我能站在他的面前演示我的demo。
  可技术节就是这样一个让人梦想成真的地方!
  2006年3月2日,我激动而忐忑的等待在展台前。
  鲍尔默在两三个人的陪同下来了。没有前呼后拥,和普通的观众并没有太大不同,他很随和的拉过一把椅子,坐在了我面前。
  我要给鲍尔默做的演示是photo2search,其内容是用户用手机拍下照片,把照片上传到服务器并匹配与之最相似的图片,从而得到和照片拍摄内容相关的信息。举个实际中的例子来说吧,你用手机拍下路边某餐馆,系统将该照片和其他图片进行分析匹配后,便能够知道该餐馆的名字,还可以将餐馆的优惠活动,甚至当天特价菜品等信息发送到你的手机上。你只需摁了几下手指,便很方便的得到了想要的信息。
  演示中,我输入预先准备的查询图片——这是一张

小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架