微軟亞洲研究院博士:往返于研究與開發(fā)之間
在微軟亞洲研究院,有很多研究成果成功轉(zhuǎn)化為產(chǎn)品的例子,讓我們?cè)谄诖衲昙夹g(shù)節(jié)盛會(huì)之前,看看研究院技術(shù)戰(zhàn)略總監(jiān)張益肇博士回憶他往返于研究與開發(fā)之間的故事:
在微軟亞洲研究院成立八個(gè)月之際,我?guī)е迌号e家來到北京開始了我研究生涯中的一個(gè)轉(zhuǎn)折;2003年,在研究院成立五周年之際,我來到了由研究院孵化出的微軟亞洲工程院,在一個(gè)全新的環(huán)境從事以前在微軟未曾涉獵過的產(chǎn)品開發(fā)類工作;2008年,在研究院將要迎來它十周年生日的當(dāng)兒,我又重新回到了它的懷抱,繼續(xù)享受在研究過程中的樂趣。
給蓋茨作報(bào)告
在1999年7月加入微軟亞洲研究院的時(shí)候,我的主要工作之一就是組建語音組的研究團(tuán)隊(duì),2000年我們招募了初敏加入語音組,次年又招募了Frank Seide加入,他們倆的加盟很快地就帶動(dòng)起了整個(gè)組在語音合成和語音搜索上的研究局面。TTS (Text to Speech, 簡(jiǎn)稱TTS) 是語音組的重要項(xiàng)目之一,當(dāng)時(shí)由初敏研究員主要負(fù)責(zé),再加上彭煳,趙勇,趙晟,楊紅云,王慶等年輕同事的全力投入,很快地作出一個(gè)中文語音合成系統(tǒng)。也正因?yàn)檫@個(gè)項(xiàng)目,讓我經(jīng)歷了三年的“BillG Review”(向蓋茨作報(bào)告)。
2001年,研究院第一年向蓋茨匯報(bào)中文語音合成技術(shù)的成果,語音的自然度和流暢感與傳統(tǒng)技術(shù)比起來要進(jìn)步很多。蓋茨聽了匯報(bào)之后感覺一切都還不錯(cuò),但是他搖搖頭非常惋惜地說:“很可惜,我聽不懂中文。”因此,蓋茨對(duì)此無法給出針對(duì)性的意見,不過他仍建議我們是否可以把其他語言也做起來,2003年10月左右,浩大的Vista項(xiàng)目看中了我們研發(fā)的中英文語音合成引擎,并意欲轉(zhuǎn)換進(jìn)Vista中。那個(gè)時(shí)候正好微軟亞洲工程院成立,于是語音合成項(xiàng)目成為了工程院成立時(shí)的最初七個(gè)項(xiàng)目之一。因此,那一年研究院和工程院組成的研發(fā)團(tuán)隊(duì)一起給蓋茨集體做了一場(chǎng)項(xiàng)目匯報(bào)。當(dāng)蓋茨得知我們這個(gè)項(xiàng)目正籌劃著做進(jìn)微軟新一代操作系統(tǒng)時(shí),他急切地關(guān)心起開發(fā)流程的時(shí)間表,可見他對(duì)這個(gè)技術(shù)的早日面市是何等得期待!
隨著TTS在Vista系統(tǒng)中的落地開花,F(xiàn)rank Soong博士帶領(lǐng)著語音組為更加平滑的語音合成技術(shù)而努力著,同時(shí)一個(gè)穩(wěn)定的TTS開發(fā)團(tuán)隊(duì)也在微軟中國(guó)研發(fā)集團(tuán)的成長(zhǎng)并逐漸茁壯,當(dāng)初只有四五人的項(xiàng)目團(tuán)隊(duì)如今已經(jīng)發(fā)展成為二十多人,從事著除中英文之外的德文、西班牙文、法文、意大利文等其他二十幾種語言的語音合成系統(tǒng)的開發(fā),主要側(cè)重于服務(wù)器上的語音交互方面的應(yīng)用。讓我們倍感欣慰的是,TTS技術(shù)無論是從最初的算法模型設(shè)計(jì)、原型系統(tǒng)建立,還是到后來的產(chǎn)品轉(zhuǎn)化與現(xiàn)在更大規(guī)模的在服務(wù)器端的應(yīng)用,語音合成技術(shù)的研究和開發(fā),都是北京的研發(fā)團(tuán)隊(duì)自發(fā)完成的,這充分證明了中國(guó)研究團(tuán)隊(duì)的創(chuàng)造力和協(xié)作力。
蓋茨說過,微軟研究院的最大使命是使未來的計(jì)算機(jī)能夠看、聽、學(xué),能用自然語言與人類進(jìn)行交流。其實(shí),這十年,我們都是圍繞著這個(gè)愿景展開著研究,也取得了階段性的成果,但是仍然還遠(yuǎn)未達(dá)到人工智能的程度,所以研究是一個(gè)長(zhǎng)期的過程,需要有探索的心態(tài),并不斷拓展延伸的可能。TTS這個(gè)項(xiàng)目從初敏2000加入研究院開始到2006年底正式隨著Vista發(fā)布,從最初的中文語音合成,接著到英文,再到后來的中英文雙語合成,經(jīng)歷了一個(gè)較長(zhǎng)時(shí)間的探索過程,而這種摸索和堅(jiān)持都要投諸于長(zhǎng)期的耐心。
工程的魅力
隨著最后一次給蓋茨做匯報(bào)的落幕,我的職業(yè)角色也從一個(gè)單純的研究者向一名工程管理者轉(zhuǎn)變,2003年底我經(jīng)歷了一次鯉魚跳龍門似的跨越,微軟亞洲工程院副院長(zhǎng)的職務(wù)讓我重新認(rèn)識(shí)了另一種職業(yè)的魅力。
張亞勤曾經(jīng)說過研究是一種氣象開放、思維擴(kuò)散的事業(yè),而工程是一個(gè)不斷去粗取精,直到發(fā)現(xiàn)非做不可的事情為止的過程。這是研究和工程所體現(xiàn)出來的兩種不同的視野。研究和工程兩者唇齒相依,研究要以實(shí)現(xiàn)工程轉(zhuǎn)化為理想,而工程實(shí)踐也離不開研究的指導(dǎo),這就像中國(guó)的太極一樣,雖然在工程需要有了一定的偏向,但是不能太規(guī)矩,以至于沒有新的設(shè)想和新的創(chuàng)造進(jìn)行自我完善。它們之間如何拿捏得好確實(shí)是一項(xiàng)很大的挑戰(zhàn)。
無論是研究還是工程,制定明確的指標(biāo)是激勵(lì)自己的團(tuán)隊(duì)一個(gè)非常有效的方式。倘若在研究領(lǐng)域,我們可能用國(guó)際高水平論文的質(zhì)量和數(shù)量、技術(shù)轉(zhuǎn)換的多寡等重要方面去激勵(lì)研究員們的學(xué)術(shù)創(chuàng)想,而在工程領(lǐng)域,我們則更多地通過參與新功能開發(fā)的數(shù)量以及對(duì)新產(chǎn)品發(fā)布的貢獻(xiàn)等方面來衡量一個(gè)工程師的價(jià)值。
除了激勵(lì)之外,如何在錯(cuò)誤和失敗中吸取教訓(xùn)也是研究和工程中都需要經(jīng)常面對(duì)的一個(gè)問題,因?yàn)樵谶@兩者中,挫敗是太尋常不過的家常便飯了。作為研究員或者工程師,我覺得樹立長(zhǎng)向的思維非常重要,這樣能避免被一時(shí)的失敗而打擊。年輕時(shí)候的大起大落,從一段時(shí)間之后看來都是很小的變化,所以要用平常心對(duì)待,才能適應(yīng)各種不可預(yù)知的挑戰(zhàn)。
從我個(gè)人而言,“保持樂觀的態(tài)度,做好悲觀的準(zhǔn)備”的心態(tài),是我在工作過程中勉勵(lì)并且安慰自己的一個(gè)非常實(shí)際的做法。凡事都要先給自己一個(gè)信心和動(dòng)力,但是我們也要做好勇敢地面對(duì)可能出現(xiàn)的失敗結(jié)局。
作者介紹:
張益肇,麻省理工學(xué)院計(jì)算機(jī)博士畢業(yè)。1999年7月加盟微軟亞洲研究院任語音組主任研究員,從事自然語言理解方面的研究工作。之后在微軟亞洲工程院任副院長(zhǎng),帶領(lǐng)團(tuán)隊(duì)參與開發(fā)了Windows Mobile 和Windows Vista 的產(chǎn)品。2008年6月重新回到微軟亞洲研究院任技術(shù)戰(zhàn)略總監(jiān)。他曾是 Nuance Communications 公司研究部的創(chuàng)始人之一,也是電信領(lǐng)域自然語言界面研究的先驅(qū)。在此之前,他還曾在麻省理工學(xué)院林肯實(shí)驗(yàn)室、東芝ULSI研究中心、美國(guó)通用電氣研究院擔(dān)任研究工作。他一直以“茍日新,日日新,又日新”來激勵(lì)自己每天的生活。
原為鏈接:http://blog.sina.com.cn/s/blog_4caedc7a0100cht3.html
【編輯推薦】