T前線 | 專訪騰訊AILab:將成果由“點”到“線”,實驗室不止于實驗
原創(chuàng)嘉賓:史樹明
撰稿:莫奇
審校:云昭
“大多數(shù)研究工作往往是圍繞一個點展開,而點狀的成果很難直接被用戶所用?!彬v訊 AI Lab 自然語言處理中心總監(jiān)史樹明說道。
過去十余年間,人工智能(AI)經(jīng)歷了復興,其中很顯著的技術進步也發(fā)生在自然語言處理(NLP)領域。NLP技術的進步使得機器翻譯質(zhì)量大幅提高,搜索和推薦更加精準,同時也催生了更多數(shù)字化場景應用,如對話機器人、智能寫作等。那么,作為AI皇冠上的明珠,NLP領域在吸引了無數(shù)國內(nèi)外企業(yè)、人才、資本的入圈后,各種要素都是如何推動其研究進展的?企業(yè)是如何將研究成果孵化落地的?相關從業(yè)者又是如何看待AI在發(fā)展中的瓶頸和爭議的呢?
近日,"T前線"有幸采訪了騰訊 AI Lab 自然語言處理中心,希望能借此由“人工智能實驗室”的視角窺得其中一隅。
不止步于實驗:還注重將成果的落地與開源
T前線:騰訊 AILab 實驗室在自然語言處理方面,有哪些方向的探索呢?
史樹明:騰訊 AI Lab 的自然語言處理團隊在文本理解、文本生成、智能對話、機器翻譯這四個方向上開展研究工作。成果方面,從論文發(fā)表情況來看,最近三年,團隊每年在一流國際會議和期刊上發(fā)表50多篇學術論文,居國內(nèi)研究機構前列;值得一提的是,我們有兩篇論文分別被評為NAACL'2021的最佳論文和ACL'2021的杰出論文。學術比賽方面,我們多次獲得重量級比賽的冠軍,比如在去年的國際機器翻譯大賽WMT'2021上獲得5項任務的第一名。
除了論文和學術比賽之外,我們還有意識地把我們的研究成果轉(zhuǎn)化成系統(tǒng)和開源數(shù)據(jù),開放給公司內(nèi)外用戶使用。這些系統(tǒng)和數(shù)據(jù)包括文本理解系統(tǒng)TexSmart、交互翻譯系統(tǒng)TranSmart、智能創(chuàng)作助手「文涌(Effidit)」、包含800萬詞匯的中文詞向量數(shù)據(jù)等。
2018年底發(fā)布的中文詞向量數(shù)據(jù)被外界稱為“騰訊詞向量”,它在規(guī)模、精度、新鮮度方面處在領先水平,受到業(yè)界的廣泛關注、討論和使用,在多項應用中不斷提升性能。與同類系統(tǒng)相比,文本理解系統(tǒng)TexSmart提供細粒度命名實體識別(NER)、語義聯(lián)想、深度語義表達、文本圖譜等特色功能,榮獲第十九屆中國計算語言學大會(CCL'2020)最佳系統(tǒng)展示獎。交互翻譯系統(tǒng)TranSmart是國內(nèi)首個公開的交互翻譯互聯(lián)網(wǎng)落地產(chǎn)品,提供翻譯輸入法、約束解碼、翻譯記憶融合等亮點功能。它支持了公司內(nèi)外眾多的客戶、業(yè)務和場景,包括聯(lián)合國文件署、Memsource、華泰證券、騰訊音樂、閱文網(wǎng)文出海、騰訊游戲出海、騰訊自選股文檔翻譯等。前一段時間我們發(fā)布的智能創(chuàng)作助手「文涌(Effidit)」提供多維度的文本補全、多樣化的文本潤色等特色功能,用AI技術輔助寫作者發(fā)散思路、豐富表達,提升文本編輯和寫作的效率。
T前線:智能協(xié)作方面,能以「文涌(Effidit)」為例,談一下項目的起源和最新情況嗎?
史樹明:智能寫作助手Effidit項目是在2020年國慶節(jié)之前啟動的。做這個項目主要有兩方面原因:一是寫作中存在痛點問題,二是這個場景所需要的NLP技術,與我們團隊的能力積累相符。
首先來談談寫作中的痛點:我們在生活和工作中經(jīng)常需要閱讀新聞、小說、公眾號文章、論文、技術報告等,也需要寫一些東西,比如技術文檔、會議紀要、匯報材料等。我們可以發(fā)現(xiàn),閱讀的過程通常是輕松愉快、毫不費力的,但寫作就不一樣了,經(jīng)常不知道怎樣用合適的文字表達心中的想法,有時候費很大勁寫出來的句子和段落還是顯得干巴巴的,中間還容易出現(xiàn)錯別字?;蛟S大多數(shù)人更擅長閱讀而不是寫作吧。于是我們就想到能否利用技術來解決寫作中的痛點問題,提升寫作的效率?
再來談談啟動這個項目的第二個原因:我們一直在思考NLP技術如何提升人類的工作效率和生活品質(zhì)?過去幾年,我們在文本理解、文本生成、機器翻譯等NLP的子方向上開展了深入的研究工作。大多數(shù)研究工作往往是圍繞一個點展開,而點狀的成果很難直接被用戶所用。因此我們下意識地把若干點狀的研究成果串在一起,構成一條線,也就是一個系統(tǒng)。我們一直在尋找文本生成方向研究成果的落地場景??紤]到前面談到的寫作中的痛點,我們討論后決定啟動智能寫作助手Effidit項目。
經(jīng)過一年半的研發(fā),第一個版本已經(jīng)問世。接下來我們會持續(xù)迭代優(yōu)化,聽取用戶反饋,提升各項功能的效果,力爭產(chǎn)出一款好用的、受用戶歡迎的工具。
可信AI:可解釋性、魯棒性研究尚需挖掘
T前線:近些年,可信AI得到了界內(nèi)人士的關注,您能否談一下在NLP領域內(nèi)可信AI的理解與進展?
史樹明:我對可信AI了解不多,只能談一些粗淺的想法。可信AI是一個抽象的概念,目前還沒有一個準確的定義。不過從技術角度來說,它包括很多要素:模型的可解釋性、魯棒性、公平性和隱私保護等。近年來,基于Transformer結構的預訓練語言模型,在很多自然語言處理任務上展現(xiàn)出驚人的效果,引起了人們的廣泛關注。然而,這類AI模型本質(zhì)上是數(shù)據(jù)驅(qū)動的黑箱模型,它們對預測結果的可解釋性較差、模型的魯棒性也不是很好,而且它們?nèi)菀讓W習到數(shù)據(jù)中固有的偏置(比如性別偏置),導致模型在公平性上也存在一些問題。比預訓練語言模型更早出現(xiàn)的詞向量也有性別偏置的問題。目前,一方面構建可信的AI模型是機器學習和NLP領域一個受關注的研究方向,有不少研究工作,也取得了一些進展。另一方面這些進展距離目標還差得很遠,比如在深度模型的可解釋性方面,進展還不算特別大,還沒有邁出亮眼的關鍵一步。
我所在的騰訊AI Lab也正在可信AI方面開展一些研究工作。騰訊AI Lab自2018年起持續(xù)投入可信AI工作,并在對抗魯棒性、分布遷移學習及可解釋性三大方向取得了一些成果。未來,騰訊AI Lab將重點關注AI的公平性和可解釋性,并持續(xù)探索相關技術在醫(yī)療、醫(yī)藥、生命科學等領域的應用。
難點聚焦:統(tǒng)計方法無法從根本上理解語義
T前線:您覺得現(xiàn)階段 NLP 的研究的瓶頸在哪里?未來有哪些方向?
史樹明:從自然語言處理這個研究領域出現(xiàn)以來,它所面臨的最大瓶頸就是如何真正地理解一段自然語言文本所表達的語義。這個瓶頸到現(xiàn)在為止還沒有被突破。
人類是真正具有理解自然語言的能力的,比如當我們看到“她喜歡藍色”這個句子時,我們知道它的含義,知道什么是“喜歡”,什么是“藍色”。而對于NLP算法而言,它在處理上述句子時跟我們看到一門不知名外語的句子“abc def xyz”沒有本質(zhì)區(qū)別。假設在這門不知名外語中,"abc"表示"她","def"表示喜歡,"xyz"表示"綠色"。當我們對這門外語一無所知的時候,我們是看不懂這門外語的任何句子的。如果我們有幸看到大量的用這門外語書寫的句子,我們有可能在上面做一些統(tǒng)計分析,試圖建立這門外語的單詞跟我們母語中的詞的對應關系,希望達到最終破解這門語言的目的。這個過程難度不小,不能確保最終能夠成功。
對于AI來說,它所面臨的情況比我們?nèi)祟惼谱g一門不知名外語還要糟糕。我們有生活的常識,有母語單詞與頭腦內(nèi)部概念的映射,而AI則沒有這些東西。NLP研究中的符號方法試圖通過文本的符號化表達和知識圖譜給AI附加跟人類類似的能力,試圖從根本上解決理解的問題;而統(tǒng)計方法則是暫時忽略掉常識和頭腦內(nèi)部概念等,將著力點放在改進統(tǒng)計方法和充分利用數(shù)據(jù)本身的信息。到目前為止,第二種方式是業(yè)內(nèi)研究的主流,也取得了更大的成功。
以統(tǒng)計NLP在最近十年的瓶頸突破和進展來看,詞向量技術(即用一個中等維度的稠密向量來表示一個詞)突破了詞的可計算性瓶頸,結合深度學習算法和GPU算力,拉開了最近十年NLP一系列突破的序幕。新的網(wǎng)絡結構(如Transformer)和范式(如預訓練)的出現(xiàn)又大大提升了文本的可計算性和文本表示的效果。但由于統(tǒng)計NLP沒有像人類那樣很好地對常識和基礎概念進行建模,無法從根本上理解自然語言,也就很難避免出現(xiàn)一些常識錯誤。
當然,研究界也始終沒有放棄在符號化和深度語義表示方面的努力,最近十多年在這方面最有影響力的嘗試包括Wolfram Alpha和AMR (Abstract Meaning Representation)等。這條路非常辛苦,面臨的主要挑戰(zhàn)是對大量抽象概念的建模以及可擴展性(即從理解高度正規(guī)化的句子擴展到理解一般的自然語言文本)。
未來在基礎技術方面可能的研究方向包括:新一代語言模型、可控的文本生成、提升模型的跨領域遷移能力、有效融入知識的統(tǒng)計模型、深度語義表示等。這些研究方向?qū)氖荖LP研究中一些局部的瓶頸。在應用方面需要探索的方向是如何利用NLP技術提升人類的工作效率和生活品質(zhì)。
研究與落地:二者之間如何平衡?
T前線:AI Lab NLP方向在基礎研究、前沿技術和工業(yè)化落地方面是如何探索和布局的?下一步打算有哪些?
史樹明:在基礎研究方面,我們的目標是尋求基礎研究的突破,解決目前研究中的一些瓶頸問題,力爭產(chǎn)出像Word2vec、Transformer、Bert那樣原創(chuàng)性的、有用的、有重大影響力的成果。為了實現(xiàn)這個目標,我們一方面給基礎研究人員以較大的自由度,鼓勵做一些長遠的有潛在影響力的事情;另一方面整個團隊成員通過腦暴等方式,選擇若干需要重點突破的方向,大家一起發(fā)力。
在工業(yè)化落地方面,除了面向公司現(xiàn)有的產(chǎn)品進行技術轉(zhuǎn)化之外,重點打造一兩款我們自己主導的技術產(chǎn)品,目標是融合研究成果,提升人的工作效率或生活品質(zhì)。這些技術產(chǎn)品包括面向翻譯人員的交互翻譯系統(tǒng)TranSmart和面向文字編輯和寫作場景的智能創(chuàng)作助手Effidit。我們會持續(xù)打磨這兩款技術產(chǎn)品。
尋昆山之玉:研究人員需要一定的自由度
T前線:于科研部門而言,您覺得研究員與算法工程師有哪些不同的側重?
史樹明:在我們團隊,算法工程師的職責包括兩點:一是實現(xiàn)或優(yōu)化現(xiàn)有的算法(比如某篇已經(jīng)發(fā)表的論文中的算法),二是實現(xiàn)及打磨技術產(chǎn)品。而研究員的職責除了包括算法工程師的兩個職責之外,還包括提出及發(fā)表原創(chuàng)性的研究成果。這種劃分也不是絕對的,邊界比較模糊,很大程度上取決于員工本人的興趣以及項目的需要。
T前線:作為管理者,實驗室的團隊管理與傳統(tǒng)的技術工程師管理的方法與理念有哪些不同?
史樹明:對于業(yè)務團隊來說,技術工程師需要緊密合作,通過一定的項目管理流程,把已經(jīng)規(guī)劃好的產(chǎn)品做出來。實驗室團隊往往由基礎研究人員和技術工程師構成(可能還包括少量的產(chǎn)品和運營人員)。對于基礎研究來說,需要給研究人員更大的自由度,少“指導”多幫助,尊重其興趣,激發(fā)其潛能,鼓勵其做一些長遠的有潛在影響力的事情。基礎研究的突破往往不是自上而下規(guī)劃出來的,也不是通過項目管理流程管理出來的。另一方面,實驗室團隊在打造技術產(chǎn)品的時候,則需要研究人員和技術工程師更多地協(xié)同合作,輔之以輕量級的項目管理流程。
實驗室AI崗位:選人更看重“三好”,內(nèi)心足夠強大
T前線:如果有一個應聘者,研究能力很強,在高水平會議上發(fā)表了很多論文,但工程化能力較差,您會錄用嗎?
史樹明:這個問題很好,這是我們招聘時經(jīng)常遇到的問題。理想情況下,學界和業(yè)界都希望培養(yǎng)或招募到研究能力和工程能力都非常強的人才,但是這樣的人在實際當中鳳毛麟角,往往還是各個公司和研究機構爭搶的對象。在面試過程中,對于研究能力特別出眾的候選人,我們對其工程能力的要求會相應降低,但必須高于一個基礎閾值。同樣,對于工程能力超強的候選人,我們對其研究能力的要求也會降低一些。在實際工作過程中,如果安排得當,研究能力強的和工程能力強的員工通過合作會發(fā)揮各自的優(yōu)勢,一起把項目完成好。
T前線:您最看重候選者哪些能力?
史樹明:沈向洋博士說過招人的要求是“三好”:數(shù)學好、編程好、態(tài)度好。數(shù)學好對應的是一個人的研究潛力,編程好對應的是工程能力,而態(tài)度好則包含“對自己的工作充滿激情”、“與同事能夠合作共贏”、“做事靠譜”等內(nèi)容。這三點是很多研究機構所看重的。實際面試過程中往往通過看論文發(fā)表記錄和聊項目來評估候選人的研究能力以及潛力,通過編程測試和項目產(chǎn)出來評估候選人的工程能力,通過整體的面試過程來推測候選人是不是真的“態(tài)度好”。這種推測和評估的方式有時會看走眼,但總體來說準確度還是挺高的。
還有一些能力很難通過一兩個小時的面試去判斷,但是如果招進來的員工具有這些能力,就算是撿到寶了。第一是選擇重要的研究課題的能力。第二是完成一件事情的能力。缺乏這種能力的人或團隊可能總是頻繁地啟動各種課題或項目,但是這些課題和項目總是不能被高質(zhì)量地完成,而往往是虎頭蛇尾,不了了之。這里面可能跟執(zhí)行力、毅力、聚焦意識、技術水準等都有一些關系。第三是忍受孤獨和非議的能力。重要的有影響力的事情,在影響力出來之前往往不被大多數(shù)人理解;如果內(nèi)心不夠強大,不能忍受孤獨和非議的話,可能很難堅持下去,從而很容易放棄初心,跳入已經(jīng)是紅海的當前熱點中去內(nèi)卷。
T前線:目前對于應屆畢業(yè)生和轉(zhuǎn)行進入人工智能領域的技術人分別有哪些建議?
史樹明:每位畢業(yè)生的學歷、在讀學校和參與項目情況各不相同,轉(zhuǎn)行進入人工智能的技術人在專業(yè)和人生經(jīng)歷方面更是千差萬別,很難給出太多普適的建議。暫時只能想到幾點:第一,千萬不要只埋頭做事情而忽略了信息和情報的收集。多找?guī)孜粠熜謳熃慊蚺笥汛蚵犌闆r,聽他們介紹當前工作的情況以及對不同的工作類型和各個工作單位的評價,了解他們走過的路、踩過的坑。同時通過論壇、公眾號、短視頻等多種方式收集信息,幫助自己在這個人生的關鍵節(jié)點來做決策。第二,如果你距離畢業(yè)還有一年以上的時間并且還沒有實習經(jīng)歷的話,找一個靠譜的地方做實習。通過實習,一方面可以積累實戰(zhàn)經(jīng)驗,提升能力,提前體驗工作的感覺;另一方面實習經(jīng)歷也會讓你的簡歷更加豐滿,提升找工作時的競爭力。第三,工作中內(nèi)卷總是難免的,事事如意也是不可能的,控制預期,調(diào)整好心態(tài),想辦法消化轉(zhuǎn)變所帶來的落差情緒。第四,安頓下來之后,別忘了自己的夢想,努力奮斗,完成一件對得起自己能力的事情。
祝每一位畢業(yè)生能找到心儀的工作并在工作崗位上得到成長,祝每一位轉(zhuǎn)行進入人工智能領域的技術人能夠在AI這個新賽道享受奮斗帶來的快樂和收獲。
嘉賓介紹
史樹明,畢業(yè)于清華大學計算機系,目前是騰訊 AI Lab 自然語言處理中心總監(jiān)。他的研究興趣包括知識挖掘、自然語言理解、文本生成以及智能對話。他在ACL、EMNLP、AAAI、IJCAI、WWW、SIGIR、TACL等學術會議和期刊上發(fā)表了100多篇論文,H-index為35。他曾擔任EMNLP 2021和CIKM 2013的系統(tǒng)展示主席(demonstration co-chair),KDD2022的資深程序委員會委員,以及ACL、EMNLP等會議的程序委員會委員。