技術(shù)的進(jìn)步,往往意味著行業(yè)的進(jìn)化發(fā)現(xiàn)了新的方向。翻譯行業(yè)也不例外。隨著全球化進(jìn)程不斷加快,人們?cè)谶M(jìn)行涉外活動(dòng)時(shí)都離不開跨語(yǔ)言的交流。機(jī)器翻譯的出現(xiàn)極大地?cái)U(kuò)充了翻譯的應(yīng)用場(chǎng)景,固然它還遠(yuǎn)遠(yuǎn)稱不上完善,但卻在人類挑戰(zhàn)巴別塔的路上跨出了堅(jiān)實(shí)的一步。51CTO特邀字節(jié)跳動(dòng)AI Lab機(jī)器翻譯負(fù)責(zé)人王明軒,聊一聊機(jī)器翻譯發(fā)展的這些年、那些事。
從基于規(guī)則,到基于統(tǒng)計(jì)模型,再到基于神經(jīng)網(wǎng)絡(luò)
機(jī)器翻譯的發(fā)展與計(jì)算機(jī)技術(shù)、信息論、語(yǔ)言學(xué)等學(xué)科的發(fā)展緊密相關(guān)。進(jìn)入21世紀(jì)以后,隨著硬件能力的提升和算法的優(yōu)化,機(jī)器翻譯技術(shù)迎來(lái)了空前的躍進(jìn),并成功邁出象牙塔,走上了普惠之路。
51CTO:縱觀歷史,機(jī)器翻譯經(jīng)歷了哪些重要的發(fā)展節(jié)點(diǎn)?
王明軒:機(jī)器翻譯實(shí)質(zhì)是一個(gè)非常古老的問題,機(jī)器翻譯的歷史可以追溯到17世紀(jì)笛卡爾、萊布尼茨等哲學(xué)家提出的「通用語(yǔ)言」。1946年等計(jì)算機(jī)正式誕生后,人們期望計(jì)算機(jī)能將一種語(yǔ)言翻譯成另一種語(yǔ)言。美國(guó)科學(xué)家瓦倫·韋弗在《翻譯備忘錄》中正式定義了機(jī)器翻譯的概念和思想。這一時(shí)期,在冷戰(zhàn)背景下,美蘇兩國(guó)也基于搜集信息的需要,投入了大量資金用于機(jī)器翻譯相關(guān)研究。
一開始大家相對(duì)較樂觀,覺得這事很快就可以搞定了。第一版的翻譯系統(tǒng)非常簡(jiǎn)單,主要是基于詞典,比如把“太陽(yáng)”翻譯為“sun”,但這種詞對(duì)詞的翻譯很快遇到了瓶頸,因?yàn)橐辉~多義的現(xiàn)象比較多,比如“bank”,既可以是“銀行”,也可以是“河岸”,具體語(yǔ)境中會(huì)面臨很多選詞的困境。結(jié)合語(yǔ)言學(xué)家制定的語(yǔ)義規(guī)則可以解決一部分歧義,但發(fā)展到后期,規(guī)則越多,沖突的地方也會(huì)越多,系統(tǒng)會(huì)越來(lái)越復(fù)雜,依然無(wú)法解決問題。
1966年美國(guó)公布了報(bào)告《語(yǔ)言與機(jī)器》,全面否定了機(jī)器翻譯的可行性,并建議停止對(duì)機(jī)器翻譯項(xiàng)目的資金支持。受此影響,機(jī)器翻譯陷入低潮期。
直到90年代,IBM提出基于詞對(duì)齊的翻譯模型,標(biāo)志著現(xiàn)代統(tǒng)計(jì)機(jī)器翻譯方法的誕生。基于統(tǒng)計(jì)的機(jī)器翻譯原理很簡(jiǎn)單,比如要在語(yǔ)境中判斷bank應(yīng)該翻譯成“銀行”還是“河岸”,那就進(jìn)行大量的相關(guān)語(yǔ)料統(tǒng)計(jì),會(huì)發(fā)現(xiàn)上下文里有“錢”相關(guān)的,那就更有可能翻譯成“銀行”,上下文里提到“河流”,那更可能對(duì)應(yīng)的是“河岸”。如此一來(lái),不用詞典與文法規(guī)則,而是按照概率來(lái)判斷具體場(chǎng)景下的語(yǔ)義。這是劃時(shí)代的變化,機(jī)器翻譯的質(zhì)量得到了巨大的提升。很快,機(jī)器翻譯開始在很多實(shí)用場(chǎng)景落地。
從1993到2014年基本都屬于統(tǒng)計(jì)的時(shí)代,但雖說(shuō)是基于統(tǒng)計(jì),還是需要人工去定義很多特征、模板,再進(jìn)一步設(shè)計(jì)細(xì)節(jié),因而也不是非常靈活,模型的能量也不是很強(qiáng)大。
而后到了神經(jīng)網(wǎng)絡(luò)時(shí)代,神經(jīng)網(wǎng)絡(luò)翻譯從模型上說(shuō)主要包含編碼器和解碼器。編碼器把源語(yǔ)言經(jīng)過(guò)一系列神經(jīng)網(wǎng)絡(luò)變換后表示成一個(gè)高維向量,解碼器負(fù)責(zé)把這個(gè)高維向量重新解碼成目標(biāo)語(yǔ)言。2014年Seq2Seq的提出,讓神經(jīng)網(wǎng)絡(luò)翻譯慢慢開始比統(tǒng)計(jì)機(jī)器翻譯做得更好。
到2017年時(shí),谷歌提出Transformer,模型更大、結(jié)構(gòu)更靈活、并行化程度更高,這進(jìn)一步提升了翻譯質(zhì)量。同年,AlphaGo的勝利也讓大家對(duì)人工智能的信心更充分。也正是在2017年之后,機(jī)器翻譯的產(chǎn)業(yè)化迎來(lái)了爆發(fā)期,直到現(xiàn)在,整體大框架沒有發(fā)生太大變化,但小細(xì)節(jié)上出現(xiàn)了很多創(chuàng)新。
挑戰(zhàn)“巴別塔”
從詞典匹配,到結(jié)合語(yǔ)言學(xué)專家知識(shí)的規(guī)則翻譯,再到基于語(yǔ)料庫(kù)的統(tǒng)計(jì)機(jī)器翻譯,以及目前主流的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,相比之前,機(jī)器翻譯的質(zhì)量有了飛躍式的提升,但依舊面臨著重重挑戰(zhàn)。
51CTO:目前機(jī)器翻譯面臨的主要挑戰(zhàn)在哪里?
王明軒:挑戰(zhàn)其實(shí)還比較多。
第一,如何做稀缺語(yǔ)種的機(jī)器翻譯。這是機(jī)器翻譯從誕生以來(lái)一直就面臨的問題。語(yǔ)種越小,數(shù)據(jù)量越少,語(yǔ)料的稀缺會(huì)是長(zhǎng)期的挑戰(zhàn)。
第二,如何做多模態(tài)的機(jī)器翻譯。近年來(lái),我們經(jīng)常需要做語(yǔ)音翻譯、視頻翻譯,事實(shí)上這類翻譯需要AI做一些前處理之后再做翻譯。如果AI處理錯(cuò)了,翻譯就可能出現(xiàn)錯(cuò)誤。再比如,在同聲傳譯的場(chǎng)景,通常是邊說(shuō)邊翻,拿不到完整的上下文信息。這在多模態(tài)翻譯中都是常見問題。
第三,最為本質(zhì)的問題在于,目前的機(jī)器翻譯還是基于數(shù)據(jù)驅(qū)動(dòng),并沒有在理解層面做得更為深入。模型的學(xué)習(xí)依舊是依靠語(yǔ)言的貢獻(xiàn),而非真正地理解語(yǔ)義。這一點(diǎn)極大地局限了機(jī)器翻譯的上限。
51CTO:火山翻譯作為字節(jié)跳動(dòng)旗下機(jī)器翻譯品牌,如何應(yīng)對(duì)語(yǔ)料稀疏問題?
王明軒:有兩個(gè)比較直接的方法。
第一種是擴(kuò)充語(yǔ)料,努力讓稀缺語(yǔ)料“不再稀缺”。這種思路是,通過(guò)一些模型,盡可能從互聯(lián)網(wǎng)上獲取語(yǔ)料。比如冰島語(yǔ),我們能收集大量冰島語(yǔ)的單語(yǔ)語(yǔ)料,在互聯(lián)網(wǎng)上就可以去收集與單語(yǔ)語(yǔ)料相近的英文文本,我們?nèi)フ疫@種可能對(duì)齊的語(yǔ)料,形成雙語(yǔ)去對(duì)。當(dāng)然我們有時(shí)也用人工標(biāo)注,但更多的是靠智能的方法自行增加。
第二種是利用語(yǔ)言的共性。大家生活在同一個(gè)星球,雖然使用的語(yǔ)言不同,但其實(shí)在描述同一個(gè)世界,因此語(yǔ)言在高層次上是有很多共性的。我們會(huì)借助一些遷移學(xué)習(xí)或者預(yù)訓(xùn)練的方法來(lái)解決這類問題,比如讓英語(yǔ)的模型去幫助法語(yǔ)的模型,或者讓德語(yǔ)的模型幫助法語(yǔ)的模型。主要就是這兩個(gè)思路。
51CTO:在多模態(tài)的機(jī)器翻譯中,要減少噪聲干擾的話,火山翻譯采取了哪些應(yīng)對(duì)策略?
王明軒:應(yīng)對(duì)噪聲干擾的話,首先,進(jìn)行了多種模態(tài)的聯(lián)合建模。我們會(huì)拿語(yǔ)音信號(hào)和文本信號(hào)一起去做下游的任務(wù),這樣一來(lái),錯(cuò)誤傳遞會(huì)減少很多。當(dāng)前,構(gòu)建多模態(tài)的統(tǒng)一語(yǔ)義在學(xué)術(shù)界也是非?;馃岬脑掝},所以我們也會(huì)吸收其他領(lǐng)域的很多東西。
其次,我們?cè)谖谋具@塊也會(huì)做很多魯棒性訓(xùn)練,盡量讓模型在有錯(cuò)誤輸入的情況下,還能保證正確的輸出,或者不擴(kuò)大這種錯(cuò)誤,相當(dāng)于把自動(dòng)糾錯(cuò)和機(jī)器翻譯做到了一個(gè)模型里面。因?yàn)槿似鋵?shí)是有這種自動(dòng)糾錯(cuò)能力的,比如人工譯員在聽到錯(cuò)誤的信息時(shí),會(huì)進(jìn)行自動(dòng)糾正,所以我們?cè)谀P屠锩嬉矔?huì)考慮這些信息。
51CTO:同聲傳譯對(duì)延時(shí)的要求很高。但是如果沒有結(jié)合上下文的語(yǔ)境或者聽完完整的語(yǔ)義,準(zhǔn)確率又很難保證。機(jī)器翻譯如何平衡這兩者之間的矛盾?
王明軒:這一點(diǎn)在工業(yè)界很有挑戰(zhàn)性,因?yàn)椴粌H關(guān)乎延時(shí)和準(zhǔn)確率的trade off,實(shí)際上需要優(yōu)化的地方更多。
比如在某些會(huì)議場(chǎng)景中,翻譯字幕需要展示在大屏幕上,觀眾接受字幕的速度也是關(guān)鍵問題之一,包括每次字幕展示的長(zhǎng)度、字幕彈出的頻率,都關(guān)系到如何讀起來(lái)更舒服。其中有很多細(xì)節(jié)需要我們反復(fù)和產(chǎn)品經(jīng)理溝通,深入用戶調(diào)研來(lái)看整體滿意度。因此,這不僅僅是準(zhǔn)確率的問題,要把用戶的實(shí)際使用體驗(yàn)都作為要素考慮進(jìn)去,再來(lái)調(diào)整模型。
此外,延時(shí)可能是用戶滿意度的指標(biāo)之一,但延時(shí)也并非越短越好。通常有個(gè)合適的gap反而更好。因?yàn)檠訒r(shí)很短的話,字幕彈出的速度也會(huì)很快,用戶的接受效果反而不太好。在這方面,我們也會(huì)借鑒業(yè)界的很多成熟做法,比如動(dòng)態(tài)控制字幕翻譯的間隔??傮w而言,這是一個(gè)非常工程化、產(chǎn)品化的問題。
未來(lái)趨向
機(jī)器翻譯仍然不是完美的,但從業(yè)者們正在努力讓其變得質(zhì)量更高,可用性更強(qiáng),適用性更廣。讓我們來(lái)觀察一下它的發(fā)展趨勢(shì),尤其是當(dāng)機(jī)器翻譯與專業(yè)譯員發(fā)生“碰撞”時(shí),翻譯服務(wù)場(chǎng)景又會(huì)產(chǎn)生哪些化學(xué)反應(yīng)。
51CTO:隨著技術(shù)的發(fā)展,機(jī)器翻譯是否會(huì)衍生出更多有趣的應(yīng)用場(chǎng)景?
王明軒:之前我們推出的火山翻譯AR眼鏡就是類似的嘗試。今年谷歌I/O大會(huì)上壓軸發(fā)布的AR翻譯眼鏡也是很有意思的應(yīng)用,使用者佩戴后可以實(shí)時(shí)看到對(duì)話者的譯文,類比字幕效果。
這其實(shí)都反映出了一種比較樸素的理想:我們希望大家能生活在一個(gè)溝通無(wú)障礙的世界。比如:出國(guó)旅游時(shí),戴上眼鏡就可以理解任何語(yǔ)言的文字提示,你看到的路牌是德語(yǔ)的,而顯示在眼鏡上的是中文。日常交流時(shí),別人跟你說(shuō)話,對(duì)話信息自動(dòng)變成你所理解的文字,顯示在眼鏡下方。這都是能更有效地獲取信息的場(chǎng)景。
51CTO:長(zhǎng)遠(yuǎn)來(lái)看,機(jī)器翻譯將如何發(fā)展?
王明軒:應(yīng)用方面,我覺得機(jī)器翻譯可能會(huì)和多模態(tài)應(yīng)用結(jié)合得更為緊密,比如視頻內(nèi)容、音頻內(nèi)容的翻譯需求會(huì)越來(lái)越多。另外,機(jī)器翻譯可能會(huì)更多地與業(yè)務(wù)出海、文化出海聯(lián)系在一起。因?yàn)閲?guó)內(nèi)很多公司都在積極地進(jìn)行海外業(yè)務(wù)的擴(kuò)張,我認(rèn)為這個(gè)領(lǐng)域會(huì)對(duì)機(jī)器翻譯的發(fā)展起到很大幫助。
技術(shù)方面,我能看到的已經(jīng)在發(fā)生的趨勢(shì)是:一是大數(shù)據(jù)和大模型的訓(xùn)練。從事這一領(lǐng)域的人越來(lái)越多,模型越來(lái)越大,數(shù)據(jù)量也越來(lái)越大,很多人認(rèn)為這種變化有可能會(huì)給機(jī)器翻譯的能力帶來(lái)質(zhì)變。二是翻譯和模態(tài)的結(jié)合。不止在翻譯方面,業(yè)界很多人都在試圖構(gòu)建不同模態(tài)的統(tǒng)一語(yǔ)義表示,之前幾年,不同模態(tài)之間界限還比較分明,大家交流相對(duì)也少。如今,模型越來(lái)越一致。未來(lái)可能出現(xiàn)一個(gè)模型,既能做文本翻譯,也能做語(yǔ)音翻譯,甚至能做視頻翻譯。
51CTO:未來(lái),機(jī)器翻譯是否有可能在特定場(chǎng)景中完全取代人工翻譯?
王明軒:按目前這種做法肯定是取代不了人工的。不過(guò)我覺得機(jī)器翻譯和人工翻譯可能不屬于一個(gè)賽道。
機(jī)器翻譯的特點(diǎn),一是速度非??欤强梢砸?guī)?;运m合處理的是海量且需要及時(shí)處理的信息。舉個(gè)例子,如果現(xiàn)在有一千萬(wàn)個(gè)視頻要從英語(yǔ)翻譯成法語(yǔ),那么純靠人工是不太能做到的,但是機(jī)器可以做。這一點(diǎn)就可以讓機(jī)器在它的賽道里發(fā)揮很重要的作用,長(zhǎng)期看來(lái)是大有裨益的,因?yàn)樗_闊了整個(gè)市場(chǎng),讓跨語(yǔ)言的市場(chǎng)變得更大。
但是對(duì)于很精細(xì)的翻譯場(chǎng)景,機(jī)器翻譯可能就力有不逮。就像有人提到的,機(jī)器翻譯能翻得了《紅樓夢(mèng)》嗎?我認(rèn)為,這就不屬于機(jī)器翻譯的任務(wù)范疇。小說(shuō)或詩(shī)歌之類的翻譯,這一類型的翻譯必須要依仗專家。還有規(guī)格很高的會(huì)議同傳,也肯定需要專業(yè)譯員擔(dān)任,而不可能是機(jī)器。但在一些重要性不是很高的會(huì)議上,機(jī)器翻譯的成本優(yōu)勢(shì)就會(huì)展現(xiàn)出來(lái)。
機(jī)器翻譯跟專業(yè)譯員,兩者隸屬賽道不同,區(qū)分還是很鮮明的。不過(guò)某種程度上,兩者也存在互幫互助的關(guān)系。這體現(xiàn)在:一方面,機(jī)器翻譯需要的語(yǔ)料就是專業(yè)譯員生產(chǎn)的。專業(yè)譯員在工作過(guò)程中不斷地生產(chǎn)大量的語(yǔ)料,這些語(yǔ)料能夠持續(xù)幫助機(jī)器翻譯去提升能力。另一方面,機(jī)器翻譯也可以幫人減輕負(fù)擔(dān),處理要求沒有那么高的任務(wù)?,F(xiàn)在也有很多譯員在做譯后編輯,很多翻譯公司讓機(jī)器先做翻譯,譯員再做編輯,效率也能因此大幅提升。
嘉賓介紹
王明軒,字節(jié)跳動(dòng)AI-Lab機(jī)器翻譯團(tuán)隊(duì)負(fù)責(zé)人,研究方向主要為機(jī)器翻譯和自然語(yǔ)言處理。在機(jī)器翻譯領(lǐng)域,發(fā)表包括 ACL、EMNLP 等頂級(jí)會(huì)議論文超過(guò)40 篇,多次拿到 WMT等國(guó)際翻譯評(píng)測(cè)比賽第一。同時(shí)還擔(dān)任EMNLP2022贊助主席,和NeurIPS 2022、NLPCC 2022、AACL2022 等會(huì)議領(lǐng)域主席。
欄目介紹
“T前線”是51CTO內(nèi)容中心專為技術(shù)人物開設(shè)的深度訪談欄目之一,通過(guò)邀請(qǐng)技術(shù)界內(nèi)的業(yè)務(wù)負(fù)責(zé)人、資深架構(gòu)師、資深技術(shù)專家等對(duì)當(dāng)下的技術(shù)熱點(diǎn)、技術(shù)實(shí)踐和技術(shù)趨勢(shì)進(jìn)行深度的解讀和洞察,推動(dòng)前沿科技的傳播與發(fā)展。