人工智能翻譯可以讓你無障礙地和外國人談戀愛
在人工智能語音翻譯領(lǐng)域,噪音是必須要面對的主要挑戰(zhàn)之一。設(shè)備或許能夠識別出實(shí)驗(yàn)室或會議室里的語音,但在日本京都站與我(本文作者馬利克·科恩(Marek Kohn))交談的懷貝爾教授(Professor Waibel)周圍,我仍能聽到那種背景噪音。我正努力用英語跟上他的思路,但潦草的線條提醒我,我們相距近1萬公里,即使我們說的是同一種語言,這段距離仍然成為交流的重大障礙。
畢竟,我們還沒有實(shí)現(xiàn)科幻小說中描述的那種無縫交流。在這些描述中,懷貝爾教授可以用其母語德語作出解釋,而我聽到的卻是英語?;蛟S,他也可以不用手就能與周圍的日本人進(jìn)行無縫交談,即使所有人都在用母語,也不影響他們之間的對話。
懷貝爾是德國卡爾斯魯厄理工學(xué)院的計算機(jī)科學(xué)教授,他和同事們已經(jīng)可以用德語授課,學(xué)生們則可以通過電子翻譯器用英語聽課。該系統(tǒng)生成學(xué)生可以在筆記本電腦或手機(jī)上閱讀的文本,因此這個過程有點(diǎn)類似于字幕。不過,這有助于講師將課程講得更清楚,不需要擔(dān)心背景差異。
人工智能語音翻譯的想法由來已久。
懷貝爾同時也是美國卡內(nèi)基梅隆大學(xué)的計算機(jī)科學(xué)教授,他甚至可以被稱之為人工語音翻譯的創(chuàng)造者。1978年,他在麻省理工學(xué)院(MIT)提出了這個想法。道格拉斯·亞當(dāng)斯(Douglas Adams)差不多也是在同一時期想到了這個主意。
《銀河系漫游指南》(The Hitchhiker’s Guide to the Galaxy)中有一種名為“巴別塔魚”(Babel)的生命形式,當(dāng)把它放在耳朵里時,聽者能夠聽懂宇宙中的任何生命種族的語言。這代表了一種技術(shù)愛好者渴望已久的設(shè)備,比如便攜式語音通信設(shè)備和可以掛在墻上的平板電視,這是一種早就應(yīng)該存在的東西,且總有一天會成為現(xiàn)實(shí)。
1991年,懷貝爾構(gòu)建了頭一個語音翻譯系統(tǒng),該系統(tǒng)擁有500個單詞的詞匯量,可以在大型工作站上運(yùn)行,需要幾分鐘來處理所聽到的內(nèi)容。他承認(rèn):“當(dāng)時還沒有為迎接語音翻譯的黃金時代做好準(zhǔn)備。”如今,隨著人工翻譯和語音識別技術(shù)的不斷進(jìn)步,類似于巴別塔魚的原型設(shè)備已經(jīng)開始出現(xiàn)。
谷歌使用Google Translate,在Pixel耳機(jī)中加入了翻譯功能,它還可以通過智能手機(jī)應(yīng)用進(jìn)行語音翻譯。Skype有Translator功能,可以處理10種語言。有些規(guī)模較小的公司,如總部位于紐約布魯克林的初創(chuàng)公司韋弗利實(shí)驗(yàn)室(Waverly Labs),已經(jīng)開發(fā)出了耳機(jī)翻譯器??萍济襟w上的評論可以被合理地總結(jié)為“實(shí)際上還不錯”。
目前可用的系統(tǒng)已經(jīng)證明了這一概念,但在現(xiàn)階段,它們似乎被視為引人注目的新奇事物,而不是朝著懷貝爾所稱的“建立語言透明社會”的方向邁進(jìn)。推動人工語音翻譯的一個主要發(fā)展趨勢是,鼓勵人們使用該技術(shù)進(jìn)行交流。Google Translate的產(chǎn)品總監(jiān)巴拉克·圖羅夫斯基(Barak Turovsky)表示:“我們通常在語音設(shè)備的范例中處于非常早期的階段,但它發(fā)展得非常迅速,翻譯將是這段旅程的關(guān)鍵部分之一。”
上個月,谷歌為其家庭設(shè)備引入了解釋器模式,只要說:“嘿,谷歌,做我的法語翻譯器”,就能激活語音,并在智能顯示屏上進(jìn)行文本翻譯。谷歌建議將酒店登記作為可能的用例。這可能是個明顯的例子,它可以充當(dāng)“旅行者英語”,無論是以英語作為母語還是其他語言的人都可使用。
如果你的手機(jī)上有翻譯軟件,你已經(jīng)可以這么做了,盡管它的屏幕和揚(yáng)聲器都很小。這種簡單的公共互動在很大程度上利用了這款應(yīng)用的對話功能。但是另一個流行的用例是圖羅夫斯基所謂的“浪漫”。數(shù)據(jù)日志揭示了“我愛你”和“你有一雙美麗的眼睛”等語句的受歡迎程度。其中很多可能并不代表什么新東西。畢竟,幾十年來,搭訕語始終是標(biāo)準(zhǔn)常用語手冊中的內(nèi)容。
韋弗利實(shí)驗(yàn)室利用聊天功能為其在Indiegogo上的融資活動做宣傳。該公司創(chuàng)始人兼CEO安德魯·奧喬亞(Andrew Ochoa)在一段視頻中講述了自己的靈感來源:當(dāng)時他在度假時遇到了一名法國女性,但無法與她很好地溝通,于是他產(chǎn)生了做翻譯的想法。嘗試使用翻譯應(yīng)用讓人產(chǎn)生“可怕的體驗(yàn)”。手機(jī)會礙手礙腳,但耳機(jī)不會擋住臉。這段視頻展示了可能的情況:他向法國女人展示耳機(jī),然后他們一起去喝咖啡、觀光。演示非常成功的,奧喬亞籌集到440萬美元資金,是其最初目標(biāo)的30倍。

韋弗利實(shí)驗(yàn)室的Pilot耳機(jī)(紅色和白色)與谷歌的Pixel耳機(jī)(黑色)
一位顧客說,韋弗利實(shí)驗(yàn)室的Pilot耳機(jī)使他能夠頭一次和女朋友的母親通話。有些人甚至說,這使他們能夠與配偶交談。奧喬亞指出說:“每隔一段時間,我們就會收到有些人發(fā)來的電子郵件,說他們正在用這種設(shè)備和講西班牙語的妻子交談。我真搞不懂他們當(dāng)初是怎么走到一起的!”我們可能會猜測,他們是通過互聯(lián)網(wǎng)和婚介機(jī)構(gòu)相識相戀的。奧喬亞承認(rèn),“在你通過耳機(jī)找到真愛之前,這項技術(shù)還需要進(jìn)一步改進(jìn),但距離目標(biāo)已經(jīng)不再遙遠(yuǎn)。”
許多早期的采用者將Pilot耳機(jī)用于完全不夠浪漫的用途,并將其用于組織機(jī)構(gòu)中。韋弗利實(shí)驗(yàn)室現(xiàn)在正在為專業(yè)用例開發(fā)新的模型,該模型需要在語音識別、翻譯準(zhǔn)確性和提供譯文時間方面提高性能。奧喬亞稱:“職場人士在談話中往往不太有耐心。”
新版本還將對衛(wèi)生設(shè)計進(jìn)行改進(jìn),以克服Pilot耳機(jī)最缺乏吸引力的地方。談話時,雙方都需要佩戴Pilot耳機(jī)。奧喬亞說:“我們發(fā)現(xiàn),在與陌生人共用耳機(jī)時存在障礙。”這可能并不出人意料之外。如果耳機(jī)翻譯變得足夠普及,陌生人的耳朵里可能已經(jīng)有了自己的耳機(jī),那么這個問題就會得到解決。這種情況是否會發(fā)生,以及多快發(fā)生,可能并不完全取決于耳機(jī)本身,而是取決于語音控制設(shè)備和人工翻譯的普及程度。
在這方面,主要推動力似乎是進(jìn)入亞洲新興市場。谷歌估計,互聯(lián)網(wǎng)上50%的內(nèi)容是英語,但世界上只有20%的人說英語。圖羅夫斯基說:“如果你看看互聯(lián)網(wǎng)使用率增長迅猛的地區(qū),比如亞洲國家,那里的大多數(shù)人根本不懂英語。因此,打破語言障礙對每個人來說都是一個重要的目標(biāo),顯然對谷歌來說也是如此。這就是為什么谷歌在翻譯系統(tǒng)上投入這么多資源的原因。”
懷貝爾也強(qiáng)調(diào)了亞洲的重要性,指出語音翻譯在日本和中國已經(jīng)真正起步。不過,還有很長的路要走。翻譯需要同步進(jìn)行,就像電視上的同聲傳譯翻譯需要與外國政客講話時的步調(diào)一致,而不是讓發(fā)言者每說幾句話就要停頓一下,等著翻譯表現(xiàn)。在無法上網(wǎng)的情況下,它需要能脫機(jī)工作,并解決人們對云端積累的私有語音數(shù)據(jù)量的擔(dān)憂,這些數(shù)據(jù)已被發(fā)送到服務(wù)器進(jìn)行處理。
懷貝爾建議,系統(tǒng)不僅需要應(yīng)對諸如噪音等物理方面的挑戰(zhàn),還需要具有社會意識,比如了解人們的舉止,并恰當(dāng)?shù)嘏c人交談。當(dāng)我頭一次給懷貝爾發(fā)電子郵件時,我意識到他是一位德國教授,而且歐洲大陸的傳統(tǒng)要求對學(xué)術(shù)地位給予嚴(yán)肅的尊重,我犯了個偏頗的錯誤,稱他為“親愛的懷貝爾教授”。
正如我所料,他用國際標(biāo)準(zhǔn)英語回答:“你好,馬利克。”對禮儀敏感的人工翻譯可以讓人們不再需要了解不同的文化規(guī)范,它們將促進(jìn)交流,同時減少誤解。與此同時,它們可能有助于保護(hù)當(dāng)?shù)氐娘L(fēng)俗習(xí)慣,減緩與國際英語相關(guān)的習(xí)慣的傳播。
不過,教授和其他人不會將語言意識外包給軟件。如果這項技術(shù)成熟到無縫、無所不在的程度——簡而言之,就像巴別塔魚,那它實(shí)際上會增加語言技能的價值。自動翻譯將提供一種商品,即基本的、實(shí)用的信息,幫助人們購買東西或找到目的地。它是否會幫助人們管理家庭生活或戀愛關(guān)系,這是個有待探討的問題。但這是值得注意的一種可能,它可能會克服移民后幾代人之間經(jīng)常出現(xiàn)的語言障礙,那使得孩子和祖父母沒有共同的語言。
然而,無論如何使用人工智能語音翻譯技術(shù),它永遠(yuǎn)不會像真正的巴別塔魚那么好。即使語音變形技術(shù)能模擬說話人的聲音,但它們的嘴唇動作不會匹配,而且看起來就像在配音電影里。這種對比將強(qiáng)調(diào)共享語言的價值,以及學(xué)習(xí)它們的價值。
努力學(xué)習(xí)別人的語言是一種承諾,是被視為值得信賴的象征。分享一門語言還可以促進(jìn)歸屬感和社區(qū)意識,就像與那些把英語作為通用語的國際科學(xué)家一樣,而他們的前輩曾使用拉丁語。學(xué)習(xí)顧客語言的移民店主不僅使銷售更容易,他們還顯示出希望與客戶所在社區(qū)拉近距離的意愿,并禮貌地宣稱自己已經(jīng)融入其中。
當(dāng)機(jī)器翻譯成為一種無處不在的商品時,人類的語言技能將會受到重視。掌握多門語言的人總是比那些依賴于設(shè)備的人更有優(yōu)勢,就像那些有數(shù)字頭腦的人比那些需要使用計算器的人有優(yōu)勢一樣。雖然對一種通用語言的實(shí)際需求將會減少,但分享這種語言的社會價值將會持續(xù)存在。軟件永遠(yuǎn)不會取代語言知識所帶來的那種微妙而重要的理解體驗(yàn)。畢竟,要從紛擾中找出細(xì)微差別,總是需要這些知識。