自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

要傳播“信息”而不是“病毒”!程序員借助AI,用500多種語言翻譯“洗手”

人工智能
本文介紹Daniel Whitenack的AI大佬用使用了多語言無監(jiān)督方法來訓練500多種語言的跨語言詞向量,通過提取生成了510種語言中“洗手”的短語翻譯。

?[[321195]]?

大數(shù)據(jù)文摘出品

作者:Daniel Whitenack

編譯:lin、曹培信

這個世界上有多少種語言?

7117種。沒錯,不是方言,而是正在被使用的語言。

人類傳遞信息的載體是語言,不同語言之間的交流靠的是翻譯,比如世衛(wèi)組織在疫情防控中,在官網(wǎng)上發(fā)布了一個公告,號召大家勤洗手以預(yù)防感染。

??

作為一個國際組織,這里使用的默認語言是英語,但是在網(wǎng)站的右上角也有一個切換語言的地方,提供包括中文在內(nèi)的6種語言可以選擇。

??

盡管這6種語言覆蓋了世界超過35億的人口,但是顯然是遠遠不夠的。

求助于翻譯軟件?以目前世界上適用范圍最廣的谷歌翻譯來說,現(xiàn)在只能支持100多種語言,也是現(xiàn)存語言的零頭。

??

像WHO發(fā)布的這種關(guān)于全球疫情的消息,肯定是希望能夠覆蓋到更多的人,但是目前很多地區(qū)面臨語言障礙而導致信息的傳播受阻,哪怕只是想告訴人們要勤洗手。

為了讓更多的人能夠了解洗手的重要性,一位名叫Daniel Whitenack的AI大佬用使用了多語言無監(jiān)督方法來訓練500多種語言的跨語言詞向量,然后從現(xiàn)有目標語言文檔中提取“洗”、“手”的部分,然后將這些部分組合起來,生成了510種語言中“洗手”的短語翻譯。

Daniel用的是Facebook開發(fā)的MUSE(Multilingual Unsupervised and Supervised Embeddings)庫,訓練了544種語言和英語之間的跨語言詞向量,而這些向量允許從現(xiàn)有文檔中提取與目標短語“洗手”相似的短語。

Daniel與語言社區(qū)SIL International的同事合作完成了這項工作,他們的成果可以在Ethnologue指南頁面上看到——一份有著454種譯文的新冠病毒指南。

鏈接:https://www.ethnologue.com/guides/health

下面就跟著數(shù)據(jù)菌一起來看看他是怎么做的吧!

拆解“洗腳”和“你的手”,變成“洗手”

首先,SIL International已經(jīng)完成了2000多種語言的語義工作,目前管理著1600多種語言項目文檔。所以我想他們可能已經(jīng)將“洗手”或類似的短語多次翻譯成數(shù)百種語言,這個猜想得到了證實!

因此我能夠從我們的900多種語言檔案庫中快速收集文檔,主要是完整的教學材料和圣經(jīng)等。這些文檔中的每一個都有英文對照,其中必然包含短語“洗手”或類似的短語,例如“洗臉”。此外,這些文檔的質(zhì)量都很高,并與當?shù)卣Z言社區(qū)合作進行了翻譯和核查。

語言數(shù)據(jù)集有了!

但是,這里有兩個問題需要克服。首先,此數(shù)據(jù)只有大多數(shù)語言的數(shù)千個樣本,這與用于訓練機器翻譯模型的數(shù)百萬個樣本相比還是太少;其次,即使文檔中包含目標語言中的“洗手”一詞,我們也不知道該詞在周圍文本中的確切位置。

對于低資源語言數(shù)據(jù)集,我們當然可以利用機器翻譯中的一些最新技術(shù),但是需要花費一些時間來調(diào)整自動化的方法,以快速適應(yīng)每種語言配對中的翻譯模型。此外,我們定位的許多語言都沒有現(xiàn)有的基準,可以與之比較評估指標,例如BLEU得分。

于是我選擇嘗試通過在現(xiàn)有文檔中找到短語本身或短語的組成部分(例如“洗手”或“你的手”)來構(gòu)建“洗手”一詞。

為了找到這些,我使用Facebook Research的Multilingual Unsupervised and Supervised Embedding(MUSE)庫訓練了每個跨語言詞向量。MUSE將單語言詞向量作為輸入(我使用fasttext生成了這些向量),并使用對抗性方法學習了從英語到目標向量空間的映射,該過程的輸出是跨語言詞向量。

??

一旦生成跨語言詞向量后,我們便可以在目標語言文檔中找到短語。事實證明,整個文檔中非常清楚地使用了“洗臉”一詞以及“手”,“洗你的”等分離的實例。

對于每種語言,我都會在期望該短語出現(xiàn)的區(qū)域中搜索N-gram(基于英語并行匹配中的用法)。使用跨語言詞向量對N-gram進行矢量化處理,并使用各種距離度量將其與英語短語的矢量化版本進行比較,向量空間中最接近英語短語的N-gram被確定為目標語言匹配。

最后,將與他們的英語對應(yīng)詞相匹配的組成短語組合在一起,以生成目標語言中的“洗手”短語。這種組合再次利用了跨語言向量,以確保以適當?shù)姆绞浇M合。

例如,如果我們在目標語言中匹配了短語“洗腳”,則必須將與“腳”相對應(yīng)的N-gram替換成與“手”相對應(yīng)的N-gram,下面是伯利茲·克里奧爾(Belize Kriol)英語的示例:

??

當然,在此匹配過程中我們做了些假設(shè),所以這個過程很可能不會產(chǎn)生語法上正確的預(yù)測。例如,我假設(shè)在大多數(shù)語言中,“手””一詞和“腳”一詞都是一個詞長(詞之間用空格和標點符號隔開)。這個假設(shè)肯定跟實際是有出入的,以后我們可以克服其中的一些局限性并擴展該系統(tǒng),但是就目前而言,該方法可以在沒有任何翻譯系統(tǒng)支持的情況下提供相對可靠的多語言翻譯結(jié)果。

探索一條低數(shù)據(jù)條件下的短語翻譯方法

到目前為止,我已經(jīng)能夠訓練544種語言的跨語言詞向量,我使用上面的方法嘗試為找出這些語言 如何表示“洗手”。

因為缺乏許多語言對的一致數(shù)據(jù),所以我使用了單獨的保留文檔,其中也包含“洗手”的成分,以幫助驗證所構(gòu)造短語中的標記。

以下是來自Ethnologue語言統(tǒng)計數(shù)據(jù)的翻譯樣本:

??

構(gòu)造的短語類似于參考譯文,或者是“洗手”的替代表達方式。例如,在保加利亞語中,我預(yù)測為“умийръцете”,而在Google翻譯中,預(yù)測為“Измийсиръцете”。但是,如果我使用Google翻譯對我的預(yù)測進行回譯,我仍然會得到“洗手”。

在某些不確定性因素下,我無法與參考譯文(例如,所羅門群島的Pijin [pis]或帶有人工注釋范疇進行比較,但我仍然可以驗證“洗手”(wasim)和“手”(han) )分別用于其他必然談及洗或手的參考文件中。使用此方法可以驗證大約15%的翻譯,我希望在收集參考詞典時能進行更多的驗證。

請注意,即使對于像意大利語這樣的高資源語言,我最多都使用每種語言的大約7000個句子來獲得以上翻譯,也不依賴于語言對之間對齊的句子。盡管存在數(shù)據(jù)非常匱乏,無監(jiān)督情景,但對于兩個系統(tǒng)都支持的語言,我仍然能夠獲得質(zhì)量與Google Translate相似的短語。

從某種程度上來說,這證明了我使用的這種“混合”方法(詞向量的無監(jiān)督對齊+基于規(guī)則的匹配)在將短語翻譯成數(shù)據(jù)化很少的語言中,是行之有效的。

相關(guān)報道:https://datadan.io/blog/wash-your-hands

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     ?大數(shù)據(jù)文摘二維碼?

??戳這里,看該作者更多好文??

責任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2020-04-21 08:30:32

AI人工智能語言

2011-03-07 09:45:51

FileZilla

2014-12-24 09:56:31

編程語言

2013-04-28 11:03:41

編程語言程序員私有云

2015-07-14 10:21:58

2023-05-25 16:24:13

2015-08-12 09:58:56

程序員工具

2015-06-02 09:11:11

程序員效率源于需求

2023-04-17 21:48:00

OpenAIAI

2009-07-31 16:24:55

ibmdwEclipse

2015-06-10 10:43:07

2017-01-15 17:06:16

程序員藝術(shù)家

2013-04-23 09:34:44

程序員

2013-08-23 11:06:34

編程語言

2022-01-26 07:18:57

CopyTransl閱讀翻譯文本翻譯

2022-12-08 20:16:43

2014-08-29 11:09:44

程序員

2022-01-29 00:08:30

程序員編程語言Java

2017-07-07 10:32:03

程序員微軟AI

2011-03-30 10:44:39

COBOL
點贊
收藏

51CTO技術(shù)棧公眾號