自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta新模型NLLB獲Nature盛贊,200種瀕危語言高質(zhì)量翻譯,「不讓任何語言掉隊(duì)」

人工智能 新聞
Meta AI的NLLB-200登上Nature,「不讓任何一門語言掉隊(duì)」,能翻譯200種語言的大模型獲得Nature社論的盛贊——復(fù)興了瀕臨滅絕的語言,但是Nature研究人員也鄭重提醒Meta,必須將使用這些語言的社區(qū)也納入進(jìn)來,才會(huì)真正減緩語言的消亡。

Meta AI剛剛在社交媒體X上宣傳自家的大模型NLLB,全稱為No Language Left Behind,這個(gè)AI模型能夠翻譯200種語言,包括資源匱乏的語言。

圖片

更重要的是,NLLB模型可以免費(fèi)提供給非商業(yè)用途。

這項(xiàng)研究刊登在了本周的Nature上,題為「Scalling neural machine translations to 200 languages」。

圖片

論文地址:https://www.nature.com/articles/s41586-024-07335-x

No Language Left Behind,意為「不讓任何一門語言掉隊(duì)」,是非常有人文關(guān)懷的技術(shù)描述。

Nature的社論也著重強(qiáng)調(diào)了這一點(diǎn),發(fā)表了評(píng)論文章,稱贊Meta的這次發(fā)布。

圖片

縮小語言之間的數(shù)字鴻溝

在全世界使用的近7000種語言中,大約有一半被認(rèn)為面臨滅絕的危險(xiǎn),一項(xiàng)研究預(yù)測(cè),語言消亡的速度可能會(huì)在40年內(nèi)增加兩倍。

少數(shù)語言在互聯(lián)網(wǎng)上占據(jù)主導(dǎo)地位,據(jù)統(tǒng)計(jì),一半以上的網(wǎng)站都是英文的,前十種語言占據(jù)了80%以上的互聯(lián)網(wǎng)內(nèi)容。

NLLB模型最大的價(jià)值在于,它提供了一種擴(kuò)大「資源匱乏」型語言機(jī)器翻譯規(guī)模的方法,這些資源匱乏的語言幾乎沒有可獲取的數(shù)字資源。

通過艱辛的努力,Meta技術(shù)人員開墾了大片「無人區(qū)」——在它現(xiàn)在可以互翻的200多種語言中,許多語言是第一次被機(jī)器翻譯。

包括南非的茨瓦納語、達(dá)里語,阿富汗所使用的一種波斯語,波利尼亞的薩摩亞語等等。

圖片

這是非常有建設(shè)性的事業(yè),因?yàn)檫@有助于縮小這些被忽視的語言與在線的更流行的語言(例如英語、法語和俄語)之間的數(shù)字鴻溝。

它可以讓資源匱乏語言的使用者能夠用他們的母語在線獲取知識(shí),并可能通過引導(dǎo)這些語言進(jìn)入數(shù)字時(shí)代來避免它們的滅絕。

人類專家助力NLLB

NLLB模型的研發(fā)團(tuán)隊(duì)來自Meta AI、加州大學(xué)伯克利分校和約翰霍普金斯大學(xué)。

這些出色的科學(xué)家們共同開展了這個(gè)「不讓任何一門語言掉隊(duì)」計(jì)劃,他們選取了維基百科文章中出現(xiàn)的語言,但在線可用的示例翻譯句子不足100萬個(gè)。

這項(xiàng)工作將之前迭代的語言數(shù)量增加了一倍,并提高了翻譯質(zhì)量。

NLLB團(tuán)隊(duì)聘用了專業(yè)譯員和審校人員,創(chuàng)建了39種語言的「種子」數(shù)據(jù)集,并開發(fā)了一種技術(shù),使他們能夠挖掘網(wǎng)絡(luò)數(shù)據(jù),創(chuàng)建其余語言的并行數(shù)據(jù)集。

他們還為每種語言生成了一個(gè)包含約200個(gè)「有毒」詞匯的列表,以識(shí)別可能構(gòu)成仇恨言論的翻譯。

人類專家的參與既耗時(shí)又昂貴,但卻至關(guān)重要。如果沒有他們,算法將只能使用AI生成的低質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,然后在迭代過程中重復(fù)這些低質(zhì)量和錯(cuò)誤內(nèi)容,進(jìn)一步降低模型表現(xiàn)。

沒有參與Meta AI計(jì)劃的英國(guó)愛丁堡大學(xué)民族學(xué)/語言學(xué)教授William Lamb表示,這種情況已經(jīng)發(fā)生在蘇格蘭蓋爾語中,這個(gè)語言的大多數(shù)在線內(nèi)容都是由人工智能生成的。

圖片

William Lamb

蘇格蘭蓋爾語是Meta計(jì)劃中資源較少的語言之一,好在其內(nèi)容都是經(jīng)過專業(yè)翻譯的。

對(duì)于缺乏某些詞匯的語言來說,人類的專業(yè)知識(shí)也很重要。

例如,許多非洲語言沒有專門的科學(xué)概念術(shù)語。Decolonise Science研究項(xiàng)目聘用專業(yè)翻譯人員將180篇科學(xué)論文翻譯成6種非洲語言。

該項(xiàng)目由Masakhane發(fā)起,這是一個(gè)由對(duì)自然語言處理感興趣的研究人員組成的基層組織。

模型架構(gòu)與性能

NLLB是一種利用跨語言遷移學(xué)習(xí)的單一大規(guī)模多語言模型,NLLB開發(fā)了一個(gè)基于稀疏門控混合專家(Sparsely Gated Mixture of Experts)架構(gòu)的條件計(jì)算模型,使用針對(duì)資源匱乏語言定制的新挖掘技術(shù)獲得的數(shù)據(jù)進(jìn)行訓(xùn)練。

圖片

此外,團(tuán)隊(duì)還設(shè)計(jì)了多項(xiàng)架構(gòu)和訓(xùn)練改進(jìn),以在對(duì)數(shù)千項(xiàng)任務(wù)進(jìn)行訓(xùn)練時(shí)抵消過度擬合。

為了檢測(cè)模型的性能,團(tuán)隊(duì)使用了專門創(chuàng)建的工具——自動(dòng)基準(zhǔn)(FLORES-200)、人工評(píng)估指標(biāo)(XSTS)和涵蓋模型中全部語言的「毒性」檢測(cè)器,評(píng)估了超過4萬個(gè)翻譯方向。

圖片

圖片

與之前的SOTA相比,根據(jù)BLEU(Bilingual Evaluation Understudy,一種基于分?jǐn)?shù)的雙語評(píng)估方法)評(píng)分,NLLB模型翻譯質(zhì)量平均提高了44%。

圖片

NLLB成功地將神經(jīng)機(jī)器翻譯(NMT)擴(kuò)展到了200種語言,并將這項(xiàng)工作中的所有發(fā)現(xiàn)免費(fèi)提供給非商業(yè)用途,為通用翻譯系統(tǒng)的開發(fā)奠定了重要的基礎(chǔ)。

NLLB-200首次面世是在2022,自被推出以來,我們已經(jīng)可以看到該模型在多個(gè)方向上的影響。

維基媒體報(bào)道稱,NLLB是維基百科編輯使用的第三大機(jī)器翻譯引擎(占所有已發(fā)布翻譯的3.8%)。與其他機(jī)器翻譯服務(wù)相比,使用NLLB-200翻譯的文章刪除率最低(0.13%),翻譯修改率最高不到10%。

模型發(fā)布之后——必不可少的社區(qū)互動(dòng)

自動(dòng)化翻譯方法確實(shí)可以為資源匱乏的語言帶來活力,但前提是大模型的研發(fā)公司能夠與使用這些語言的人持續(xù)進(jìn)行互動(dòng)。

機(jī)器學(xué)習(xí)模型的好壞取決于它們所輸入的數(shù)據(jù)——這些數(shù)據(jù)主要由人類創(chuàng)建,而光靠專家的翻譯,是遠(yuǎn)遠(yuǎn)供不應(yīng)求的。

這也是研究人員和技術(shù)公司必須將使用這些語言的社區(qū)納入進(jìn)來的原因之一。不僅是在創(chuàng)建機(jī)器翻譯系統(tǒng)的過程中,也包括用戶使用這些系統(tǒng)的過程,以反映真實(shí)情境下的人們?nèi)绾问褂眠@些語言。

Nature的研究人員表示,隨著機(jī)器翻譯工具的發(fā)展,其背后的公司必須繼續(xù)與技術(shù)所服務(wù)的社區(qū)互動(dòng),否則就有可能浪費(fèi)該技術(shù)的承諾。

他們擔(dān)心如果大公司不這樣做,會(huì)加速這些語言及其相關(guān)文化的消亡。

如果沒有真實(shí)語言社區(qū)的參與,機(jī)器翻譯工作可能會(huì)成為另一種形式的「降落傘科學(xué)」(parachute science),即高收入國(guó)家的研究人員對(duì)低收入國(guó)家的社區(qū)的利用。

加拿大溫哥華島北島學(xué)院的語言復(fù)興專家、Kwakwaka'wakw族人Sara Child表示——

圖片

「這些詞語、句子和交流都沒有了語言中編碼的價(jià)值觀和信仰。隨著人工智能將更多語言推向數(shù)字空間,我擔(dān)心我們會(huì)失去更多自我」。

在急于建立通用翻譯系統(tǒng)的過程中,我們絕不能忽視人的因素。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2018-11-26 12:24:52

AI 語言 人工智能

2021-05-06 09:52:27

語言開源AI

2022-07-07 12:38:58

PlatformsMetaNLLB-200

2022-11-09 13:43:59

中小企業(yè)

2023-08-28 00:33:48

開源語音識(shí)別

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數(shù)程序

2022-11-28 19:25:03

通信東數(shù)西算

2025-02-13 08:44:56

語言翻譯翻譯模型ChatGPT

2021-01-04 08:04:51

JS 變量JavaScript

2023-05-23 14:14:14

技術(shù)模型

2023-09-07 13:25:09

2021-08-08 14:26:24

SQL數(shù)據(jù)庫(kù)開發(fā)

2021-11-15 10:57:41

數(shù)據(jù)中心數(shù)字化轉(zhuǎn)型云計(jì)算

2013-06-07 10:41:22

微軟Bing Tansla

2012-09-13 10:44:18

Python代碼

2011-03-04 10:11:09

JavascriptAPI

2011-07-20 15:26:52

C++
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)