自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

研究:網(wǎng)絡(luò)充斥低質(zhì)機(jī)翻內(nèi)容,大語言模型訓(xùn)練需警惕數(shù)據(jù)陷阱

人工智能
亞馬遜云計算人工智能實驗室的研究人員發(fā)現(xiàn),網(wǎng)絡(luò)上大量內(nèi)容來自機(jī)器翻譯 (MT) 生成,這些跨越多種語言的翻譯內(nèi)容質(zhì)量普遍較低。研究團(tuán)隊強(qiáng)調(diào),這凸顯了在訓(xùn)練大型語言模型 (LLM) 時,數(shù)據(jù)質(zhì)量和來源考量的重要性。

2 月 4 日消息,亞馬遜云計算人工智能實驗室的研究人員發(fā)現(xiàn),網(wǎng)絡(luò)上大量內(nèi)容來自機(jī)器翻譯 (MT) 生成,這些跨越多種語言的翻譯內(nèi)容質(zhì)量普遍較低。研究團(tuán)隊強(qiáng)調(diào),這凸顯了在訓(xùn)練大型語言模型 (LLM) 時,數(shù)據(jù)質(zhì)量和來源考量的重要性。

研究還發(fā)現(xiàn),機(jī)器生成內(nèi)容在資源較少語言的翻譯中很普遍,并占網(wǎng)絡(luò)內(nèi)容的很大一部分。

IT之家注意到,研究團(tuán)隊開發(fā)了名為多維 cc 矩陣 (MWccMatrix) 的龐大資源,以更好地理解機(jī)器翻譯內(nèi)容的特征。該資源包含 90 種語言中 64 億個獨(dú)特的句子,并包括翻譯元組,即相互翻譯的一組句子。

這項研究發(fā)現(xiàn)大量網(wǎng)絡(luò)內(nèi)容通常被翻譯成多種語言,主要通過機(jī)器翻譯完成。這種內(nèi)容不僅在資源較少語言的翻譯中普遍存在,而且在這些語言的所有網(wǎng)絡(luò)內(nèi)容中也占很大一部分。

研究人員還注意到,出于廣告收入等目的,被翻譯成多種語言的內(nèi)容存在選擇性偏差。

論文的結(jié)論是:“機(jī)器翻譯技術(shù)在過去十年里取得了顯著進(jìn)步,但仍達(dá)不到人類質(zhì)量水平。多年來,使用當(dāng)時可用的機(jī)器翻譯系統(tǒng)將機(jī)器翻譯內(nèi)容添加到網(wǎng)絡(luò)上,因此網(wǎng)絡(luò)上大部分機(jī)器翻譯內(nèi)容按照現(xiàn)代標(biāo)準(zhǔn)可能質(zhì)量很低。這可能會導(dǎo)致 LLM 模型產(chǎn)生更多‘幻覺’ ,而選擇偏差表明即使不考慮機(jī)器翻譯錯誤,數(shù)據(jù)質(zhì)量也可能較低。數(shù)據(jù)質(zhì)量對于 LLM 訓(xùn)練至關(guān)重要,其中高質(zhì)量的語料庫,如書籍和維基百科文章,通常會進(jìn)行多次向上采樣?!?/p>

責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2024-02-06 12:05:43

2009-12-25 10:18:23

2015-11-10 20:16:13

網(wǎng)絡(luò)詐騙網(wǎng)購安全

2020-03-31 15:44:03

戴爾

2023-11-07 15:03:56

2024-07-29 09:10:00

模型數(shù)據(jù)

2014-08-20 11:17:22

Windows Sto

2024-02-26 08:15:43

語言模型低代碼

2024-01-03 18:53:13

語言模型LLM

2023-12-04 12:02:05

2012-06-15 09:45:29

imo即時通訊

2023-09-06 08:30:00

低代碼自動化開發(fā)

2023-06-24 19:59:40

2025-04-16 02:30:00

2024-11-20 13:11:43

2013-03-20 10:35:11

文件系統(tǒng)

2023-10-11 12:32:53

AI模型

2017-08-28 21:31:37

TensorFlow深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2023-04-20 11:30:12

2019-10-23 15:15:49

云計算陷阱公共云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號