自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

研究：網(wǎng)絡(luò)充斥低質(zhì)機(jī)翻內(nèi)容，大語言模型訓(xùn)練需警惕數(shù)據(jù)陷阱

作者：遠(yuǎn)洋 2024-02-04 09:31:44

亞馬遜云計算人工智能實驗室的研究人員發(fā)現(xiàn)，網(wǎng)絡(luò)上大量內(nèi)容來自機(jī)器翻譯 (MT) 生成，這些跨越多種語言的翻譯內(nèi)容質(zhì)量普遍較低。研究團(tuán)隊強(qiáng)調(diào)，這凸顯了在訓(xùn)練大型語言模型 (LLM) 時，數(shù)據(jù)質(zhì)量和來源考量的重要性。

2 月 4 日消息，亞馬遜云計算人工智能實驗室的研究人員發(fā)現(xiàn)，網(wǎng)絡(luò)上大量內(nèi)容來自機(jī)器翻譯 (MT) 生成，這些跨越多種語言的翻譯內(nèi)容質(zhì)量普遍較低。研究團(tuán)隊強(qiáng)調(diào)，這凸顯了在訓(xùn)練大型語言模型 (LLM) 時，數(shù)據(jù)質(zhì)量和來源考量的重要性。

研究還發(fā)現(xiàn)，機(jī)器生成內(nèi)容在資源較少語言的翻譯中很普遍，并占網(wǎng)絡(luò)內(nèi)容的很大一部分。

IT之家注意到，研究團(tuán)隊開發(fā)了名為多維 cc 矩陣 (MWccMatrix) 的龐大資源，以更好地理解機(jī)器翻譯內(nèi)容的特征。該資源包含 90 種語言中 64 億個獨(dú)特的句子，并包括翻譯元組，即相互翻譯的一組句子。

這項研究發(fā)現(xiàn)大量網(wǎng)絡(luò)內(nèi)容通常被翻譯成多種語言，主要通過機(jī)器翻譯完成。這種內(nèi)容不僅在資源較少語言的翻譯中普遍存在，而且在這些語言的所有網(wǎng)絡(luò)內(nèi)容中也占很大一部分。

研究人員還注意到，出于廣告收入等目的，被翻譯成多種語言的內(nèi)容存在選擇性偏差。

論文的結(jié)論是：“機(jī)器翻譯技術(shù)在過去十年里取得了顯著進(jìn)步，但仍達(dá)不到人類質(zhì)量水平。多年來，使用當(dāng)時可用的機(jī)器翻譯系統(tǒng)將機(jī)器翻譯內(nèi)容添加到網(wǎng)絡(luò)上，因此網(wǎng)絡(luò)上大部分機(jī)器翻譯內(nèi)容按照現(xiàn)代標(biāo)準(zhǔn)可能質(zhì)量很低。這可能會導(dǎo)致 LLM 模型產(chǎn)生更多‘幻覺’ ，而選擇偏差表明即使不考慮機(jī)器翻譯錯誤，數(shù)據(jù)質(zhì)量也可能較低。數(shù)據(jù)質(zhì)量對于 LLM 訓(xùn)練至關(guān)重要，其中高質(zhì)量的語料庫，如書籍和維基百科文章，通常會進(jìn)行多次向上采樣?！?/p>

責(zé)任編輯：龐桂玉來源： IT之家

大語言模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="b6rrj"><i id="b6rrj"></i></blockquote>