自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="p10jr"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

再勝OpenAI！谷歌發(fā)布20億參數(shù)通用模型，100多種語言自動識別翻譯

作者：新智元 2023-03-07 13:32:33

人工智能新聞

近日，谷歌正式發(fā)布了支持100多個語種的20億參數(shù)通用語音模型——USM，正式對標(biāo)OpenAI的開源Whisper。

上周，OpenAI發(fā)布的ChatGPT API和Whisper API，剛剛引動了一場開發(fā)者的狂歡。

3月6日，谷歌就推出了一款對標(biāo)的模型——USM。不僅可以支持100多種語言，而且參數(shù)量也達到了20個億。

當(dāng)然了，模型依然沒有對外開放，「這很谷歌」！

簡單來說，USM模型在涵蓋1200萬小時語音、280億個句子和300種不同語言的無標(biāo)注數(shù)據(jù)集中進行了預(yù)訓(xùn)練，并在較小的標(biāo)注訓(xùn)練集中進行了微調(diào)。

谷歌的研究人員表示，雖然用于微調(diào)的標(biāo)注訓(xùn)練集僅有Whisper的1/7，但USM卻有著與其相當(dāng)甚至更好的性能，并且還能夠有效地適應(yīng)新的語言和數(shù)據(jù)。

論文地址：https://arxiv.org/abs/2303.01037

結(jié)果顯示，USM不僅在多語種自動語音識別和語音-文本翻譯任務(wù)評測中實現(xiàn)了SOTA，而且還可以實際用在YouTube的字幕生成上。

目前，支持自動檢測和翻譯的語種包括，主流的英語、漢語，以及阿薩姆語這類的小語種。

最重要的是，還能用于谷歌在去年IO大會展示的未來AR眼鏡的實時翻譯。

Jeff Dean親自官宣：讓AI支持1000種語言

當(dāng)微軟和谷歌就誰家擁有更好的AI聊天機器人爭論不休時，要知道，大型語言模型的用途可不僅于此。

去年11月，谷歌最先宣布了新項目「開發(fā)一種支持全球1000種最常用語言的人工智能語言模型」。

同年，Meta也發(fā)布了一個名為「No Language Left Behind」模型，并稱可以翻譯200多種語言，旨在打造「通用翻譯器」。

而最新模型的發(fā)布，谷歌將其描述為通向目標(biāo)的「關(guān)鍵一步」。

在打造語言模型上，可謂群雄逐鹿。

據(jù)傳言，谷歌計劃在今年的年度 I/O 大會上展示20多款由人工智能驅(qū)動的產(chǎn)品。

當(dāng)前，自動語音識別面臨許多挑戰(zhàn)：

傳統(tǒng)的監(jiān)督學(xué)習(xí)方法缺乏可擴展性

在傳統(tǒng)的方法中，音頻數(shù)據(jù)需要費時又費錢的手動標(biāo)記，或者從有預(yù)先存在的轉(zhuǎn)錄的來源中收集，而對于缺乏廣泛代表性的語言來說，這很難找到。

擴大語言覆蓋面和質(zhì)量的同時，模型必須以高效的計算方式進行改進?

這就要求算法能夠使用來自不同來源的大量數(shù)據(jù)，在不需要完全重新訓(xùn)練的情況下實現(xiàn)模型的更新，并且能夠推廣到新的語言和使用案例。

微調(diào)自監(jiān)督學(xué)習(xí)

據(jù)論文介紹，USM的訓(xùn)練采用了三種數(shù)據(jù)庫：未配對的音頻數(shù)據(jù)集、未配對的文本數(shù)據(jù)集、配對的ASR語料庫。

未配對的音頻數(shù)據(jù)集?

包括YT-NTL-U（超1200萬小時YouTube無標(biāo)簽音頻數(shù)據(jù)）和Pub-U（超429,000小時的51種語言的演講內(nèi)容）

未配對的文本數(shù)據(jù)集?

Web-NTL（超1140種不同語言的280億個句子）

配對的ASR語料庫?

YT-SUP +和 Pub-S語料庫（超10,000小時的音頻內(nèi)容和匹配文本）

USM使用標(biāo)準(zhǔn)的編碼器-解碼器結(jié)構(gòu)，其中解碼器可以是CTC、RNN-T或LAS。

對于編碼器，USM使用了Conformor，或卷積增強Transformer。

訓(xùn)練過程共分為三個階段。

在初始階段，使用BEST-RQ（基于BERT的隨機投影量化器的語音預(yù)訓(xùn)練）進行無監(jiān)督的預(yù)訓(xùn)練。目標(biāo)是為了優(yōu)化RQ。

在下一階段，進一步訓(xùn)練語音表征學(xué)習(xí)模型。

使用MOST（多目標(biāo)監(jiān)督預(yù)訓(xùn)練）來整合來自其他文本數(shù)據(jù)的信息。

該模型引入了一個額外的編碼器模塊，以文本作為輸入，并引入了額外的層來組合語音編碼器和文本編碼器的輸出，并在未標(biāo)記的語音、標(biāo)記的語音和文本數(shù)據(jù)上聯(lián)合訓(xùn)練模型。

最后一步便是，對ASR（自動語音識別）和AST（自動語音翻譯）任務(wù)進行微調(diào)，經(jīng)過預(yù)訓(xùn)練的USM模型只需少量監(jiān)督數(shù)據(jù)就可以取得很好的性能。

USM整體訓(xùn)練流程

USM的性能如何，谷歌對其在YouTube字幕、下游ASR任務(wù)的推廣、以及自動語音翻譯上進行了測試。

YouTube多語言字幕上的表現(xiàn)

受監(jiān)督的YouTube數(shù)據(jù)包括73種語言，每種語言的數(shù)據(jù)時長平均不到3000個小時。盡管監(jiān)督數(shù)據(jù)有限，但模型在73種語言中實現(xiàn)了平均不到30%的單詞錯誤率（WER），這比美國內(nèi)部最先進的模型相比還要低。

此外，谷歌與超40萬小時標(biāo)注數(shù)據(jù)訓(xùn)練出的Whisper模型 (big-v2) 進行了比較。

在Whisper能解碼的18種語言中，其解碼錯誤率低于40%，而USM平均錯誤率僅為32.7%。

對下游ASR任務(wù)的推廣

在公開的數(shù)據(jù)集上，與Whisper相比，USM在CORAAL（非裔美國人的方言英語）、SpeechStew（英文-美國）和FLEURS（102種語言）上顯示出更低的WER，不論是否有域內(nèi)訓(xùn)練數(shù)據(jù)。

兩種模型在FLEURS上的差異尤為明顯。

在AST任務(wù)上的表現(xiàn)

在CoVoST數(shù)據(jù)集上對USM進行微調(diào)。

將數(shù)據(jù)集中的語言按資源可用性分為高、中、低三類，在每一類上計算BLEU分?jǐn)?shù)（越高越好），USM在每一類中的表現(xiàn)的優(yōu)于Whisper。

研究發(fā)現(xiàn)，BEST-RQ預(yù)訓(xùn)練是將語音表征學(xué)習(xí)擴展到大數(shù)據(jù)集的一種有效方法。

當(dāng)與MOST中的文本注入相結(jié)合時，它提高了下游語音任務(wù)的質(zhì)量，在FLEURS和CoVoST 2基準(zhǔn)上實現(xiàn)了最好的性能。

通過訓(xùn)練輕量級剩余適配器模塊，MOST表示能夠快速適應(yīng)新的域。而這些剩余適配器模塊只增加2%的參數(shù)。

谷歌稱，目前，USM支持100多種語言，到未來將擴展到1000多種語言。有了這項技術(shù)，或許對于每個人來講走到世界各地穩(wěn)妥了。

甚至，未來實時翻譯谷歌AR眼鏡產(chǎn)品將會吸引眾多粉絲。

不過，現(xiàn)在這項技術(shù)的應(yīng)用還是有很長的一段路要走。

畢竟在面向世界的IO大會演講中，谷歌還把阿拉伯文寫反了，引來眾多網(wǎng)友圍觀。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="bbwfn"></sub>

<legend id="bbwfn"><track id="bbwfn"></track></legend>