自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

新聞 人工智能
怎樣才叫打破語言界的天花板?一次拿下15個(gè)語種22項(xiàng)第一,還讓機(jī)器讀懂40多種語言。能夠在多語種語音語言領(lǐng)域制霸的背后是中國團(tuán)隊(duì)22年對(duì)頂天立地這一理念的堅(jiān)守。

 一次拿下15個(gè)語種22項(xiàng)第一!

不,還有更厲害的:40多種語言全能讀懂,簡直打破語言界的天花板。

2次獲獎(jiǎng),科大訊飛在多語種方向上取得了大滿貫成績。

[[436730]]

先是在世界權(quán)威多語言理解評(píng)測(cè)XTREME中,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)團(tuán)隊(duì)以總平均分84.1分位列榜首,刷新世界紀(jì)錄。

后是在國際低資源多語種語音識(shí)別競(jìng)賽OpenASR中,科大訊飛-中科大聯(lián)合團(tuán)隊(duì)參加了所有15個(gè)語種受限賽道和7個(gè)語種非受限賽道,全部拿下了第一。

這一切得益于訊飛背后深深扎根的技術(shù),還有其始終如一堅(jiān)持頂天立地的初心,才能讓訊飛在多語種語音語言領(lǐng)域制霸。

第一的背后

那么,現(xiàn)在機(jī)器的多語種理解能做到什么程度了?

就比如下面這段夾雜著英語、德語、西班牙語的句子吧。

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

翻譯過來就是:

讓水沸騰以提供蒸汽所需熱量有多種來源,最常見的是在封閉空間(別稱有 燃燒室 、火箱)中供應(yīng)適量空氣來燃燒可燃材料 。在某些情況下,熱源是核反應(yīng)堆、地?zé)崮堋?太陽能或來自內(nèi)燃機(jī)或工業(yè)過程的廢氣。如果是模型或玩具蒸汽發(fā)動(dòng)機(jī),還可以將電加熱元件作為熱源。

說到多語種的自然語言理解,谷歌舉辦的XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)評(píng)測(cè)可謂是十分具有代表性的。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

https://arxiv.org/pdf/2003.11080.pdf

與以往單語言自然語言理解評(píng)測(cè)任務(wù)不同的是,XTREME中的每一個(gè)任務(wù)都覆蓋了多種語言,其中許多都缺乏相關(guān)研究,如達(dá)羅毗荼語系的泰米爾語、泰盧固語系和馬拉雅拉姆語,以及非洲的尼日爾-剛果語系的斯瓦希里語和約魯巴語。

而評(píng)測(cè)的成績則是模型在多種語言上的理解能力平均指標(biāo),因此對(duì)系統(tǒng)模型的多語言理解與跨語言遷移能力要求大大提高。

具體而言,XTREME涵蓋了12個(gè)語系的40種語言,包括對(duì)不同層次的語法或語義進(jìn)行推理的4大類9個(gè)任務(wù):

  1. 句對(duì)分類:XNLI、PAWS-X(自然語言推斷)
  2. 序列標(biāo)注:UDPOS(詞性標(biāo)注)、PANX (命名實(shí)體識(shí)別)
  3. 閱讀理解:XQuAD、MLQA、TyDiQA(片段抽取型閱讀理解)
  4. 句子檢索:BUCC、Tatoeba(跨語言文本檢索)
AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

今年9月,微軟憑借最新的圖靈通用語言表示模型(T-ULRv5),成功刷新了XTREME榜單總分和4個(gè)單項(xiàng)任務(wù)的SOTA。

為了達(dá)到這一最新成就,微軟在大規(guī)模的多語言數(shù)據(jù)集上對(duì)模型進(jìn)行了平行文本語料的訓(xùn)練,并同時(shí)結(jié)合了最新的XLM-E研究和XTune微調(diào)技術(shù)。

由此誕生的T-ULRv5 XL有48個(gè)transformer層,隱藏維度大小為1536,24個(gè)注意力頭,多語言詞匯量為50萬個(gè),總參數(shù)量達(dá)到22億,并且能夠處理94種不同的語言。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

不過,在上個(gè)月的最新排名中,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)團(tuán)隊(duì)以總平均分84.1分的成績?cè)俅嗡⑿铝诉@個(gè)記錄。

HFL的CoFe模型在四項(xiàng)任務(wù)中,有三項(xiàng)都超過了微軟T-ULRv5 XL模型創(chuàng)造的記錄,另外一項(xiàng)則與其持平。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

對(duì)此,哈工大訊飛聯(lián)合實(shí)驗(yàn)室提出了三項(xiàng)技術(shù),從而讓模型具有多語言理解與跨語言遷移能力。

第一,加入了自主研發(fā)的跨語言對(duì)比學(xué)習(xí)技術(shù),鼓勵(lì)模型學(xué)習(xí)不同語言中的語義相似性。

CoFe利用多語言的同義句對(duì)作為正樣本,易混淆與反義句對(duì)作為高難度負(fù)樣本,以對(duì)比學(xué)習(xí)和分類任務(wù)為訓(xùn)練目標(biāo),讓模型比較與學(xué)習(xí)不同語言文本背后的語義。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

在上圖的例子中,對(duì)于源語言(中文)中的句子A「所有人都看著他」,以英文中的同義句B「All eyes turned to him」為正樣本,法語中的反義句C「Il n'a pas attiré l'attention」為高難度負(fù)樣本,其他句子作為普通負(fù)樣本訓(xùn)練模型,達(dá)到讓模型習(xí)得跨語言理解句子語義的目的。

第二,利用知識(shí)蒸餾技術(shù)進(jìn)行自監(jiān)督學(xué)習(xí)和知識(shí)遷移,進(jìn)一步提升了模型在各個(gè)語言上效果的穩(wěn)定性。

知識(shí)蒸餾技術(shù)除了可以用于模型壓縮與加速,對(duì)提升模型的性能與穩(wěn)定性也有很大幫助。因此,CoFe從多個(gè)角度對(duì)其進(jìn)行了開發(fā)利用:

  • 通過自監(jiān)督訓(xùn)練,讓模型自我蒸餾,提升穩(wěn)定性;
  • 多語-單語的多到一知識(shí)遷移。所謂三人行必有我?guī)?,讓多語言學(xué)生模型從多個(gè)單語言教師模型學(xué)習(xí)知識(shí),博采眾長;
  • 多語言多模型蒸餾。將多個(gè)多語言教師蒸餾至單一模型,從而提供更優(yōu)的教師指導(dǎo)信號(hào)。
AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

第三,融入細(xì)粒度的語言學(xué)特征,幫助模型克服訓(xùn)練不足的困難,解決低資源語言學(xué)習(xí)不充分的問題,同時(shí)使之適應(yīng)不同語言的形態(tài)學(xué)特點(diǎn)。

例如對(duì)于一些書寫系統(tǒng)比較特殊的低資源語言,CoFe中引入了額外的分詞系統(tǒng),以幫助模型在少量數(shù)據(jù)精調(diào)下更迅速地掌握理解該語言的能力。

從而讓機(jī)器可以在少量其他語言語料的情況下,通過「類比」學(xué)會(huì)這門語言,減少了收集語料、語音標(biāo)注等大量工作。

在另一個(gè)更加關(guān)注小語種語音技術(shù)的OpenASR比賽中,科大訊飛-中科大語音及語言信息處理國家工程實(shí)驗(yàn)室(USTC-NELSLIP)聯(lián)合團(tuán)隊(duì)參加了所有15個(gè)語種受限賽道和7個(gè)語種非受限賽道,并全部取得第一名的成績。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

小語種語音數(shù)據(jù)難以獲取不僅表現(xiàn)在語音的數(shù)據(jù)量上,更表現(xiàn)在語料豐富性,發(fā)音詞典大小以及標(biāo)注準(zhǔn)確度上。對(duì)于許多低資源語種,姑且不說上萬小時(shí)語音數(shù)據(jù),就連100小時(shí)標(biāo)注數(shù)據(jù)的獲取也舉步維艱。

為此,世界語音學(xué)術(shù)領(lǐng)域的權(quán)威組織美國國家標(biāo)準(zhǔn)與技術(shù)研究院NIST(National Institute of Standards and Technology)在2020年底,舉辦了OpenASR (Open Automatic Speech Recognition) 比賽。

今年更是將語言增加到了15個(gè)語種,涵蓋受限賽道(Constrained condition)、受限附加賽道(Constrained Plus)和非受限賽道(Unconstrained Condition)。

此外,比賽中各個(gè)語種數(shù)據(jù)主要來自電話信道,口語化特征十分明顯,對(duì)話風(fēng)格非常自由,也使得語音識(shí)別難上加難。

語言

語言

語言

粵語

普什圖語

他加祿語

瓜拉尼語

索馬里語

格魯吉亞語

爪哇語

泰米爾語

哈薩克語

庫爾德語

越南語

阿姆哈拉語

蒙古語

斯瓦西里語

波斯語

團(tuán)隊(duì)在比賽中提出了基于語音和文本統(tǒng)一空間表達(dá)的半監(jiān)督語音識(shí)別框架(Unified Spatial Representation Semi-supervised ASR,USRS-ASR),獲此佳績也驗(yàn)證了該算法良好的推廣性。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

受限賽道15個(gè)語種的成績

在受限賽道上,由于每個(gè)語種只有10小時(shí)語音數(shù)據(jù),如何使用少量文本數(shù)據(jù),利用無監(jiān)督的方法增加語音訓(xùn)練數(shù)據(jù)的多樣性至關(guān)重要。

團(tuán)隊(duì)運(yùn)用Flow-TTS語音合成進(jìn)行訓(xùn)練數(shù)據(jù)擴(kuò)增,并使用語音屬性解耦技術(shù)保證合成語音的多樣性。

結(jié)果顯示,使用上述無監(jiān)督數(shù)據(jù)擴(kuò)增方案,能夠穩(wěn)定、顯著地提升低資源語音識(shí)別任務(wù)的效果。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

非受限賽道7個(gè)語種的成績

而在非受限賽道上,雖然可以利用公開的語音數(shù)據(jù),但數(shù)據(jù)總量仍只有數(shù)百小時(shí),而且語音數(shù)據(jù)和文本數(shù)據(jù)的量級(jí)差距十分明顯,這對(duì)于端到端識(shí)別框架來說,弊端更為明顯。

為了在端到端統(tǒng)一框架下,充分使用少量語音數(shù)據(jù)和海量文本數(shù)據(jù),團(tuán)隊(duì)提出了基于語音和文本統(tǒng)一空間表達(dá)的半監(jiān)督語音識(shí)別框架USRS-ASR:

  • 文本掩碼語言模型任務(wù)、合成數(shù)據(jù)語音識(shí)別兩個(gè)目標(biāo),兩個(gè)任務(wù)聯(lián)合訓(xùn)練以充分利用海量無監(jiān)督文本;
  • 共享語言解碼模塊,實(shí)現(xiàn)了語音和文本隱層表達(dá)空間的統(tǒng)一,大大緩解了低資源語種的數(shù)據(jù)稀疏問題。
AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

頂天立地,22年堅(jiān)守

讓機(jī)器能聽會(huì)說,能理解會(huì)思考的這條路上,科大訊飛一直攀登22年之久。

一次拿下15個(gè)語種22項(xiàng)第一,讓機(jī)器可以讀懂40種語言等重大成果,都體現(xiàn)了訊飛在人工智能領(lǐng)域一直有著頂天立地的追求和堅(jiān)守。

那么,科大訊飛為什么擔(dān)起這個(gè)角色?

人工智能的發(fā)展不在僅限于如何讓AI的一項(xiàng)技能訓(xùn)練到爐火純青的境界,而在于如何讓其更智能,也就是能夠抵達(dá)通用人工智能。

[[436731]]

而當(dāng)前,人機(jī)交互是大勢(shì)所趨。萬物互聯(lián),語音便成為人機(jī)交互關(guān)鍵入口,包括語音輸入、語音搜索、語音交互等技術(shù)已經(jīng)成為手機(jī)、車載、玩具等智能產(chǎn)品的標(biāo)配。

據(jù)統(tǒng)計(jì),2020年即便在疫情情況下,我國電子及汽車類出口總額也超過了3000億美元,這些出口的智能設(shè)備對(duì)多語種技術(shù)有著強(qiáng)烈的需求。

此外,「一帶一路」的建設(shè)依賴語言互通,多語種翻譯技術(shù)價(jià)值凸顯。

近年來,多語種語音語言技術(shù)涉及國家安全信心等重大方向,成為Nuance、谷歌等科技巨頭競(jìng)相布局的關(guān)鍵技術(shù)方向。

再加上國際形勢(shì)不確定,技術(shù)競(jìng)爭十分激烈,因此亟待解決國內(nèi)自主研發(fā)問題,打破多語種技術(shù)被卡脖子問題。

在這樣背景下,科大訊飛擔(dān)起了這個(gè)重任,在大規(guī)模多語種語音語言技術(shù)的研發(fā)上投入大量精力,期望能夠破解多語種技術(shù)難題。

近一年來,訊飛在重點(diǎn)語種上進(jìn)行不斷的迭代演進(jìn),并在語音識(shí)別,語音合成,圖文識(shí)別,機(jī)器翻譯這些方面取得了一系列新的進(jìn)展。

比如,24個(gè)語種的合成自然度MOS分超過4.0,35個(gè)語種聽寫場(chǎng)景語音識(shí)別正確率超過90%,18個(gè)語種文檔拍照?qǐng)鼍罢_率大于90%,36個(gè)語種口語場(chǎng)景人工分忠實(shí)度大于4.0。

領(lǐng)先的多語種語音語言技術(shù)有力支撐了科大訊飛智能硬件產(chǎn)品創(chuàng)新及應(yīng)用。

就拿多語種翻譯來說,2016年發(fā)布的訊飛翻譯機(jī)開創(chuàng)了AI翻譯機(jī)新品類,先后推出了4代,覆蓋全球近200個(gè)國家和地區(qū),2019年提供的翻譯服務(wù)超過5億人次。

今年5月份又發(fā)布了雙屏翻譯機(jī),可以做到精準(zhǔn)實(shí)時(shí)的翻譯,而且有很多語種選擇。

它光是中外互譯就多達(dá)60種,還有5種中文方言與英語互譯,2種難懂的民族語言(藏語和維吾爾語)也能與普通話互譯。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

用戶可以一邊說另一邊就能翻譯,只需按下時(shí)說話,松開即可翻譯,能做到0.5秒疾速響應(yīng)。

此外,訊飛的智能錄音筆,也可以支持10個(gè)語種的語音轉(zhuǎn)寫和分離。

就拿SR302來說,不僅支持粵語、重慶話、貴州話等12種方言轉(zhuǎn)寫,同時(shí)還可進(jìn)行英語、日語、法語等10大語種的轉(zhuǎn)寫。

AI能讀懂40種語言,15個(gè)語種拿22項(xiàng)第一,背后是中國團(tuán)隊(duì)22年堅(jiān)守

在多語種語言服務(wù)方面,訊飛聽見同傳系統(tǒng)已經(jīng)能夠支持9個(gè)語種的實(shí)時(shí)轉(zhuǎn)寫和翻譯字幕上屏。

前段時(shí)間,在中國駐歐盟使團(tuán)與歐盟農(nóng)業(yè)總司共同舉辦中歐地理標(biāo)志產(chǎn)品推廣視頻交流會(huì)上,訊飛聽見同傳全程提供轉(zhuǎn)寫技術(shù)服務(wù),展現(xiàn)了其不俗實(shí)力。

目前,科大訊飛在多語種技術(shù)及應(yīng)用,也獲得國家領(lǐng)導(dǎo)和社會(huì)業(yè)界的廣泛認(rèn)可。

并成為北京2022年冬奧會(huì)和冬殘奧會(huì)官方自動(dòng)語音轉(zhuǎn)換與翻譯獨(dú)家供應(yīng)商,助力打造人類歷史上首個(gè)信息溝通無障礙的奧運(yùn)會(huì)。

一路走來,正是對(duì)源頭技術(shù)的不懈攻堅(jiān),讓訊飛在語音合成、語音識(shí)別、機(jī)器閱讀理解等多項(xiàng)國際核心技術(shù)賽事上獲得冠軍,并樹立了人工智能發(fā)展史上的多個(gè)里程碑。

正如科大訊飛董事長劉慶峰所說,人工智能發(fā)展要頂天立地。

現(xiàn)在,訊飛不斷踐行這一「頂天立地」理念,未來還有很長的路要走,還有更高的山峰等著攀登。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2012-05-04 13:25:46

HTML5

2012-05-24 17:00:03

諾基亞移動(dòng)互聯(lián)網(wǎng)

2018-10-20 15:20:10

2021-11-04 23:17:50

人工智能自然語言技術(shù)

2023-10-13 00:00:00

設(shè)計(jì)模式GO語言

2023-04-24 09:34:33

2023-04-21 11:38:32

AI

2016-04-28 14:25:12

Docker安全

2022-01-10 10:28:55

軟件開發(fā)軟件開發(fā)

2009-06-25 14:51:15

開源PHP框架

2014-11-11 16:43:13

NBA2K15修改器

2023-07-01 08:30:48

ChatGPT人工智能

2011-12-31 09:18:14

Symbian

2018-09-03 14:05:08

編程語言Python編程技巧

2020-03-31 14:00:29

Python 開發(fā)工具

2012-05-04 13:36:09

HTML5

2022-10-09 10:39:49

網(wǎng)絡(luò)安全安全舉措

2022-02-08 09:47:21

軟件開發(fā)技術(shù)

2009-09-10 10:05:18

開源組織OIN微軟

2020-05-12 08:06:27

React開發(fā)JavaScript
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)