自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta AI連發(fā)三篇Textless NLP論文:語(yǔ)音生成的終極答案?

人工智能 語(yǔ)音識(shí)別 新聞
AI語(yǔ)音生成的特點(diǎn)就是呆板,沒(méi)有情緒的起伏。最近Meta AI連發(fā)了三篇Textless NLP的論文,不僅開(kāi)源了textlesslib庫(kù),還展示了AI對(duì)話(huà)在語(yǔ)音情感轉(zhuǎn)換的驚人能力!

在日常交流的時(shí)候,人們往往會(huì)使用一些「非語(yǔ)言」的信號(hào),比如語(yǔ)調(diào)、情感表達(dá)、停頓、口音、節(jié)奏等來(lái)強(qiáng)化對(duì)話(huà)互動(dòng)的效果。

像開(kāi)心、憤怒、失落、困倦時(shí)說(shuō)同一句話(huà),雖然內(nèi)容都一樣,但聽(tīng)起來(lái)的感覺(jué)肯定是非常不同的,而AI的發(fā)聲則比較死板。

目前AI語(yǔ)音生成系統(tǒng)大部分還是根據(jù)書(shū)面文本來(lái)學(xué)習(xí)發(fā)聲,也就是說(shuō),模型只能知道說(shuō)話(huà)的內(nèi)容,卻不知道人類(lèi)以何種語(yǔ)速、情感來(lái)說(shuō),對(duì)于文本之外富有表現(xiàn)力的語(yǔ)音信號(hào)根本捕捉不到。

所以AI雖然能當(dāng)主持人播新聞,但在一些特殊的應(yīng)用場(chǎng)景里,比如小品、相聲、脫口秀這些語(yǔ)言藝術(shù)領(lǐng)域,人工智能還沒(méi)法取代人類(lèi)來(lái)說(shuō)話(huà)。

Meta AI去年推出了一個(gè)突破性的自然語(yǔ)言處理模型GSLM,打破了傳統(tǒng)模型對(duì)文本的依賴(lài)。

GSLM可以通過(guò)直接處理原始的音頻信號(hào)來(lái)發(fā)現(xiàn)結(jié)構(gòu)化的內(nèi)容,無(wú)需使用任何人工標(biāo)簽或文本,就像人學(xué)語(yǔ)言的過(guò)程一樣。GSLM能夠讓NLP模型捕捉到口頭語(yǔ)言的表現(xiàn)力,也可以作為下游應(yīng)用的一種預(yù)訓(xùn)練形式,或者作為一種生成工具,從給定的輸入音頻提示中生成后續(xù)音頻。

最近,Meta基于GSLM連發(fā)三篇論文,朝著更有表現(xiàn)力的NLP模型向前走了一大步。

開(kāi)源textlesslib

發(fā)布了一個(gè)開(kāi)源的Textless Python庫(kù),機(jī)器學(xué)習(xí)開(kāi)發(fā)人員可以更快地在GSLM組件(編碼器,語(yǔ)言模型,解碼器)上進(jìn)行實(shí)驗(yàn)。

論文鏈接:https://arxiv.org/pdf/2202.07359.pdf

代碼鏈接:https://github.com/facebookresearch/textlesslib

Textless NLP是一個(gè)活躍的研究領(lǐng)域,旨在使NLP相關(guān)的技術(shù)和工具可以直接用于口語(yǔ)。通過(guò)使用自監(jiān)督學(xué)習(xí)的離散語(yǔ)音表征,Textless NLP技術(shù)能夠在那些沒(méi)有書(shū)面形式的語(yǔ)言上或在基于文本的方法無(wú)法獲得的口語(yǔ)信息中開(kāi)發(fā)出更多有趣的NLP應(yīng)用。

Meta開(kāi)源的textlesslib是一個(gè)旨在促進(jìn)無(wú)文本NLP研究的庫(kù)。該庫(kù)的目標(biāo)是加快研究周期,并降低初學(xué)者的學(xué)習(xí)曲線(xiàn)。庫(kù)中提供高度可配置的、現(xiàn)成的可用工具,將語(yǔ)音編碼為離散值序列,并提供工具將這種流解碼回音頻領(lǐng)域。

語(yǔ)音情感轉(zhuǎn)換

對(duì)于一些表達(dá)性的發(fā)聲,比如笑聲、哈欠和哭聲,研究人員開(kāi)發(fā)的模型已經(jīng)能夠捕捉到這些信號(hào)了。這些表達(dá)方式對(duì)于以人的方式理解互動(dòng)的背景至關(guān)重要,模型能夠辨別出那些有可能傳達(dá)關(guān)于他們的交流意圖或他們?cè)噲D傳達(dá)的情感的細(xì)微差別,比如是諷刺、煩躁還是無(wú)聊等等。

論文鏈接:https://arxiv.org/pdf/2111.07402.pdf

演示鏈接:https://speechbot.github.io/emotion/

語(yǔ)音情感轉(zhuǎn)換(Speech Emotion Conversion)是指在保留詞匯內(nèi)容和說(shuō)話(huà)人身份的情況下修改語(yǔ)音語(yǔ)料的可感知情感的任務(wù)。在這篇論文中,研究人員把情感轉(zhuǎn)換的問(wèn)題作為一項(xiàng)口語(yǔ)翻譯任務(wù),將語(yǔ)音分解成離散的、不相干的,由內(nèi)容單元、音調(diào)(f0)、說(shuō)話(huà)人和情緒組成的學(xué)習(xí)表征。

模型先通過(guò)將內(nèi)容單元翻譯成目標(biāo)情感來(lái)修改語(yǔ)音內(nèi)容,然后根據(jù)這些單元來(lái)預(yù)測(cè)聲音特征,最后通過(guò)將預(yù)測(cè)的表征送入一個(gè)神經(jīng)聲碼器來(lái)生成語(yǔ)音波形。

這種范式使得模型不止能發(fā)現(xiàn)信號(hào)的頻譜和參數(shù)變化,還可以對(duì)非語(yǔ)言發(fā)聲進(jìn)行建模,如插入笑聲、消除哈欠等。論文在客觀(guān)上和主觀(guān)上證明了所提出的方法在感知情感和音頻質(zhì)量方面優(yōu)于基線(xiàn)。實(shí)驗(yàn)部分嚴(yán)格評(píng)估了這樣一個(gè)復(fù)雜系統(tǒng)的所有組成部分,并以廣泛的模型分析和消融研究作為結(jié)論,以更好地強(qiáng)調(diào)擬議方法的架構(gòu)選擇、優(yōu)勢(shì)和劣勢(shì)。

比如在一個(gè)包含五種情緒表達(dá)方式(中立、憤怒、娛樂(lè)、困倦或厭惡)的情緒轉(zhuǎn)換任務(wù)中,模型需要根據(jù)輸入音頻轉(zhuǎn)換到目標(biāo)情緒,可以看到整個(gè)流程就相當(dāng)于是一個(gè)端到端的序列翻譯問(wèn)題,所以插入、刪除、替換一些非語(yǔ)言的音頻信號(hào)來(lái)轉(zhuǎn)換情感就會(huì)更容易。

經(jīng)過(guò)實(shí)驗(yàn)評(píng)估可以看到,提出的模型與以往最佳情感語(yǔ)音轉(zhuǎn)換模型相比,取得了極大的質(zhì)量提升。事實(shí)上,結(jié)果與原始音頻的質(zhì)量非常接近(圖表中以淺綠色為原始音頻)。

有情感的AI對(duì)話(huà)

Meta AI建立了一個(gè)可以讓兩個(gè)人工智能agent之間自發(fā)的、實(shí)時(shí)的閑聊模型,每個(gè)agent的行為因素,如偶爾的重疊或停頓都很真實(shí),這對(duì)建立像虛擬助手這樣的應(yīng)用場(chǎng)景來(lái)說(shuō)很重要,可以讓AI更好地理解細(xì)微的社交線(xiàn)索和信號(hào),比如能夠捕捉到與人聊天時(shí)的細(xì)微的積極或消極反饋。

論文鏈接:https://arxiv.org/pdf/2203.16502.pdf

演示鏈接:https://speechbot.github.io/dgslm/

文中提出的dGSLM模型是第一個(gè)能夠生成自然口語(yǔ)對(duì)話(huà)音頻樣本的Textless模型。模型的開(kāi)發(fā)上利用了最近在無(wú)監(jiān)督口語(yǔ)單元發(fā)現(xiàn)方面的工作,加上一個(gè)帶有交叉注意力的雙塔Transformer架構(gòu),在2000小時(shí)的雙通道原始對(duì)話(huà)音頻(Fisher數(shù)據(jù)集)上訓(xùn)練,沒(méi)有任何文字或標(biāo)簽數(shù)據(jù)。dGSLM能夠在兩個(gè)通道中同時(shí)產(chǎn)生語(yǔ)音、笑聲和其他副語(yǔ)言信號(hào),讓談話(huà)的轉(zhuǎn)折非常自然。

顛覆傳統(tǒng)NLP

在不久的將來(lái),基于Textless NLP技術(shù)構(gòu)建的下游應(yīng)用將會(huì)呈井噴之勢(shì),由于模型訓(xùn)練既不需要資源密集型的文本標(biāo)簽,也不需要自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR),模型可以直接通過(guò)音頻信號(hào)進(jìn)行問(wèn)答。Meta AI的研究人員認(rèn)為語(yǔ)音中的親和力可以幫助更好地解析一個(gè)句子,這反過(guò)來(lái)又促進(jìn)了對(duì)意圖的理解,能夠提高問(wèn)題回答的性能。

其中一個(gè)應(yīng)用場(chǎng)景是語(yǔ)音到語(yǔ)音的翻譯,也可以叫做AI翻譯配音(dubbing)。傳統(tǒng)的流暢通常是基于文本來(lái)完成的,需要先將音頻轉(zhuǎn)換為文本,執(zhí)行翻譯,再將文本轉(zhuǎn)換為音頻信號(hào)。

比如大火的「魷魚(yú)游戲」多語(yǔ)言版本就用到了這一技術(shù)。

但流程太復(fù)雜會(huì)使得整個(gè)系統(tǒng)變得難以訓(xùn)練,也會(huì)丟掉一些口頭語(yǔ)言的表現(xiàn)力,不僅是因?yàn)檎Z(yǔ)調(diào)和非語(yǔ)言表達(dá)在文本中丟失,還因?yàn)檎Z(yǔ)言模型在文本中的訓(xùn)練缺少了這些信號(hào)處理模塊。

而自監(jiān)督的語(yǔ)音表示方法能夠從原始音頻中學(xué)習(xí)離散的單元,可以消除對(duì)文本的依賴(lài),研究人員認(rèn)為T(mén)extless NLP可以勝過(guò)傳統(tǒng)的復(fù)合系統(tǒng)(ASR+NLP),也有可能整合非語(yǔ)言發(fā)聲和聲調(diào)信息,在音素之上傳達(dá)豐富的語(yǔ)義和語(yǔ)用信息,而這些信息通常在文本中無(wú)法獲得。

隨著世界變得更加數(shù)字化,元宇宙中也包含越來(lái)越多由人工智能驅(qū)動(dòng)的應(yīng)用程序,這些NPC可以創(chuàng)造新的體驗(yàn)。而這種全新體驗(yàn)不止局限于文本的交流,未來(lái)將會(huì)走向更流暢的互動(dòng)方式,如語(yǔ)音和手勢(shì)等。

所有這些使用表征和自我監(jiān)督學(xué)習(xí)的進(jìn)步都有可能幫助研究人員擺脫傳統(tǒng)的基于文本的模型,建立更自然、更有吸引力的未來(lái)人工智能系統(tǒng)。

除了缺乏表現(xiàn)力之外,傳統(tǒng)的NLP應(yīng)用,依靠大量的文本資源,但在世界上只有少數(shù)幾種語(yǔ)言有如此大規(guī)模的標(biāo)注數(shù)據(jù)。

從長(zhǎng)遠(yuǎn)來(lái)看,相信Textless NLP系統(tǒng)的進(jìn)步也將有助于使人工智能對(duì)更多人具有包容性,特別是對(duì)于那些講沒(méi)有標(biāo)準(zhǔn)化書(shū)寫(xiě)系統(tǒng)的語(yǔ)言和方言的人,如方言阿拉伯語(yǔ)或瑞士德語(yǔ)。

? Meta AI連發(fā)三篇Textless NLP論文:語(yǔ)音生成的終極答案? ?

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-12-03 08:57:54

開(kāi)源模型

2022-03-01 15:15:41

AI樂(lè)譜論文

2023-05-12 07:54:15

Meta人工智能廣告工具

2024-04-09 13:06:28

ChatGPT

2022-10-21 09:29:37

2023-05-25 16:24:13

2021-10-09 15:40:57

論文腦計(jì)劃神器數(shù)據(jù)

2020-04-13 13:13:20

NLPAI語(yǔ)音

2024-03-28 16:09:36

2024-08-05 09:30:00

2022-02-15 15:38:02

人工智能機(jī)器學(xué)習(xí)Meta

2020-04-20 10:10:44

NLPAI語(yǔ)音

2017-09-14 14:43:07

NLP入門(mén)模型

2021-12-30 10:50:59

GitHub論文AI

2017-10-31 10:17:06

阿里

2024-12-20 08:00:00

2023-06-19 13:30:09

語(yǔ)音AI

2022-12-14 14:09:47

AIChatGPT筆記

2024-07-08 09:31:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)