自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Prompt解鎖語音語言模型生成能力,SpeechGen實(shí)現(xiàn)語音翻譯、修補(bǔ)多項(xiàng)任務(wù)

人工智能 新聞
本文提出了一個(gè)名為 SpeechGen 的統(tǒng)一框架,該框架可用于任意的 speech LM 及各類語音生成任務(wù),具有很好的潛力。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2306.02207.pdf
  • Demo 頁面:https://ga642381.github.io/SpeechPrompt/speechgen.html
  • Code: https://github.com/ga642381/SpeechGen

引言與動機(jī)

大型語言模型(LLMs)在人工智能生成內(nèi)容(AIGC)方面引起了相當(dāng)大的關(guān)注,特別是隨著 ChatGPT 的出現(xiàn)。

然而,如何用大型語言模型處理連續(xù)語音仍然是一個(gè)未解決的挑戰(zhàn),這一挑戰(zhàn)阻礙了大型語言模型在語音生成方面的應(yīng)用。因?yàn)檎Z音信號包含豐富的信息,如說話者和情感,超越了純文本數(shù)據(jù),基于語音的語言模型 (speech language model (speech LM)) 不斷涌現(xiàn)。

雖然與基于文本的語言模型相比,語音語言模型仍處于早期階段,但由于語音數(shù)據(jù)中蘊(yùn)含著比文本更豐富的信息,它們具備巨大的潛力,令人充滿期待。

研究人員正積極探索提示 (prompt) 范式的潛力,以發(fā)揮預(yù)訓(xùn)練語言模型的能力。這種提示通過微調(diào)少量參數(shù),引導(dǎo)預(yù)訓(xùn)練語言模型做特定的下游任務(wù)。這種技術(shù)因其高效和有效而在 NLP 領(lǐng)域備受青睞。在語音處理領(lǐng)域,SpeechPrompt 展示出了在參數(shù)效率方面的顯著改進(jìn),并在各種語音分類任務(wù)中取得了競爭性的表現(xiàn)。

然而,提示能否幫助語音語言模型完成生成任務(wù)仍是未解之謎。在本文中,我們提出一個(gè)創(chuàng)新的統(tǒng)一框架:SpeechGen,旨在激發(fā)語音語言模型進(jìn)行生成任務(wù)的潛力。如下圖所示,將一段語音、一個(gè)特定的提示 (prompt) 喂給 speech LM 作為輸入,speech LM 就能做特定的任務(wù)。比如將紅色的 prompt 當(dāng)作輸入,speech LM 就能做 speech translation 的任務(wù)。

圖片

我們提出的框架具有以下優(yōu)點(diǎn):

1. 無文本 (Textless):我們的框架以及其所依賴的語音語言模型獨(dú)立于文字?jǐn)?shù)據(jù),擁有無可估量的價(jià)值。畢竟,獲取標(biāo)記文本與語音配對的過程耗時(shí)繁瑣,而且在某些語言中甚至無法找到合適的文本。無需文字的特性使得我們的強(qiáng)大語音生成能力得以覆蓋各種語言需求,讓全人類受益匪淺。

2. 多功能性 (Versatility):我們開發(fā)的框架通用性極高,能應(yīng)用于各種各樣的語音生成任務(wù)。論文中實(shí)驗(yàn)使用語音翻譯、語音修復(fù)、語音連續(xù)當(dāng)作例子。  

3. 簡易性 (Easy to follow):我們提出的框架為各類語音生成任務(wù)提供了通用解決方案,讓設(shè)計(jì)下游模型和損失函數(shù)變得輕而易舉。

4. 可遷移性 (Transferability):我們的框架不僅容易適應(yīng)未來更先進(jìn)的語音語言模型,還蘊(yùn)藏著巨大的潛力,讓效率和效果得到進(jìn)一步提升。尤其令人振奮的是,隨著先進(jìn)語音語言模型即將問世,我們的框架將迎來更為強(qiáng)大的發(fā)展。  

5. 經(jīng)濟(jì)性 (Affordability):我們的框架經(jīng)過精心的設(shè)計(jì),只需訓(xùn)練少量參數(shù),而不是整個(gè)龐大的語言模型。這極大地減輕了計(jì)算負(fù)擔(dān),并允許在 GTX 2080 GPU 上執(zhí)行訓(xùn)練過程。大學(xué)的實(shí)驗(yàn)室也能負(fù)擔(dān)得起這樣的運(yùn)算開銷。

SpeechGen介紹


圖片

我們的研究方法在于構(gòu)建一個(gè)全新的框架 SpeechGen,該框架主要利用語音語言模型(Spoken Language Models, SLMs)進(jìn)行各種下游語音生成任務(wù)的微調(diào)。在訓(xùn)練過程中,SLMs 的參數(shù)保持不變,我們的方法側(cè)重于學(xué)習(xí)任務(wù)特定的提示(Prompt)向量。SLMs 通過同時(shí)對提示向量和輸入單元進(jìn)行條件設(shè)置,有效地生成特定語音生成任務(wù)所需的輸出。然后,這些離散單元輸出被輸入到基于單元的語音合成器中,生成對應(yīng)的波形。

我們的 SpeechGen 框架由三個(gè)元素組成:語音編碼器、SLM 和語音解碼器(Speech Decoder)。

首先,語音編碼器將波形作為輸入,并將其轉(zhuǎn)換為由有限詞匯表導(dǎo)出的單位序列。為了縮短序列長度,會移除重復(fù)的連續(xù)單位以生成壓縮的單位序列。然后,SLM 作為單位序列的語言模型,通過預(yù)測前一單位和單位序列的后續(xù)單位來優(yōu)化可能性。我們對 SLM 進(jìn)行提示調(diào)整,以引導(dǎo)其根據(jù)任務(wù)生成適當(dāng)?shù)膯挝弧W詈?,SLM 生成的標(biāo)記由語音解碼器處理,將其轉(zhuǎn)換回波形。在我們的提示調(diào)整策略中,提示向量會在輸入序列的開始處插入,這將引導(dǎo) SLMs 在生成過程中的方向。具體插入的提示數(shù)量,則取決于 SLMs 的架構(gòu)。在序列到序列的模型中,編碼器輸入和解碼器輸入都會加入提示,但在只有編碼器或只有解碼器的架構(gòu)中,只會在輸入序列前面添加一個(gè)提示。

在序列到序列的 SLMs(如 mBART)中,我們采用了自我監(jiān)督學(xué)習(xí)模型(如 HuBERT)來處理輸入和目標(biāo)語音。這樣做可以為輸入生成離散單元,并為目標(biāo)生成對應(yīng)的離散單元。我們在編碼器和解碼器輸入的前面都添加了提示向量,以構(gòu)造輸入序列。此外,我們還通過替換注意力機(jī)制中的關(guān)鍵值對,以進(jìn)一步增強(qiáng)提示的指導(dǎo)能力。

在模型訓(xùn)練中,我們以交叉熵?fù)p失作為所有生成任務(wù)的目標(biāo)函數(shù),通過比較模型的預(yù)測結(jié)果和目標(biāo)離散單元標(biāo)簽來計(jì)算損失。在這個(gè)過程中,提示向量是模型中唯一需要訓(xùn)練的參數(shù),而 SLMs 的參數(shù)在訓(xùn)練過程中保持不變,這確保了模型行為的一致性。我們通過插入提示向量,引導(dǎo) SLMs 從輸入中提取任務(wù)特定信息,并提高產(chǎn)生符合特定語音生成任務(wù)的輸出的可能性。這種方法允許我們微調(diào)并調(diào)整 SLMs 的行為,而無需修改其基礎(chǔ)參數(shù)。

總的來說,我們的研究方法基于一種全新的框架 SpeechGen,通過訓(xùn)練提示向量,引導(dǎo)模型的生成過程,并使其能有效地產(chǎn)生符合特定語音生成任務(wù)的輸出。

實(shí)驗(yàn)

我們的框架可以用于任意的 speech LM 及各類生成任務(wù),具有很好的潛力。在我們的實(shí)驗(yàn)中,由于 VALL-E 和 AudioLM 不是開源的,我們選擇使用 Unit mBART 作為 speech LM 進(jìn)行案例研究。我們用語音翻譯 (speech translation)、語音修復(fù) (speech inpainting)、語音連續(xù) (speech continuation) 當(dāng)作例子,來展示我們框架的能力。這三個(gè)任務(wù)的示意圖如下圖所示。所有的任務(wù)都是語音輸入,語音輸出,無需文本幫助。

圖片

語音翻譯

我們在訓(xùn)練語音翻譯 (speech translation) 時(shí),用的是西班牙文轉(zhuǎn)英文的任務(wù)。我們給模型輸入西班牙語的語音,希望模型產(chǎn)生英文的語音,整個(gè)過程無需文本幫助。以下是幾個(gè)語音翻譯的例子,我們會展示正確答案 (ground truth) 與模型的預(yù)測 (model prediction)。這些演示示例表明模型的預(yù)測捕捉到了正確答案的核心含義。

圖片

語音修補(bǔ)

在我們進(jìn)行語音修補(bǔ) (speech inpainting) 的實(shí)驗(yàn)中,我們特別選取超過 2.5 秒的音頻片段作為后續(xù)處理的目標(biāo)語音,并通過隨機(jī)選擇過程挑選出一段時(shí)長介于 0.8 至 1.2 秒的語音片段。然后我們對選出的片段進(jìn)行掩碼,模擬語音修補(bǔ)任務(wù)中缺失或受損的部分。我們使用詞錯誤率 (WER) 和字符錯誤率 (CER) 作為評估受損片段修復(fù)程度的指標(biāo)。

對 SpeechGen 生成的輸出與受損語音進(jìn)行比較分析,我們的模型可以顯著重建口語詞匯,將 WER 從 41.68% 降低到 28.61%,將 CER 從 25.10% 降低到 10.75%,如下表所示。這意味著我們提出的方法能夠顯著提高語音重建的能力,最終促進(jìn)語音輸出的準(zhǔn)確性和可理解性。

圖片

下圖是一個(gè)展示樣例,上面的子圖是受損的語音,下面的子圖是 SpeechGen 產(chǎn)生的語音,可以看到,SpeechGen 很好地修復(fù)了受損的語音。

圖片

語音連續(xù)

我們將通過 LJSpeech 展示語音連續(xù)任務(wù)的實(shí)際應(yīng)用。在訓(xùn)練提示(prompt)期間,我們的策略是讓模型只看到片段的 seed segment,這個(gè) seed segment 占據(jù)了語音總長度的部分比例,我們將其稱為條件比率(condition ratio, r),并讓模型繼續(xù)生成后續(xù)的語音。

以下是一些實(shí)例,黑色的文字代表種子片段(seed segment),紅色的文字則是 SpeechGen 生成的句子(這里的文字首先經(jīng)過語音識別得到結(jié)果。在訓(xùn)練和推理過程中,模型完全進(jìn)行的是語音到語音的任務(wù),且完全不接收任何文字信息)。不同的條件比率使 SpeechGen 能夠生成不同長度的語句以實(shí)現(xiàn)連貫性,并完成一句完整的話。從質(zhì)量角度看,生成的句子與種子片段在語法上基本一致,并且語義相關(guān)。雖然,生成的語音仍然無法完美地傳達(dá)一個(gè)完整的意思。我們預(yù)期這個(gè)問題將在未來更強(qiáng)大的語音模型中得到解決。

不足與未來方向

語音語言模型和語音生成正處于蓬勃發(fā)展的階段,而我們的框架則提供了一種巧妙地利用強(qiáng)大語言模型進(jìn)行語音生成的可能性。然而,這個(gè)框架仍有一些尚待完善之處,也有許多值得我們深入研究的問題。

1. 與基于文本的語言模型相比,語音語言模型目前還處于發(fā)展的初級階段。雖然我們提出的提示框架能激發(fā)語音語言模型做語音生成任務(wù),但并不能達(dá)到卓越的性能。不過,隨著語音語言模型的不斷進(jìn)步,比如從 GSLM 到 Unit mBART 的大轉(zhuǎn)身,提示的表現(xiàn)有了明顯的提升。特別是以前對 GSLM 具有挑戰(zhàn)性的任務(wù),現(xiàn)在在 Unit mBART 下表現(xiàn)出更好的性能。我們預(yù)計(jì)未來會出現(xiàn)更多先進(jìn)的語音語言模型嶄露頭角。

2. 超越內(nèi)容信息:當(dāng)前的語音語言模型并不能完全捕捉到說話者和情感信息,這給當(dāng)前的語音提示框架在有效處理這些信息方面帶來了挑戰(zhàn)。為了克服這個(gè)限制,我們引入即插即用模塊,專門為框架注入說話者和情感信息。展望未來,我們預(yù)計(jì)未來的語音語言模型將整合和利用這些內(nèi)容之外的信息,以提高性能并更好地處理語音生成任務(wù)中的說話者和情感相關(guān)方面。

3. 提示生成的可能性:對于提示生成,我們有著靈活多變的選擇,可以集成各種類型的指示,包括文本和圖像指示。想象一下,我們可以訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),讓它用圖像或文本作為輸入,而不是像本文中那樣使用訓(xùn)練好的 embedding 當(dāng)作提示。這個(gè)訓(xùn)練好的網(wǎng)絡(luò)將成為提示生成器,為框架增添了多樣性。這樣的方式會讓提示生成變得更加有趣、更加豐富多彩。

結(jié)論

本文我們探索了使用提示來解鎖語音語言模型在各種生成任務(wù)中的性能。我們提出了一個(gè)名為 SpeechGen 的統(tǒng)一框架,該框架僅有約 10M 的可訓(xùn)練參數(shù)。我們所提出的框架具有幾大特性,包括無需文本、多功能性、高效性、可轉(zhuǎn)移性和可負(fù)擔(dān)性。為了展示 SpeechGen 框架的能力,我們以 Unit mBART 為案例進(jìn)行研究,并在三個(gè)不同的語音生成任務(wù)上進(jìn)行實(shí)驗(yàn):語音翻譯、語音修復(fù)和語音延續(xù)。 

當(dāng)這篇論文提交到 arXiv 時(shí),Google 提出了一種更先進(jìn)的語音語言模型 ——SPECTRON,它為我們展示了語音語言模型在建模說話人和情感等信息的可能性。這無疑是一個(gè)令人興奮的消息,隨著先進(jìn)語音語言模型的不斷提出,我們的統(tǒng)一框架具有巨大的潛力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-19 13:30:09

語音AI

2021-12-24 10:34:11

鴻蒙HarmonyOS應(yīng)用

2023-08-29 13:54:00

AI技術(shù)

2024-05-17 16:02:00

2012-07-25 13:23:32

ibmdw

2017-09-14 14:43:07

NLP入門模型

2013-10-31 11:19:09

微軟語音翻譯手語翻譯

2011-05-31 16:38:47

Android 實(shí)現(xiàn)語音

2022-10-21 09:29:37

2023-07-18 09:00:00

ChatGPT文本轉(zhuǎn)語音

2023-05-25 16:24:13

2017-03-20 10:14:03

語音識別匹配算法模型

2023-08-22 14:18:49

2022-11-14 21:34:17

2024-02-18 13:43:57

文本轉(zhuǎn)語音模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號