Meta開源多模式模型,輕松混合文本和語音
傳統(tǒng)的生成語音方法通常是先使用ASR將輸入語音轉(zhuǎn)錄為文本,再使用純文本的大語言模型生成文本,最后通過TTS將生成的文本合成為語音。但這種方式在建模和生成表達(dá)性語音方面有很大技術(shù)局限性。
例如,當(dāng)我們想要生成一段帶有特定情感的語音時(shí),這種多步驟的方法可能無法很好地捕捉情感信息,導(dǎo)致生成的語音在表達(dá)上不夠自然。
為了解決這些難題,Meta開源了多模式模型SPIRIT – LM,可以輕松混合文本和語音使生成的效果更逼真、擬人化。
開源地址:https://github.com/facebookresearch/spiritlm
SPIRIT-LM的架構(gòu)很特殊,它的基礎(chǔ)模型是一個(gè)大語言模型,再通過詞級(jí)交錯(cuò)方法擴(kuò)展到語音模式。在訓(xùn)練的過程中,語音和文本序列被連接為單一的標(biāo)記集,利用了一個(gè)小型自動(dòng)策劃的語音-文本平行語料庫,使得模型能夠在訓(xùn)練過程中同時(shí)學(xué)習(xí)語音和文本的特征。
對(duì)于文本數(shù)據(jù),SPIRIT-LM使用了子詞BPE標(biāo)記進(jìn)行編碼,這是一種高效的文本編碼方式,能夠處理任意詞匯包括未知詞。而對(duì)于語音數(shù)據(jù),則采用了HuBERT模型作為語音編碼器,將語音轉(zhuǎn)換為語義語音標(biāo)記,能夠在沒有標(biāo)簽的情況下從大量語音數(shù)據(jù)中學(xué)習(xí)到有用的表示。
特殊標(biāo)記則是另外一個(gè)技術(shù)創(chuàng)新,SPIRIT-LM使用了“TEXT”和“SPEECH”特殊標(biāo)記來區(qū)分文本和語音標(biāo)記。在訓(xùn)練過程中,這些特殊標(biāo)記幫助模型識(shí)別輸入數(shù)據(jù)的模態(tài),從而正確地處理文本或語音輸入。
當(dāng)模型在對(duì)齊的語音-文本語料庫中進(jìn)行訓(xùn)練時(shí),它會(huì)在單詞邊界隨機(jī)觸發(fā)模態(tài)變化,使得語音標(biāo)記和文本標(biāo)記在模態(tài)變化邊界處交錯(cuò)。這種交錯(cuò)訓(xùn)練方法有助于模型學(xué)習(xí)語音和文本之間的對(duì)應(yīng)關(guān)系,從而提高跨模態(tài)的理解和生成能力。
SPIRIT-LM一共有基礎(chǔ)和表現(xiàn)力兩個(gè)版本:基礎(chǔ)版專注于使用語音語義單元來處理語音數(shù)據(jù),而表現(xiàn)力版則在語義單元的基礎(chǔ)上增加了音高和風(fēng)格單元來模擬表達(dá)性。音高標(biāo)記是通過VQ-VAE模型在輸入語音的基頻上訓(xùn)練得到的,這種方法能夠捕捉語音的音高特征,從而使得模型能夠理解和生成具有特定音高的語音。
風(fēng)格標(biāo)記則是通過提取語音的風(fēng)格特征并進(jìn)行聚類得到的,這些標(biāo)記能夠幫助模型捕捉語音的風(fēng)格特征,例如,說話人的情感和語氣,使得合成的語音更加逼真。
此外,SPIRIT-LM模型還使用了HifiGAN聲碼器,這是一種高質(zhì)量的語音合成技術(shù)。HifiGAN聲碼器基于HuBERT語音標(biāo)記和Expresso數(shù)據(jù)集中的1-hot說話人嵌入進(jìn)行訓(xùn)練以實(shí)現(xiàn)高質(zhì)量的語音合成,進(jìn)一步提高了模型在生成語音時(shí)的自然度和清晰度。
為了評(píng)估SPIRIT-LM性能,Meta在sWUGGY、sBLIMP、StoryCloze等任務(wù)中對(duì)SPIRIT-LM進(jìn)行了語音和文本理解綜合測(cè)試,都能夠準(zhǔn)確地生成正確的序列。而在跨模態(tài)任務(wù)上也展現(xiàn)了良好的性能,在自動(dòng)語音識(shí)別和文本到語音任務(wù)中,SPIRIT-LM能夠根據(jù)少量示例進(jìn)行特定任務(wù)的建模。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
