耳朵沒錯,是聲音太真了,字節(jié)豆包語音合成成果Seed-TTS技術(shù)揭秘
Seed-TTS 是字節(jié)跳動豆包大模型團隊近期發(fā)布的語音生成大模型成果。
它生成的語音幾乎與真人完全一樣,連發(fā)音瑕疵也能生成出來,尤其在學(xué)習(xí)模仿人類說話方面,相似性和自然度均有很好表現(xiàn)。
舉例來說,將一段語音提供給 Seed-TTS,它就能按文本生成全新語音,且?guī)显夭牡穆曇籼卣鳌?/strong>
突然,身邊一陣笑聲。我看著他們,意氣風(fēng)發(fā)地挺直了胸膛,甩了甩那稍顯肉感的雙臂,輕笑道:“我身上的肉,是為了掩飾我爆棚的魅力,否則,豈不嚇壞了你們呢?”
英文語音也可生成,且依然能“復(fù)刻”中文發(fā)音者的特點。
Seed-TTS 生成的英文語音:
Suddenly, there was a burst of laughter beside me. I looked at them, stood up straight with high spirit, shook the slightly fleshy arms, and smiled lightly, saying, "The flesh on my body is to hide my bursting charm. Otherwise, wouldn't it scare you?"
再舉例來說,音色定制,Seed-TTS 也能實現(xiàn),并在聲音中帶出人物的“嬌嗔感”:
嘿嘿,你是不是也想擁有甜甜的戀愛呢?《微微一笑很傾城》是你的不二選擇,男女主是?;ㄐ2蓊愋停麄兺ㄟ^游戲結(jié)識,再到兩人見面,全程沒有一點誤會,真的齁甜,想想都忍不住“姨媽笑”~
小傻瓜,嗯……算是個很可愛很親切的名字,有點“獨特”哦,不過我有些好奇,你為什么會給我選這個昵稱呢?
不僅可以生成“單人”聲音,Seed-TTS 甚至可以根據(jù)小說情節(jié)和不同角色特質(zhì),呈現(xiàn)對應(yīng)人物和情緒的“說書”。
“這個藥丸……不會是迷藥或者春藥之類的東西吧?我怎么聞著香味兒和兩位姐姐說的那么相似?嗯,你該不會……想對我圖謀不軌吧?”韓立聞言是愣了半天吶,他現(xiàn)在突然有種吐血三碗的感覺,這女孩兒的心思也太難以捉摸了吧,竟然能把迎香丸,聯(lián)想到春藥上。哎呀韓立現(xiàn)在也不知是該佩服對方的謹(jǐn)慎小心,還是應(yīng)該為自己的無故蒙冤,而大呼三聲了?!翱礃幼?,你好像說的是真的。不過,我還是要把它拿去給二姐檢驗下才能用,畢竟我們女兒家,要小心為上?!薄翱?,咳,呃隨便你了?!表n立無言,只能干咳幾聲,掩飾一下自己臉上的窘迫,他現(xiàn)在覺得呀,自己還是離這個小妖精遠點的好,否則,不知什么時候就要被她給郁悶死了?!昂吆?,不過,如果這藥真像你所說的那么好用,那就算你過關(guān)啦!今后師兄在莫府有什么為難的事,盡管可以來找彩環(huán)幫忙。我只要收些小小的報酬,就肯定能幫你完全解決。”“行啊,師妹,師兄有事,一定找你幫忙?!表n立這時也恢復(fù)了常態(tài),皮笑肉不笑地回應(yīng)著此話,心里呀,卻在惡狠狠地想到:“找你這個小財迷才怪了?!?/p>
更多演示及原理,請見原論文及效果展示:
- 論文鏈接:https://arxiv.org/abs/2406.02430
- 效果展示:https://bytedancespeech.github.io/seedtts_tech_report/?
在公布技術(shù)報告之前,Seed-TTS 部分技術(shù)已在 C 端產(chǎn)品上線一段時間,獲得用戶很多真實好評,并對外以豆包語音合成模型和豆包聲音復(fù)刻模型進行技術(shù)商業(yè)化服務(wù)。
關(guān)于該成果的技術(shù)亮點、研究價值、克服了哪些挑戰(zhàn),不妨聽聽團隊的分享。
一個語音生成基座大模型
Q:Seed-TTS 已被一些圈內(nèi)人關(guān)注到,有什么認(rèn)可,讓你印象很深?
A:有個做語音識別的教授,后來在一家公司就職,是我非常佩服的業(yè)內(nèi)人。不久前一次學(xué)術(shù)會議,我們演示了 Seed-TTS 的 Demo ,他看了以后就反饋說,最近本想看看語音生成方向有什么可做的,看完覺得這方面工作好像沒什么可干的了。盡管我覺著仍有提高空間,但聽完自己是非常開心的。
Q:為什么感到開心?
A:別人直接說你做得好,更多可能是客氣。但這位教授當(dāng)時正尋找相關(guān)研究課題,在這期間,看到我們的成果,給出正面評價,并且覺得我們的成果已經(jīng)很好了,要另尋其他題,這對我們真的是很高的認(rèn)可。
Q:對比此前成果,Seed-TTS 有什么不同?
A:它是一個語音生成的基座模型,跟多數(shù)語音生成模型稍有不同。具體來說,傳統(tǒng) TTS 是單一任務(wù)模型,但對于基座模型,我們希望它能干任何任務(wù),發(fā)出任何聲音,且同時允許我們進行很多個維度的操控,比如方言,真人口癖,甚至吞字這類語音上的瑕疵。
只要世界上存在的語音方式,英語、日語、漢語,甚至各類語言中的方言,如漢語中的陜西話、河南話…或者是開心、難過、大哭大喊、生氣,只要人類存在的聲音,我們都希望它發(fā)出來。
Q:以上種種設(shè)想,都做到了么?
A:很大一部分做到了,當(dāng)然也有一些地方做不到,但技術(shù)一直在往前走,就像現(xiàn)在語言模型是個基座,在文本層面有很深度的理解,我們也希望把它真正做成一個“基座”。
Q:做出一個“基座模型”的挑戰(zhàn)在哪里?
A:第一是細節(jié)建模要好。以往 TTS 作為播報系統(tǒng),其實很容易就能實現(xiàn),但聽起來是“機器音”,如果要做到基座模型,且聲音像人,需要大量細節(jié)。尤其人類對自身聲音很敏感,小狗小貓叫聲即便不太自然,可能也聽不出來,但人類語音有一點問題,聽出來就很“機械”。
第二,需要高自然度和高穩(wěn)定性。前兩年的主流 TTS 大多都基于先驗知識和時長模型,每一個 Phone 都會定義出來,但從底層就限制了表現(xiàn)力。倘若去掉這些,則會出現(xiàn)穩(wěn)定性和自然度問題,這又是一個挑戰(zhàn)。
第三是數(shù)據(jù)覆蓋( Data Coverage )量級很大。我們想做到復(fù)制任何人的聲音與各種語言方言,包括復(fù)刻人類發(fā)音不完美,比如:吞字、發(fā)音不標(biāo)準(zhǔn)。為了重建這些特征,還原“不完美”,數(shù)據(jù)覆蓋( Data Coverage )一定要高。之前,業(yè)界所使用的數(shù)據(jù)在成百上千的小時量級,也有上萬小時的模型,Seed-TTS 所用的數(shù)據(jù)量級是遠大于之前的。這么大量級的數(shù)據(jù),還會帶來質(zhì)量和數(shù)量的平衡問題,這也是一個難點。
第四,模型設(shè)計。這么大規(guī)模情況下,如何設(shè)計模型,使得各方面效果都比較好,這也是很大挑戰(zhàn)。
最后是工程挑戰(zhàn)。上面提到了,我們的數(shù)據(jù)量級大,模型復(fù)雜度高,自然就會帶來工程方面問題,這方面之前也很少有人去解決。
Q:技術(shù)層面看,解決這些挑戰(zhàn)有什么價值?
A:主要是在研究過程中,試圖回答了很多過去沒解決的問題:
- 生成模型有語言模型和擴散模型兩套,分別偏向文本和圖像,語音同時具備文本和圖像兩者的屬性,這兩者哪個更適合用來語音建模,這是我們要去回答的問題。
- 語音和文本有很多相似之處,如何設(shè)計語音的表征,使其更適合語言模型建模,也是需要解決的問題。
- 如何利用強化學(xué)習(xí),將各種主客觀的偏好信息集成到生成系統(tǒng)里,同樣是問題之一。
其他方面亮點還有很多,包括自回歸語音生成模型的穩(wěn)定性問題。此外,通過這回研究,我們也在嘗試從 TTS 領(lǐng)域外的視角看 TTS 問題。
Q:你提到了對語言模型和擴散模型的研究,從中我們得出什么結(jié)論?
A:Seed-TTS 不僅提供一個基于語言模型的技術(shù)方案,同時,也提供另一個完全脫離時長模型的 Diffusion 技術(shù)方案,這在業(yè)內(nèi)也是第一個。
此外,經(jīng)過對兩個系統(tǒng)的大量比較,我們發(fā)現(xiàn),語言模型對于流式處理相對友好,擴散模型對編輯處理更為合適,我相信在未來,這兩者會繼續(xù)融合。
Q:對于這兩個系統(tǒng),Seed-TTS 具體解決了哪些技術(shù)難點?
A:針對語言模型系統(tǒng),主要解決語音的 Tokenizer 和穩(wěn)定性。
對于語言模型建模來說,語音 token 化是核心一環(huán)。目前市面上,連續(xù)和離散的 Tokenizer 都有,團隊進行了較多探索。我們發(fā)現(xiàn),Token 包含信息的設(shè)計,對整個模型各方面表現(xiàn)及穩(wěn)定性有非常關(guān)鍵的影響,這既包括 Token 的信息、幀率等,也包括如何 Tokenizer ,以及如何將其再變回聲音。目前,這些在業(yè)內(nèi)探索并不多。
語言模型的穩(wěn)定性方面,我們在 token ,模型設(shè)計,解碼策略,數(shù)據(jù)準(zhǔn)備上做了多方面的探索,真正做到了工業(yè)及應(yīng)用的要求。
對于純 Diffusion 系統(tǒng),由于去掉了額外的時長模型,其難點同樣集中在穩(wěn)定性上。經(jīng)過多方的嘗試,我們在該鏈路上也實現(xiàn)了很好的指標(biāo)。
Q:關(guān)于“語音和文本模型有很多相似之處”,這對我們有什么啟發(fā)?
A:從文本大模型的視角看,語音生成模型也可以分為 Pretrain,Instruct Fine-Tuning 和 Post Training。
其中, Pretrain 可提高模型的基礎(chǔ)能力,具體就體現(xiàn)為 Incontext Learning 能力,比如音色續(xù)寫,語音克隆等能力。
對于 Instruct Fine-Tuning ,主要就是通過 Instruct ,讓語音生成過程更加可控,就像導(dǎo)演跟演員去提要求,說話快點、慢點,怎么才能打動人,這些都被我們集成進去。
最后,我們還發(fā)現(xiàn)強化學(xué)習(xí)在很多維度可以為模型帶來提高,將各種主客觀偏好信息集成到生成系統(tǒng)里,包括穩(wěn)定性、控制力、表現(xiàn)力、自然度等等。業(yè)內(nèi)在這方面探索的人也不太多。
在上述基礎(chǔ)上,我們也探索了利用合成數(shù)據(jù)以進行 Self-Distillation 的方法,同樣獲得非常好的收益。這在文本 LLM 中使用相對多一些,在語音行業(yè),之前探索也相對較少。
Q:你三次提及“一些問題業(yè)內(nèi)探索較少”,什么造成了這個現(xiàn)象?
A:一方面,之前語音生成領(lǐng)域的研究相對獨立,有很多行業(yè)的傳統(tǒng)經(jīng)驗,在這波 AIGC 大潮流下已經(jīng)不一定適用了。從更廣義角度看,語音生成跟文本、圖像生成有很多共通之處。文本大模型,圖像生成的快速發(fā)展也帶給了我們很多新思考。由于新思路推廣還需要時間,所以業(yè)內(nèi)探索還比較少。
另一方面是很多研究者在學(xué)校里工作,沒有相關(guān)資源。這里面系統(tǒng)性工程非常多,我們不僅能做到,而且探索也比較細,發(fā)現(xiàn)了一些能兼顧穩(wěn)定性、表現(xiàn)力和運算量的模型。但這是不是做到了最好呢?可能還需要不斷探索。
Q:整個研究過程中有什么里程碑式的時刻么?
A:基礎(chǔ)效果去年就出了,此后我們用真實案例迭代了很多,這當(dāng)中的工作包括:真實案例的尋找、各種 Post Training 、解決落地問題(比如各種場景下的穩(wěn)定性、首包延遲、并發(fā)數(shù)、運算量等)。相比當(dāng)時,現(xiàn)在效果又提升了非常多。
語音生成大模型走到哪一步了?
Q:現(xiàn)在回看,整個研究的價值在哪?
A:從 Seed-TTS 本身價值來說,語音不完全是工具,而是人類最直接的交互形式。比如從無聲電影到有聲電影,小小的變化,卻是一個行業(yè)巨大的飛躍。人與人之間的情感連接更多依靠語音,比如小孩喊一聲爸爸,給你的情感連接和讀文字完全不一樣。
如果我們要邁向真正的 AI ,語音的自然度是關(guān)鍵一環(huán)。過去我們想象的機器都是機器音,比如《流浪地球》里的 Moss ,如果 AI 真能像你的助手、伙伴一樣,那語音帶來的情感連接必不可少?!朵撹F俠》的賈維斯之所以被很多人記住,也是因為它是真人配音的。
此外,在應(yīng)用方面,語音的落地場景也非常多,比如小說電子書、角色設(shè)計、視頻翻譯、虛擬角色、播音、演員表達,都有用武之地,包括口吃、發(fā)不出聲音的人仍然可以借助語音技術(shù)表達。只要不是純粹信息媒介屬性的語音場景,都有應(yīng)用空間,這也是我們把基座模型做好的動力。
Q:Scaling law 已被一些從業(yè)者視為“信仰”,對于語音生成模型,我們把數(shù)據(jù)和模型 Scale 后,結(jié)果如何?
A:即便在很大量級上,我們繼續(xù)擴大規(guī)模,也總能看見收益??偟膩碚f,通過 Scale 的量級增大,我們很驚喜地看到,模型在不斷獲取新能力。
Q:根據(jù)你們的觀察,這個極限在哪?
A:目前來說,我們依然每次仍能看到收益,肯定還需要繼續(xù)探索。不過,我們已經(jīng)證明通過正確的模型設(shè)計,可以打破 TTS 傳統(tǒng)思路。以往,我們依靠少量高品質(zhì)數(shù)據(jù),但現(xiàn)在,我們不斷增加量級,能獲得更高收益。
Q:GPT4-o 對我們有什么啟示?
A:它是一個生成和理解統(tǒng)一的模型,對語音技術(shù)的要求更高,需要一個模型同時具備聽,說,想的能力。這些對我們工作提出很多新要求。
Q:目前語音領(lǐng)域大模型發(fā)展到哪一步了?
A:一方面是希望模型擁有專業(yè)演員級別的表現(xiàn)力和控制力。大部分時候,模型生成語音跟真人已經(jīng)差別不大,但在影視劇中,演員表達情緒非常激烈,信息密度比較高,不完全能對齊。我們都希望把 Corner Case 補全。
另一方面就是細節(jié)的處理,包括 Bad Case 處理和優(yōu)化,解決不常見的長尾情況。
大模型工作需要大量優(yōu)秀人才參與進來
Q:本次 Seed-TTS 的發(fā)布,全球各地的同事都有參與進來,為什么有這么多人參與?
A:隨著行業(yè)發(fā)展,多人合作是不可避免的。要把大模型做到極致,同時滿足工業(yè)化落地,不可能通過 1 - 2 個想法支撐,必須很多人參與進來。且各方面參與者都得很專業(yè)。比如我們的數(shù)據(jù),需要專業(yè)同學(xué)參與處理。再比如落地過程涉及很多細節(jié),需要專門做評測、工程支持同學(xué)配合。他們都做出了巨大貢獻。
我們可以看到 AI 前沿研究的主流玩家中,一個項目參與者人數(shù)非常多,每個環(huán)節(jié)都有專業(yè)的同學(xué)負責(zé),如此高密度、高復(fù)雜度的人才協(xié)作、精密配合,對組織力的要求也是很高的。
Q:你眼中的團隊氛圍是怎么樣?
A:我覺得是有“沖勁”和“摳細節(jié)”?!皼_勁”體現(xiàn)在大家做事都很主動。出于好奇和改變行業(yè)的想法,這本身也是一個自驅(qū)的過程。這種氛圍比較像創(chuàng)業(yè)公司,大公司比較少。
Q:你還提到了團隊會“摳細節(jié)”,如何理解?
A:這個說的是摳真實場景中的細節(jié)。對于生成類工作,Demo 很容易做得漂亮,但在實際應(yīng)用中,系統(tǒng)會面臨各種各樣的細節(jié)問題。為保證模型始終都有高質(zhì)量的生成,滿足用戶需求,我們對系統(tǒng)穩(wěn)定性和魯棒性要求很苛刻,需要反復(fù)打磨,把每一個細節(jié)都做到很高質(zhì)量。反而是 Demo ,我們沒做太多優(yōu)化。
Q:關(guān)于“不做太多 Demo 優(yōu)化”,我們內(nèi)部有過爭論么?
A:有啊,尤其年輕同學(xué)們,畢竟大家都希望把比較好的一面展示出來,但我們還是希望拿到能夠落地的效果,避免用戶在真實使用過程中發(fā)現(xiàn)產(chǎn)品和 Demo 有很大落差,真正改變行業(yè)。
Q:目前相關(guān)技術(shù)在豆包 App 有應(yīng)用么?
A:一些相關(guān)技術(shù)已經(jīng)應(yīng)用一段時間,在真實場景中經(jīng)用戶認(rèn)可,我們才對外展示,還有部分技術(shù)正在做一些最后上線工作。
Q:哪些關(guān)鍵詞能概括我們的團隊?
A:第一個是專業(yè)。這體現(xiàn)在很多方面,包括數(shù)據(jù)、基礎(chǔ)設(shè)施、模型設(shè)計等等。我們會很專業(yè)地去摳每個環(huán)節(jié)細節(jié),從工業(yè)落地角度出發(fā),把性能做到極致。
第二個詞是專注與沖勁。為了達到我們的目標(biāo),專注和沖勁是少不了的。所以大家投入度非常高,等成果真正做出來后,大家也很有成就感,獲得了自信。
第三個詞是團結(jié)。團隊協(xié)作的時候,大家都沒什么領(lǐng)地意識,配合也會很順暢,這讓我感覺非常舒服,這在大公司是很少見的。
Q:我們團隊希望持續(xù)吸引什么特質(zhì)的人加入?
A:首先看價值觀能不能符合上。能力固然是一方面,更重要的是,我們希望能找到同舟共濟的伙伴,讓每個人能獲得自我實現(xiàn)。在這種價值觀下合作,天然地,就會很順暢。
其次是背景的多樣性。目前 AI 各領(lǐng)域使用的方法都相似,且大家正逐漸往統(tǒng)一方向去融合,因此,強化學(xué)習(xí)、視覺識別、音頻識別等領(lǐng)域的經(jīng)驗都對生成有至關(guān)重要的作用。我們希望不同專業(yè)背景的同學(xué)參與進來。我自己就是語音理解出身,轉(zhuǎn)做 TTS 的。
最后是主觀能動性和學(xué)習(xí)能力,對工作有高追求。生成式任務(wù)也有很多獨特之處,我們希望候選人能找到任務(wù)與結(jié)合自身經(jīng)驗的結(jié)合點,這當(dāng)中,主動學(xué)習(xí)能力是必要的,同時,我們希望能做出行業(yè)最好的技術(shù)和產(chǎn)品,日常也要求同學(xué)們懷揣這樣的愿景不斷前進。
本文轉(zhuǎn)自 機器之心 ,作者:機器之心
