自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="plel5"><rp id="plel5"><form id="plel5"></form></rp></cite><pre id="plel5"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員精華

發(fā)布于 2024-7-25 08:02

瀏覽

0收藏

最近，微軟發(fā)布了零樣本的文本到語(yǔ)音（TTS）模型VALLE-2，首次實(shí)現(xiàn)了與人類同等的水平，可以說(shuō)是TTS領(lǐng)域里程碑式的進(jìn)展。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

論文地址：https://arxiv.org/pdf/2406.05370

隨著近年來(lái)深度學(xué)習(xí)的快速進(jìn)步，用錄音室環(huán)境下的干凈單人語(yǔ)音訓(xùn)練模型，已經(jīng)可以達(dá)到人類同等水平的質(zhì)量，但零樣本TTS依舊是一個(gè)有挑戰(zhàn)性的問(wèn)題。

「零樣本」意味著推理過(guò)程中，模型只能參照一段簡(jiǎn)短的陌生語(yǔ)音樣本，用相同的聲音說(shuō)出文本內(nèi)容，就像一個(gè)能即時(shí)模仿的口技大師。

聽(tīng)到這里，不知道你會(huì)不會(huì)突然警覺(jué)——有這種能力的模型就是Deepfake的最佳工具！

令人欣慰的是，MSRA考慮到了這一點(diǎn)，他們目前只將VALL-E系列作為研究項(xiàng)目，并沒(méi)有納入產(chǎn)品或擴(kuò)大使用范圍的計(jì)劃。

雖然VALL-E 2有很強(qiáng)的零樣本學(xué)習(xí)能力可以像配音員一樣模仿聲音，但相似度和自然度取決于語(yǔ)音prompt的長(zhǎng)度和質(zhì)量、背景噪音等因素。

在項(xiàng)目頁(yè)面和論文中，作者都進(jìn)行了道德聲明：如果要將VALL-E推廣到真實(shí)世界的應(yīng)用中，至少需要一個(gè)強(qiáng)大的合成語(yǔ)音檢測(cè)模型，并設(shè)計(jì)一套授權(quán)機(jī)制，確保模型在合成語(yǔ)音前已經(jīng)得到了聲音所有者的批準(zhǔn)。

對(duì)于微軟這種只發(fā)論文不發(fā)產(chǎn)品的做法，有些網(wǎng)友表示非常失望。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

畢竟最近各種翻車的產(chǎn)品讓我們深深明白，只看demo完全不可靠，沒(méi)法自己試用=沒(méi)有。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

但Reddit上有人揣測(cè)：微軟只是不想當(dāng)「第一個(gè)吃螃蟹的人」，不發(fā)模型是擔(dān)心可能的帶來(lái)的批評(píng)和負(fù)面輿論。

一旦有了能將VALL-E轉(zhuǎn)化為產(chǎn)品的方法，或者市場(chǎng)上殺出其他競(jìng)品，難道還擔(dān)心微軟有錢(qián)不賺嗎？

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

的確如網(wǎng)友所說(shuō)，從項(xiàng)目頁(yè)面目前放出的demo來(lái)看，很難判斷VALL-E的真實(shí)水平。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

項(xiàng)目頁(yè)面：https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

共5條文本都是不超過(guò)10個(gè)單詞的英文短句，語(yǔ)音prompt的人聲音色都非常相近，英語(yǔ)口音也不夠多樣化。

雖然demo不多，但能隱隱感受到，模型對(duì)英美口音的模仿非常爐火純青，但如果prompt略帶印度或者蘇格蘭口音，就很難達(dá)到以假亂真的程度。

方法

模型前身VALL-E發(fā)布于2023年初，已經(jīng)是TTS在零樣本方面的重大突破。VALL-E能夠用3秒的錄音合成個(gè)性化語(yǔ)音，同時(shí)保留說(shuō)話者的聲音、情緒和聲學(xué)環(huán)境。

然而VALL-E存在兩方面的關(guān)鍵限制：

1）穩(wěn)定性：推理過(guò)程中使用的隨機(jī)采樣（random sampling）可能會(huì)導(dǎo)致輸出不穩(wěn)定，而top-p值較小的核采樣可能會(huì)導(dǎo)致無(wú)限循環(huán)問(wèn)題。雖然可以通過(guò)多次采樣和后續(xù)排序來(lái)緩解，但會(huì)增加計(jì)算成本。

2）效率：VALL-E的自回歸架構(gòu)綁定了與現(xiàn)成的音頻編解碼器模型相同的高幀率，且無(wú)法調(diào)整，導(dǎo)致推理速度較慢。

雖然已經(jīng)有多項(xiàng)研究用于改進(jìn)VALL-E的這些問(wèn)題，但往往會(huì)使模型的整體架構(gòu)復(fù)雜化，而且增加了擴(kuò)展數(shù)據(jù)規(guī)模的負(fù)擔(dān)。

基于這些之前的工作，VALL-E 2包含兩方面的關(guān)鍵創(chuàng)新：重復(fù)感知采樣（repetition aware sampling）和分組代碼建模（grouped code modeling）。

重復(fù)感知采樣是對(duì)VALL-E中隨機(jī)采樣的改進(jìn)，能夠自適應(yīng)地采用隨機(jī)采樣或者核采樣（nucleus sampling），選擇的依據(jù)是曾經(jīng)的token重復(fù)，因此有效緩解了VALL-E的無(wú)限循環(huán)問(wèn)題，大大增強(qiáng)解碼穩(wěn)定性。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

重復(fù)感知采樣的算法描述

分組代碼建模則是將編解碼器代碼劃分為多個(gè)組，自回歸時(shí)每組在單個(gè)幀上建模。不僅減少了序列長(zhǎng)度、加速推理，還通過(guò)緩解長(zhǎng)上下文建模問(wèn)題來(lái)提高性能。

值得注意的是，VALL-E 2僅需要簡(jiǎn)單的語(yǔ)音-轉(zhuǎn)錄文本數(shù)據(jù)進(jìn)行訓(xùn)練，不需要額外的復(fù)雜數(shù)據(jù)，大大簡(jiǎn)化了數(shù)據(jù)的收集、處理流程，并提高了潛在的可擴(kuò)展性。

具體來(lái)說(shuō)，對(duì)于數(shù)據(jù)集中每條語(yǔ)音-文本數(shù)據(jù)，分別用音頻編解碼器編碼器（audio codec encoder）和文本分詞器將其表示為編解碼器代碼??=[??₀,??₁,…,??_(???1)]和文本序列??=[??₀,??₁,…,??_(???1)]，用于自回歸（AR）和非自回歸（NAR）模型的訓(xùn)練。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

AR和NAR模型都采用Transformer架構(gòu)，后續(xù)的評(píng)估實(shí)驗(yàn)設(shè)計(jì)了4種變體進(jìn)行對(duì)比。它們共享相同的NAR模型，但AR模型的組大小分別為1、2、4、8。

推理過(guò)程也同樣是AR和NAR模型的結(jié)合。以文本序列??和代碼提示??_<??′,0為條件生成目標(biāo)代碼??_≥??′,0的第一代碼序列，再用自回歸的方式生成每組的目標(biāo)代碼。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

給定??_≥??′,0序列后，就可以使用文本條件??和聲學(xué)條件??_<??′推斷NAR模型，以生成剩余的目標(biāo)代碼序列??_{≥??′,≥1}。

模型訓(xùn)練使用了Libriheavy語(yǔ)料庫(kù)中的數(shù)據(jù)，包含7000個(gè)人朗讀英語(yǔ)有聲書(shū)的5萬(wàn)小時(shí)語(yǔ)音。文本和語(yǔ)音的分詞分別使用BPE和開(kāi)源的預(yù)訓(xùn)練模型EnCodec。

此外，也利用了開(kāi)源的預(yù)訓(xùn)練模型Vocos作為語(yǔ)音生成的音頻解碼器。

評(píng)估

為了驗(yàn)證模型的語(yǔ)音合成效果是否能達(dá)到人類同等水平，評(píng)估采用了SMOS和CMOS兩個(gè)主觀指標(biāo)，并使用真實(shí)的人類語(yǔ)音作為ground truth。

SMOS（Similarity Mean Opinion Score）用于評(píng)估語(yǔ)音與原始提示的相似度，評(píng)分范圍為1～5，增量為0.5分。

CMOS（Comparative Mean Opinion Score）用于評(píng)估合成語(yǔ)音與給定參考語(yǔ)音的比較自然程度，標(biāo)度范圍為-3～3，增量為1。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

根據(jù)表2結(jié)果，VALL-E 2的主觀評(píng)分不僅超過(guò)了第一代的VALL-E，甚至比人類真實(shí)語(yǔ)音有更完美的表現(xiàn)。

此外，論文也使用了SIM、WER和DNSMOS等客觀指標(biāo)來(lái)評(píng)估合成語(yǔ)音的相似度、魯棒性和整體感知質(zhì)量。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

在這3個(gè)客觀指標(biāo)上，無(wú)論VALL-E 2的組大小如何設(shè)置，相比VALL-E都有全方位的提升，WER和DNSMOS分?jǐn)?shù)也優(yōu)于真實(shí)人類語(yǔ)音，但SIM分?jǐn)?shù)還存在一定差距。

此外，從表3結(jié)果也能發(fā)現(xiàn)，VALL-E 2的AR模型組大小為2時(shí)，可以取得最優(yōu)效果。

在VCTK數(shù)據(jù)集上的測(cè)評(píng)也可以得到相似的結(jié)論。當(dāng)prompt長(zhǎng)度增加時(shí)，分組代碼建模方法可以減少序列長(zhǎng)度，緩解Transformer架構(gòu)中不正確注意力機(jī)制導(dǎo)致的生成錯(cuò)誤，從而在WER分?jǐn)?shù)上得到提升。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

作者簡(jiǎn)介

本文第一作者陳三元是哈爾濱工業(yè)大學(xué)和微軟亞洲研究院的聯(lián)合培養(yǎng)博士，他從2020年開(kāi)始擔(dān)任MSRA自然語(yǔ)言計(jì)算組的實(shí)習(xí)研究員，研究興趣主要是用于語(yǔ)音和音頻處理的預(yù)訓(xùn)練語(yǔ)言模型。

語(yǔ)音克隆達(dá)到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員-AI.x社區(qū)

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

僅聽(tīng)3秒，AI零樣本克隆人聲達(dá)到人類水平，情緒語(yǔ)調(diào)隨意改

Crystalcxt ? 2309瀏覽 ? 0回復(fù)
Microsoft提出FILM-7B，解決大模型lost-in-the-middle問(wèn)題，達(dá)到GPT-4-Turbo水平！

PaperAgent ? 3905瀏覽 ? 0回復(fù)
人類偏好就是尺！SPPO對(duì)齊技術(shù)讓大語(yǔ)言模型左右互搏、自我博弈

輕薄滴假象 ? 2649瀏覽 ? 0回復(fù)
曝斯嘉麗曾拒絕為ChatGPT配音：GPT-4o語(yǔ)音上線前夕，這款最像“Her”的語(yǔ)音卻下架了！

51CTO技術(shù)棧 ? 2777瀏覽 ? 0回復(fù)
Aditya Ramesh講DALL·E 2基本原理

AIGC最前線 ? 2824瀏覽 ? 0回復(fù)
清華、北大與微軟推出Glyph-ByT5-v2：渲染高視覺(jué)美感文本，海報(bào)驚艷，媲美DALL-E3！

PaperAgent ? 3908瀏覽 ? 0回復(fù)
谷歌推出V2A，可為視頻大模型自動(dòng)匹配語(yǔ)音

Aceryt ? 3490瀏覽 ? 0回復(fù)
微軟發(fā)布Florence-2：用于處理各種視覺(jué)任務(wù)的小模型

AIGC最前線 ? 3921瀏覽 ? 0回復(fù)
微軟放棄OpenAI觀察員席位！蘋(píng)果：我屁股還沒(méi)坐熱呢！

InfonityAI智推星 ? 2455瀏覽 ? 0回復(fù)
史上首個(gè)AI+人類大合唱，ChatGPT語(yǔ)音模式玩出新高度！

Aceryt ? 3499瀏覽 ? 0回復(fù)
微軟開(kāi)源視覺(jué)語(yǔ)言模型Florence-2的應(yīng)用實(shí)戰(zhàn)

51CTO內(nèi)容精選 ? 2454瀏覽 ? 0回復(fù)
語(yǔ)音克隆與情感理解、企業(yè)電話的未來(lái)？

老蛀蟲(chóng) ? 1954瀏覽 ? 0回復(fù)
探索 mcdse-2b-v1：全新高效的多語(yǔ)言文檔檢索模型

Halo咯咯 ? 2056瀏覽 ? 0回復(fù)
阿里巴巴AI研究院發(fā)布CosyVoice 2：改進(jìn)的流式語(yǔ)音合成模型

Halo咯咯 ? 3433瀏覽 ? 0回復(fù)
Manus：這個(gè)堪比 DeepSeek 的核彈，如何讓普通人也能指揮“數(shù)字員工”？

wsp_ping ? 1543瀏覽 ? 0回復(fù)
TinyR1-32B-Preview: 通過(guò)全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商

sbf_2000 ? 1120瀏覽 ? 0回復(fù)
暴論：2025年，程序員必學(xué)技能就是 MCP

玄姐聊AGI ? 3004瀏覽 ? 0回復(fù)
人類贏了！OpenAI深夜開(kāi)源全新Agent評(píng)測(cè)基準(zhǔn)!AI大戰(zhàn)頂尖人類，上演機(jī)器學(xué)習(xí)屆“神仙打架”

51CTO技術(shù)棧 ? 1599瀏覽 ? 0回復(fù)
AI語(yǔ)音革命新紀(jì)元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?

51CTO內(nèi)容精選 ? 512瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門(mén)推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇： ECCV2024｜LightenDiffusion 超越現(xiàn)有無(wú)監(jiān)督方法，引領(lǐng)低光圖像增強(qiáng)新紀(jì)元！

下一篇：超燃！純AI生成《泰坦尼克號(hào)》大片！浙大&阿里發(fā)布MovieDreamer:超長(zhǎng)電影生成"夢(mèng)工廠"

社區(qū)精華內(nèi)容

目錄

^{<sub id="j6ina"></sub>}