自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Stability AI開源47秒音頻生成模型,蟲鳴鳥叫、搖滾、鼓點(diǎn)都能生成

發(fā)布于 2024-6-7 12:55
瀏覽
0收藏

音頻生成領(lǐng)域又有好消息:剛剛,Stability AI 宣布推出開放模型 Stable Audio Open,該模型能夠生成高質(zhì)量的音頻數(shù)據(jù)。

Stability AI開源47秒音頻生成模型,蟲鳴鳥叫、搖滾、鼓點(diǎn)都能生成-AI.x社區(qū)

項(xiàng)目地址:https://huggingface.co/stabilityai/stable-audio-open-1.0


與 Stability AI 的商業(yè) Stable Audio 產(chǎn)品(可生成長(zhǎng)達(dá)三分鐘的更長(zhǎng)、連貫的音樂曲目)不同,Stable Audio Open 可以通過簡(jiǎn)單的文本提示生成長(zhǎng)達(dá) 47 秒的高質(zhì)量音頻數(shù)據(jù)。


經(jīng)過專業(yè)訓(xùn)練后,這個(gè)模型已經(jīng)非常適合創(chuàng)建鼓點(diǎn)、樂器 riffs、環(huán)境音、擬聲錄音和其他用于音樂制作和聲音設(shè)計(jì)的音頻樣本。雖然它可以生成簡(jiǎn)短的音樂片段,但它并未針對(duì)完整的歌曲、旋律或人聲進(jìn)行優(yōu)化。


Stable Audio Open 的主要優(yōu)勢(shì)在于,用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。


比如,下方是鼓手根據(jù)自己的鼓聲錄音樣本進(jìn)行微調(diào)生成的新節(jié)拍:


warm_arpeggios_on_an_analog_synthesizer_with_a_gradually_ri


生成森林中鳥兒唱歌的音頻:


【blackbird】tmp_gradio_8cc6bd4d9dd695112ffb021c7f3c9539e74


再生成一段「動(dòng)次打次」的搖滾樂:


【搖滾】rock_beat_played_in_a_treated_studio_session_drummi


訓(xùn)練細(xì)節(jié)與數(shù)據(jù)集


Stable Audio Open 是基于 Transformer 架構(gòu)的潛在擴(kuò)散模型,由三個(gè)組件組成:將波形壓縮為可管理序列長(zhǎng)度的自編碼器、用于文本調(diào)節(jié)的基于 T5 的文本嵌入,以及在自編碼器的潛在空間中運(yùn)行的基于 transformer 的擴(kuò)散 (DiT) 模型。


隨著包括 Stability 在內(nèi)的音樂生成器越來越受歡迎,版權(quán)以及一些生成器創(chuàng)建者可能濫用版權(quán)的方式正成為人們關(guān)注的焦點(diǎn)。


Stability AI 對(duì)本次模型的訓(xùn)練采取了負(fù)責(zé)任的態(tài)度,在文生圖模型訓(xùn)練上的「版權(quán)問題」曾讓這家公司深陷爭(zhēng)議之中。因此,Stable Audio Open 使用來自 FreeSound 和 Free Music Archive 的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,確保未經(jīng)許可未使用任何受版權(quán)保護(hù)或?qū)S械牟牧稀?/p>


數(shù)據(jù)集共包含 486492 個(gè)音頻記錄,其中 472618 個(gè)來自 Freesound,13874 個(gè)來自 Free Music Archive 。所有音頻文件均為 CC0、CC BY 或 CC Sampling+ 許可。這些數(shù)據(jù)用于訓(xùn)練自編碼器和 DiT,此外研究者使用了公開的預(yù)訓(xùn)練 T5 模型(t5-base)進(jìn)行文本調(diào)節(jié)。


在開始訓(xùn)練之前,研究者進(jìn)行了深入分析,以確保訓(xùn)練數(shù)據(jù)中沒有未經(jīng)授權(quán)的版權(quán)音樂。


他們首先使用基于 AudioSet 類別的 PANNs 音樂分類器識(shí)別了 FreeSound 中的音樂樣本。被識(shí)別的音樂樣本中至少有 30 秒的音樂被預(yù)測(cè)為屬于音樂相關(guān)類別,閾值為 0.15(PANNs 輸出概率范圍為 0 至 1)。


識(shí)別出的音樂樣本被發(fā)送到 Audible Magic(一家值得信賴的內(nèi)容檢測(cè)公司)的識(shí)別服務(wù),以確保不存在受版權(quán)保護(hù)的音樂。Audible Magic 標(biāo)記了疑似受版權(quán)保護(hù)的音樂,這些會(huì)被刪除,然后再對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練。大部分被刪除的內(nèi)容都是現(xiàn)場(chǎng)錄音,其中的背景音樂都是受版權(quán)保護(hù)的。經(jīng)過上述處理后,研究者得到了 266324 個(gè) CC0、194840 個(gè) CC-BY 和 11454 個(gè) CC 采樣 + 音頻記錄。


最后要確保的是, FMA 子集中不存在受版權(quán)保護(hù)的內(nèi)容。在這種情況下,程序略有不同,因?yàn)?FMA 子集中包含音樂信號(hào)。研究者根據(jù)大型版權(quán)音樂數(shù)據(jù)庫進(jìn)行元數(shù)據(jù)搜索,并標(biāo)記任何可能匹配的內(nèi)容,被標(biāo)記的內(nèi)容會(huì)由人工逐一審核。這一過程之后,最終獲得了 8967 首 CC-BY 和 4907 首 CC0 音樂。


局限性


Stable Audio Open 1.0 作為一個(gè)音頻生成模型,也有一些局限性,包括:


  • 無法生成逼真的聲音;
  • 使用英語描述進(jìn)行訓(xùn)練,在其他語言中的表現(xiàn)不會(huì)那么好;
  • 不能適用于所有音樂風(fēng)格和文化,訓(xùn)練數(shù)據(jù)缺乏多樣性,模型可能無法在現(xiàn)有的各種音樂流派和聲音效果上表現(xiàn)得同樣好;
  • 有時(shí)很難評(píng)估哪種類型的文本描述可以提供最佳的生成效果,可能需要進(jìn)行工程設(shè)計(jì)才能獲得令人滿意的結(jié)果。


值得注意的是,Stable Audio Open 是一個(gè)開放模型,但是從技術(shù)上講它不是開源的。Stable Audio Open 并未使用實(shí)際的開放源代碼促進(jìn)會(huì) (OSI) 批準(zhǔn)的許可證,而是根據(jù) Stability AI 非商業(yè)研究社區(qū)協(xié)議許可證向用戶提供。 


與此同時(shí),Stable Audio Open 也不能用于商業(yè)用途;服務(wù)條款禁止這樣做。而且,它在不同音樂風(fēng)格和文化中的表現(xiàn)并不一樣好,或者在使用英語以外的語言描述時(shí)也表現(xiàn)不佳。


Stability AI 將此歸咎于訓(xùn)練數(shù)據(jù)。模型描述中寫道:「數(shù)據(jù)源可能缺乏多樣性,數(shù)據(jù)集中并非所有文化都具有同等代表性。模型生成的樣本將反映訓(xùn)練數(shù)據(jù)的偏差?!?/p>


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/UHkq4BysXVs4Ta8KABW45w??

標(biāo)簽
已于2024-6-7 12:55:25修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦