Stability AI開源47秒音頻生成模型,蟲鳴鳥叫、搖滾、鼓點(diǎn)都能生成
音頻生成領(lǐng)域又有好消息:剛剛,Stability AI 宣布推出開放模型 Stable Audio Open,該模型能夠生成高質(zhì)量的音頻數(shù)據(jù)。
項(xiàng)目地址:https://huggingface.co/stabilityai/stable-audio-open-1.0
與 Stability AI 的商業(yè) Stable Audio 產(chǎn)品(可生成長(zhǎng)達(dá)三分鐘的更長(zhǎng)、連貫的音樂曲目)不同,Stable Audio Open 可以通過簡(jiǎn)單的文本提示生成長(zhǎng)達(dá) 47 秒的高質(zhì)量音頻數(shù)據(jù)。
經(jīng)過專業(yè)訓(xùn)練后,這個(gè)模型已經(jīng)非常適合創(chuàng)建鼓點(diǎn)、樂器 riffs、環(huán)境音、擬聲錄音和其他用于音樂制作和聲音設(shè)計(jì)的音頻樣本。雖然它可以生成簡(jiǎn)短的音樂片段,但它并未針對(duì)完整的歌曲、旋律或人聲進(jìn)行優(yōu)化。
Stable Audio Open 的主要優(yōu)勢(shì)在于,用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。
比如,下方是鼓手根據(jù)自己的鼓聲錄音樣本進(jìn)行微調(diào)生成的新節(jié)拍:
warm_arpeggios_on_an_analog_synthesizer_with_a_gradually_ri
生成森林中鳥兒唱歌的音頻:
【blackbird】tmp_gradio_8cc6bd4d9dd695112ffb021c7f3c9539e74
再生成一段「動(dòng)次打次」的搖滾樂:
【搖滾】rock_beat_played_in_a_treated_studio_session_drummi
訓(xùn)練細(xì)節(jié)與數(shù)據(jù)集
Stable Audio Open 是基于 Transformer 架構(gòu)的潛在擴(kuò)散模型,由三個(gè)組件組成:將波形壓縮為可管理序列長(zhǎng)度的自編碼器、用于文本調(diào)節(jié)的基于 T5 的文本嵌入,以及在自編碼器的潛在空間中運(yùn)行的基于 transformer 的擴(kuò)散 (DiT) 模型。
隨著包括 Stability 在內(nèi)的音樂生成器越來越受歡迎,版權(quán)以及一些生成器創(chuàng)建者可能濫用版權(quán)的方式正成為人們關(guān)注的焦點(diǎn)。
Stability AI 對(duì)本次模型的訓(xùn)練采取了負(fù)責(zé)任的態(tài)度,在文生圖模型訓(xùn)練上的「版權(quán)問題」曾讓這家公司深陷爭(zhēng)議之中。因此,Stable Audio Open 使用來自 FreeSound 和 Free Music Archive 的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,確保未經(jīng)許可未使用任何受版權(quán)保護(hù)或?qū)S械牟牧稀?/p>
數(shù)據(jù)集共包含 486492 個(gè)音頻記錄,其中 472618 個(gè)來自 Freesound,13874 個(gè)來自 Free Music Archive 。所有音頻文件均為 CC0、CC BY 或 CC Sampling+ 許可。這些數(shù)據(jù)用于訓(xùn)練自編碼器和 DiT,此外研究者使用了公開的預(yù)訓(xùn)練 T5 模型(t5-base)進(jìn)行文本調(diào)節(jié)。
在開始訓(xùn)練之前,研究者進(jìn)行了深入分析,以確保訓(xùn)練數(shù)據(jù)中沒有未經(jīng)授權(quán)的版權(quán)音樂。
他們首先使用基于 AudioSet 類別的 PANNs 音樂分類器識(shí)別了 FreeSound 中的音樂樣本。被識(shí)別的音樂樣本中至少有 30 秒的音樂被預(yù)測(cè)為屬于音樂相關(guān)類別,閾值為 0.15(PANNs 輸出概率范圍為 0 至 1)。
識(shí)別出的音樂樣本被發(fā)送到 Audible Magic(一家值得信賴的內(nèi)容檢測(cè)公司)的識(shí)別服務(wù),以確保不存在受版權(quán)保護(hù)的音樂。Audible Magic 標(biāo)記了疑似受版權(quán)保護(hù)的音樂,這些會(huì)被刪除,然后再對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練。大部分被刪除的內(nèi)容都是現(xiàn)場(chǎng)錄音,其中的背景音樂都是受版權(quán)保護(hù)的。經(jīng)過上述處理后,研究者得到了 266324 個(gè) CC0、194840 個(gè) CC-BY 和 11454 個(gè) CC 采樣 + 音頻記錄。
最后要確保的是, FMA 子集中不存在受版權(quán)保護(hù)的內(nèi)容。在這種情況下,程序略有不同,因?yàn)?FMA 子集中包含音樂信號(hào)。研究者根據(jù)大型版權(quán)音樂數(shù)據(jù)庫進(jìn)行元數(shù)據(jù)搜索,并標(biāo)記任何可能匹配的內(nèi)容,被標(biāo)記的內(nèi)容會(huì)由人工逐一審核。這一過程之后,最終獲得了 8967 首 CC-BY 和 4907 首 CC0 音樂。
局限性
Stable Audio Open 1.0 作為一個(gè)音頻生成模型,也有一些局限性,包括:
- 無法生成逼真的聲音;
- 使用英語描述進(jìn)行訓(xùn)練,在其他語言中的表現(xiàn)不會(huì)那么好;
- 不能適用于所有音樂風(fēng)格和文化,訓(xùn)練數(shù)據(jù)缺乏多樣性,模型可能無法在現(xiàn)有的各種音樂流派和聲音效果上表現(xiàn)得同樣好;
- 有時(shí)很難評(píng)估哪種類型的文本描述可以提供最佳的生成效果,可能需要進(jìn)行工程設(shè)計(jì)才能獲得令人滿意的結(jié)果。
值得注意的是,Stable Audio Open 是一個(gè)開放模型,但是從技術(shù)上講它不是開源的。Stable Audio Open 并未使用實(shí)際的開放源代碼促進(jìn)會(huì) (OSI) 批準(zhǔn)的許可證,而是根據(jù) Stability AI 非商業(yè)研究社區(qū)協(xié)議許可證向用戶提供。
與此同時(shí),Stable Audio Open 也不能用于商業(yè)用途;服務(wù)條款禁止這樣做。而且,它在不同音樂風(fēng)格和文化中的表現(xiàn)并不一樣好,或者在使用英語以外的語言描述時(shí)也表現(xiàn)不佳。
Stability AI 將此歸咎于訓(xùn)練數(shù)據(jù)。模型描述中寫道:「數(shù)據(jù)源可能缺乏多樣性,數(shù)據(jù)集中并非所有文化都具有同等代表性。模型生成的樣本將反映訓(xùn)練數(shù)據(jù)的偏差?!?/p>
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
