開(kāi)源音頻模型Stable Audio Open,文本生成47秒高清音效
6月6日,著名開(kāi)源大模型平臺(tái)Stability.ai在官網(wǎng)宣布,開(kāi)源最新文生音頻模型Stable Audio Open。
用戶通過(guò)文本就能生成最多47秒,鋼琴、笛子、鼓點(diǎn)、模擬人聲等不同類型的44.1kHz音效。
值得一提的是,Stable Audio Open支持?jǐn)?shù)據(jù)微調(diào),歌手、音樂(lè)人可以讓其生成基于自己的音樂(lè)數(shù)據(jù),例如,架子鼓手可以根據(jù)自己的鼓點(diǎn)來(lái)進(jìn)行微調(diào)。
開(kāi)源地址:https://huggingface.co/stabilityai/stable-audio-open-1.0
在線demo:https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero
根據(jù)Stability.ai介紹,Stable Audio Open使用了486,492個(gè)錄音訓(xùn)練數(shù)據(jù),其中 472,618 個(gè)來(lái)自Freesound,13874個(gè)來(lái)自免費(fèi)音樂(lè)檔案館,并且所有音頻文件均根據(jù) CC0、CC BY或CC Sampling+獲得了商業(yè)許可。
就是說(shuō)通過(guò)Stable Audio Open生成的音效無(wú)需擔(dān)心商業(yè)化問(wèn)題,不會(huì)受到法律方面的追究。
「AIGC開(kāi)放社區(qū)」根據(jù)其提供的在線demo體驗(yàn)了一下,在文本語(yǔ)義理解、生成音效等方面還是相當(dāng)優(yōu)秀。
需要注意的是,目前只支持英文提示詞,其他任何語(yǔ)言都不行,即便你使用了識(shí)別效果也是相當(dāng)?shù)牟睢?/p>
在生成的過(guò)程中,用戶可以對(duì)時(shí)間、擴(kuò)散步數(shù)和CFG進(jìn)行詳細(xì)控制,以達(dá)到更好的效果。例如,一首非常舒適抒情的鋼琴曲。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū),作者:AIGC開(kāi)放社區(qū)
