穩(wěn)定的音頻來了 — 使用人工智能創(chuàng)作音樂(for free)
今天,以穩(wěn)定擴散(Stable Diffusion)和StableLM等開源AI工具和模型而聞名的Stability AI公司推出了其首個音樂和聲音生成AI產(chǎn)品——StableAudio。音樂產(chǎn)業(yè)以其難以打入而聞名。即使您擁有才華和動力,您仍然需要創(chuàng)作和制作音樂所需的技能和資源。但如果您一點都不需要這些呢?如果您只需擁有創(chuàng)造力和一個好的AI提示就能創(chuàng)作音樂呢?
StableAudio是一種可以從零開始生成音樂的AI工具。您只需要提供一些簡單的指示,AI將完成其余工作。
官方鏈接在這里:https://stableaudio.com/
什么是StableAudio?
StableAudio是一種獨創(chuàng)性的AI工具,使用生成式AI技術(shù)來創(chuàng)作高質(zhì)量的音樂和音效。要使用StableAudio,您只需提供一個描述性文本提示和所需的音頻長度。例如,您可以輸入“后搖、吉他、鼓組、貝斯、弦樂、歡愉、振奮、憂郁、流暢、原始、史詩、感傷、125 BPM”來生成一首95秒的后搖風格曲目。StableAudio非常適合希望在其音樂中創(chuàng)建樣本的音樂人。您可以用它來創(chuàng)建音效、背景音樂,甚至是您自己的原創(chuàng)作品。
自己試一試
轉(zhuǎn)到StableAudio儀表板并注冊:
StableAudio
然后,轉(zhuǎn)到“生成音樂”儀表板,開始生成您自己的音樂:
StableAudio
輸入您的提示并設(shè)置持續(xù)時間。請注意,免費訂閱的音頻最大長度為20秒。
點擊右箭頭按鈕開始音頻生成。
StableAudio
與此同時,您可以在StableAudio的“用戶指南”部分中探索提供的示例:
StableAudio
它是如何工作的
以下是StableAudio工作的一些關(guān)鍵技術(shù)細節(jié):
StableAudio技術(shù)背景
- VAE將立體聲音頻壓縮成數(shù)據(jù)壓縮、抗噪和可逆的有損潛在編碼,使生成和訓練比直接使用原始音頻樣本更快。
- 文本編碼器用于從文本提示中提取特征。然后,使用這些特征來調(diào)節(jié)擴散模型。
- 擴散模型是一個基于U-Net的模型,使用殘差層、自注意層和交叉注意層的組合來去噪輸入并重構(gòu)所需的音頻。
另一個重要的信息是,StableAudio模型使用了超過800,000個音頻文件的數(shù)據(jù)集,包括音樂、音效和單樂器音軌。這相當于超過19,500小時的音頻。
最后的想法
總的來說,我對這個新的AI工具印象深刻。音頻的質(zhì)量與由人類專業(yè)人員創(chuàng)造的音頻相媲美。StableAudio是一個改變游戲規(guī)則的工具,它可能會顛覆整個音樂和音效行業(yè)。