音樂ChatGPT 2.0來了!AI作曲家被踢館,親測周杰倫爆款大翻車
200多名音樂人聯(lián)名簽公開信抗議Suno的余音還未消,AI音樂又出新工具了——
Stability AI,也下場卷AI音樂了!看來,核心開發(fā)人員的出走,并沒有減慢它發(fā)布產品的步伐。
就在剛剛,Stability AI發(fā)布了Stable Audio 2.0。
僅僅用一條自然語言指令,它就能以44.1 kHz的立體聲質量,創(chuàng)作出高質量、結構完整的音樂作品。
而且,每首曲目最長可達3分鐘!相比之下,Suno最長可創(chuàng)作2分鐘,這方面可是被Stable Audio 2完爆了。
并且,Audo 2.0的音頻到音頻功能,目前只有Meta的MusicGen可以做到,連Suno都做不到。
好消息:模型已經在Stable Audio官網上免費開放使用了,并且很快就能通過Stable Audio API提供服務。
順便,再畫個重點:Stable Audio做出來的音樂,是可以商用的!
就是價格著實不便宜:Pro版11.99美元/月、Studio版29.99美元/月、頂配Max版則直接來到了89.99美元/月。
小編親自上手「爆改」了一波周杰倫的歌。
Prompt如下——
Post-Rock, Guitars, Drum Kit, Bass, Strings, Euphoric, Up-Lifting, Moody, Flowing, Raw, Epic, Sentimental, 125 BPM
并且輸入了一段《夜曲》的旋律,Audio 2.0輸出的音樂是這樣的。
聽起來似乎不太理想。(當然,大概率是因為小編不專業(yè)導致的)
那哼哼一首試試呢?小編哼了幾句《等你下課》,傳上去——
Blues, R&B woman, singer
出來的結果,跟原曲不能說是一模一樣,只能說是毫不相干。
小哥一段b-box,身后仿佛一個樂隊
消息一出,各位音樂人們立刻沖了!
比如這位國外小哥,自己b-box再加上Audio 2.0給配上的音樂,直接一個人干出了一個樂隊的效果。
并且,無論是b-box還是完整的歌曲,都是Audio 2.0生成的。
這位日本網友,用Audio 2.0創(chuàng)作出了一首「東方地靈殿」風格的歌曲。
Shugo Nozaki在試用后點評道:Audio 2.0跟Suno不同,它似乎保留了簡單的提示,并且把歌曲簡化了。
總之,這次的模型不僅可以從文本創(chuàng)作音頻,還能從音頻創(chuàng)作音頻。
旋律、伴奏、獨立音軌、音效……沒有它不會的。
因為創(chuàng)作時間長達3分鐘,Stable Audio 2.0能讓每首作品都擁有清晰的結構,包括引言、主體和結尾部分,還能加入立體聲的音效,讓作品更加立體生動。
比如下面這段音樂,結構非常完整,樂曲的風格舒緩、空靈,十分解壓。
A beautiful piano arpeggio grows to a full beautiful orchestral piece
而在下面這段音樂中,由鋼琴旋律開始了一段憂郁的樂章,隨后的管弦樂樂句,在涌動中把整個樂章推向高潮,最后逐漸回歸寧靜。
Piano melody,新智元,3分鐘
Piano melody begins a melancholic journey, full orchestral climax, the swells of the orchestral instrumentals
只要給出具體的prompt,就能生成完全符合要求的音樂了,只要腦海里能想象出來,它就能生成。
這感覺,簡直就是在元宇宙里的虛擬工作室中玩賽博樂器!
再比如,這首127 BPM的Tech House,就融合了琶音器,Rhodes電鋼琴的和弦與旋律交織出的美妙旋律。并且還包含有切分節(jié)奏的打擊樂和擬聲打擊樂,House風格的重鼓,自然的打擊樂效果,以及行走貝斯帶來的流動感。
整個曲目在神秘、低調的氛圍中展開,讓人仿佛置身于探索未知的旅程中。
Tech House, underground UK rave, 127 BPM, synthesizer arpeggio, beautiful Rhodes piano chords and melodies, epic sweeping string section, syncopated percussion and foley percussion, house kick pattern, drum machine, natural percussion, breaks, walking bass, Mysterious, Mystical, Low-key
以及,這首125 BPM的后搖,不僅有精心錄制的鼓組和電貝斯,偶爾還穿插著激昂的和聲,整體給人一種宏大且高潮迭起的氛圍。
Post Rock, echoing electric guitars with chorus, well recorded drum-kit, Electric Bass, occasional soaring harmonies, Moving, Epic, Climactic, 125 BPM
而這首Nu-Disco融合了放克風格的Emotional Pian和濃郁的弦樂四重奏,以及層次豐富的鼓點。此外,G-Funk貝斯和合成器的現(xiàn)代感,完美適合俱樂部氛圍。
?
Nu-Disco, funky emotional Piano, lush string quartet, well layered Drum Machine, well-arranged composition, funky G-Funk bass, Synthersizers, Modern, Club-orientated, 115 BPM
好玩的是,Audio 2.0也可能生成有人聲的歌詞,但遺憾的是,我們并不能自己填詞,只能它給什么詞,我們用什么詞。
這就多少差點意思了……
音頻轉換
你腦海里有一段旋律,只要把它哼給Stable Audio 2.0,它就能給你樣本直出!
旋律可以直接變成鼓、低音吉他。
或者來一段b-box,直接就變成了Lofi hip hop box。
聲音變化與音效創(chuàng)造
這次的新模型,大幅提升了聲音和音效的制作能力。
無論是模擬鍵盤的輕敲聲、人群的歡呼聲,還是城市街道的背景嗡嗡聲,都能為音樂增添新的層次。
風格轉換
另外,如果我們已經有了一個某風格的音頻樣本,想讓它變成另一種風格,只要上傳到Audio 2,告訴它你想要什么樣的,它就自動給你生成了。
無論是音樂的整體風格,還是調整特定部分的基調,Audio 2都能為我們獨家定制!
從此,藝術家和音樂制作人的創(chuàng)作自由度和想象力,都可以充分釋放!
其實,早在2023年9月,公司就已經推出了1.0版本,成為首款商業(yè)成功的AI音樂工具。
當時,Stable Audio 1.0就被《時代》雜志評為2023年的最佳發(fā)明之一。
不過,最近鬧得沸沸揚揚的音樂家抗議Suno的事件,也給音樂版權問題敲響了警鐘。
Stability AI是怎么解決這個問題的呢?
對此,他們也有對應措施:Stable Audio 2.0是專門訓練于AudioSparx音樂庫的授權數(shù)據(jù)集上,絕對尊重退出請求,并且表示一定會為創(chuàng)作者提供公平的補償。
技術原理
為何Stable Audio 2.0能創(chuàng)作出結構如此完整的音樂作品?
原因就在于,它采用了一種特殊設計的技術架構。
為此,研究者對系統(tǒng)進行了全面優(yōu)化,確保它在處理長時間音頻時的表現(xiàn)更加出色。
通過一個新型的高效壓縮技術,他們將原始的音頻數(shù)據(jù)壓縮成了更短的格式,這樣就提高了處理效率。
此外,他們還引入了一種先進的「Diffusion Transformer」技術,這種技術比之前的方法更擅長處理連續(xù)長音頻數(shù)據(jù)。Stable Diffusion 3中也用到了類似技術。
這兩大技術的結合,就讓模型能夠精準地捕捉音樂中的復雜結構,并且重現(xiàn)出來。
自動編碼器可以壓縮音頻并將其重構回原始狀態(tài)。它能捕捉并復制關鍵特征,同時過濾掉不太重要的細節(jié),從而生成更連貫的作品。
Diffusion Transformer(DiT)可以逐步將隨機噪聲細化為結構化數(shù)據(jù),識別復雜的模式和關系。結合自動編碼器,它獲得了處理更長序列的能力,從輸入中創(chuàng)建出更深入、更準確的解釋。
訓練數(shù)據(jù)
跟1.0版本一樣,2.0版本也是基于AudioSparx提供的龐大音頻庫進行訓練的。
這個音頻庫涵蓋了超過80萬個文件,內容豐富,包括各類音樂、音效以及單獨樂器的音軌,并且附有相關的文本描述。
而AudioSparx平臺上的所有藝術家,都有機會選擇是否讓自己的作品參與到Stable Audio的訓練過程中。
而且,為了維護創(chuàng)作者的版權,Stability AI在上傳音頻時會與Audible Magic合作,采用他們的先進內容識別技術。
這種技術就能實時地識別和匹配音頻內容,有效防止侵權,包含每一位創(chuàng)作者的權益。
網友吐槽:沒有歌詞就沒有靈魂啊
雖然宣傳地很炸裂,但Audio 2.0放出后,也遭到了部分網友吐槽。
最明顯的問題就是,它并不能像Suno一樣生成歌詞。
這就仿佛抽走了一半靈魂。
也有網友吐槽說,自己并不認為這是什么好音樂。它就仿佛一張AI生成的圖片,仔細觀察就會發(fā)現(xiàn)很多錯誤。
在ta看來,優(yōu)秀的作曲家應該因為創(chuàng)作出沒有錯誤的好音樂而得到報酬,即使他們比AI更貴。
的確,有很多人表示,它的音樂質量不行,比不上Suno。
甚至很多音樂生成器都比它生成得要好。
「可是,我已經被Suno寵壞了」。
音樂APP創(chuàng)始人試用后:有點失望
這位名叫Ezra的音樂APP創(chuàng)始人在試用Audio 2.0后,則詳細地記錄下自己的體驗。
視頻地址:https://www.audiocipher.com/post/stable-audio-ai#viewer-85l4b974663
他做了以下幾個實驗,體驗了Audio 2.0對各種音樂的生成能力。
手指鼓點
他的第一個實驗,是為錄制的輸入捕捉一個簡單的節(jié)奏,看看能否用Audio 2.0的Drum Solo功能,從提示庫中獲得更有趣的打擊樂概念。
第一次實驗的結果令人有些失望。產生的音樂的確有明確的風格和音色轉移,但并沒有生成他要求的「鼓的獨奏」。
他嘗試了第二次,提示用的是「鼓和貝斯」,這次,Audio 2.0產生了不同的鼓聲,兩個輸出都具有修改后的捕捉音色。
從哼唱旋律到流行樂
這次,小哥錄下了自己哼唱的一首十秒的旋律,非常簡單。
然后,他將上傳的音頻波形與Audio 2.0的輸出進行了比較。
可以看出,輸入信號中最響亮的部分跟輸出中的類似波形正好對應。
但他表示,風格轉移效果其實并不好。輸出聽起來與自己的嗡嗡聲相似,但音色略有不同。
手風琴之歌到吉普賽爵士樂
總的來說,小哥的前兩個實驗都有點失敗。
在第三次實驗中,他另辟蹊徑,上傳了自己寫的一首手風琴曲子的30秒錄音。
這份錄音響鈴、清晰,帶有和旋和旋律。
而Audio 2.0輸出的結果,可以算是成功的。
不過提示要求吉普賽爵士樂,帶有貝斯和鼓。但他得到的是一把原聲爵士吉他,并且聽起來有像是木琴的東西。沒有貝斯或鼓。
這次,旋律的準確率大概在90%,但出現(xiàn)了原始錄音中沒有的一些奇怪音符。有時它會丟失主線,或早或晚地跳入旋律。
另一方面,Stable Audio確實在簡單的i-iv-V7-i和弦進行上進行了創(chuàng)新,并進行了一些驚喜的重新和聲。
所以,如果我們的目標是想出新的和弦編曲,毫無疑問,它會是一個寶藏工具。
本文轉自 新智元 ,作者:新智元
