自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="ejkc5"></ruby>^{<blockquote id="ejkc5"></blockquote>}

<sub id="ejkc5"><p id="ejkc5"></p></sub>

<cite id="ejkc5"><track id="ejkc5"></track></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點(diǎn)都能生成

輕薄滴假象

發(fā)布于 2024-6-7 12:55

瀏覽

0收藏

音頻生成領(lǐng)域又有好消息：剛剛，Stability AI 宣布推出開放模型 Stable Audio Open，該模型能夠生成高質(zhì)量的音頻數(shù)據(jù)。

Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點(diǎn)都能生成-AI.x社區(qū)

項(xiàng)目地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

與 Stability AI 的商業(yè) Stable Audio 產(chǎn)品（可生成長(zhǎng)達(dá)三分鐘的更長(zhǎng)、連貫的音樂曲目）不同，Stable Audio Open 可以通過簡(jiǎn)單的文本提示生成長(zhǎng)達(dá) 47 秒的高質(zhì)量音頻數(shù)據(jù)。

經(jīng)過專業(yè)訓(xùn)練后，這個(gè)模型已經(jīng)非常適合創(chuàng)建鼓點(diǎn)、樂器 riffs、環(huán)境音、擬聲錄音和其他用于音樂制作和聲音設(shè)計(jì)的音頻樣本。雖然它可以生成簡(jiǎn)短的音樂片段，但它并未針對(duì)完整的歌曲、旋律或人聲進(jìn)行優(yōu)化。

Stable Audio Open 的主要優(yōu)勢(shì)在于，用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。

比如，下方是鼓手根據(jù)自己的鼓聲錄音樣本進(jìn)行微調(diào)生成的新節(jié)拍：

warm_arpeggios_on_an_analog_synthesizer_with_a_gradually_ri

生成森林中鳥兒唱歌的音頻：

【blackbird】tmp_gradio_8cc6bd4d9dd695112ffb021c7f3c9539e74

再生成一段「動(dòng)次打次」的搖滾樂：

【搖滾】rock_beat_played_in_a_treated_studio_session_drummi

訓(xùn)練細(xì)節(jié)與數(shù)據(jù)集

Stable Audio Open 是基于 Transformer 架構(gòu)的潛在擴(kuò)散模型，由三個(gè)組件組成：將波形壓縮為可管理序列長(zhǎng)度的自編碼器、用于文本調(diào)節(jié)的基于 T5 的文本嵌入，以及在自編碼器的潛在空間中運(yùn)行的基于 transformer 的擴(kuò)散 (DiT) 模型。

隨著包括 Stability 在內(nèi)的音樂生成器越來越受歡迎，版權(quán)以及一些生成器創(chuàng)建者可能濫用版權(quán)的方式正成為人們關(guān)注的焦點(diǎn)。

Stability AI 對(duì)本次模型的訓(xùn)練采取了負(fù)責(zé)任的態(tài)度，在文生圖模型訓(xùn)練上的「版權(quán)問題」曾讓這家公司深陷爭(zhēng)議之中。因此，Stable Audio Open 使用來自 FreeSound 和 Free Music Archive 的音頻數(shù)據(jù)進(jìn)行訓(xùn)練，確保未經(jīng)許可未使用任何受版權(quán)保護(hù)或?qū)Ｓ械牟牧稀?/p>

數(shù)據(jù)集共包含 486492 個(gè)音頻記錄，其中 472618 個(gè)來自 Freesound，13874 個(gè)來自 Free Music Archive 。所有音頻文件均為 CC0、CC BY 或 CC Sampling+ 許可。這些數(shù)據(jù)用于訓(xùn)練自編碼器和 DiT，此外研究者使用了公開的預(yù)訓(xùn)練 T5 模型（t5-base）進(jìn)行文本調(diào)節(jié)。

在開始訓(xùn)練之前，研究者進(jìn)行了深入分析，以確保訓(xùn)練數(shù)據(jù)中沒有未經(jīng)授權(quán)的版權(quán)音樂。

他們首先使用基于 AudioSet 類別的 PANNs 音樂分類器識(shí)別了 FreeSound 中的音樂樣本。被識(shí)別的音樂樣本中至少有 30 秒的音樂被預(yù)測(cè)為屬于音樂相關(guān)類別，閾值為 0.15（PANNs 輸出概率范圍為 0 至 1）。

識(shí)別出的音樂樣本被發(fā)送到 Audible Magic（一家值得信賴的內(nèi)容檢測(cè)公司）的識(shí)別服務(wù)，以確保不存在受版權(quán)保護(hù)的音樂。Audible Magic 標(biāo)記了疑似受版權(quán)保護(hù)的音樂，這些會(huì)被刪除，然后再對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練。大部分被刪除的內(nèi)容都是現(xiàn)場(chǎng)錄音，其中的背景音樂都是受版權(quán)保護(hù)的。經(jīng)過上述處理后，研究者得到了 266324 個(gè) CC0、194840 個(gè) CC-BY 和 11454 個(gè) CC 采樣 + 音頻記錄。

最后要確保的是， FMA 子集中不存在受版權(quán)保護(hù)的內(nèi)容。在這種情況下，程序略有不同，因?yàn)?FMA 子集中包含音樂信號(hào)。研究者根據(jù)大型版權(quán)音樂數(shù)據(jù)庫進(jìn)行元數(shù)據(jù)搜索，并標(biāo)記任何可能匹配的內(nèi)容，被標(biāo)記的內(nèi)容會(huì)由人工逐一審核。這一過程之后，最終獲得了 8967 首 CC-BY 和 4907 首 CC0 音樂。

局限性

Stable Audio Open 1.0 作為一個(gè)音頻生成模型，也有一些局限性，包括：

無法生成逼真的聲音；
使用英語描述進(jìn)行訓(xùn)練，在其他語言中的表現(xiàn)不會(huì)那么好；
不能適用于所有音樂風(fēng)格和文化，訓(xùn)練數(shù)據(jù)缺乏多樣性，模型可能無法在現(xiàn)有的各種音樂流派和聲音效果上表現(xiàn)得同樣好；
有時(shí)很難評(píng)估哪種類型的文本描述可以提供最佳的生成效果，可能需要進(jìn)行工程設(shè)計(jì)才能獲得令人滿意的結(jié)果。

值得注意的是，Stable Audio Open 是一個(gè)開放模型，但是從技術(shù)上講它不是開源的。Stable Audio Open 并未使用實(shí)際的開放源代碼促進(jìn)會(huì) (OSI) 批準(zhǔn)的許可證，而是根據(jù) Stability AI 非商業(yè)研究社區(qū)協(xié)議許可證向用戶提供。

與此同時(shí)，Stable Audio Open 也不能用于商業(yè)用途；服務(wù)條款禁止這樣做。而且，它在不同音樂風(fēng)格和文化中的表現(xiàn)并不一樣好，或者在使用英語以外的語言描述時(shí)也表現(xiàn)不佳。

Stability AI 將此歸咎于訓(xùn)練數(shù)據(jù)。模型描述中寫道：「數(shù)據(jù)源可能缺乏多樣性，數(shù)據(jù)集中并非所有文化都具有同等代表性。模型生成的樣本將反映訓(xùn)練數(shù)據(jù)的偏差?！?/p>

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/UHkq4BysXVs4Ta8KABW45w??

標(biāo)簽

已于2024-6-7 12:55:25修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

52個(gè)AIGC視頻生成算法模型介紹

pangguiyu ? 6102瀏覽 ? 0回復(fù)
OpenAI首次展示音頻模型Voice Engine，生成的聲音太逼真了！

Aceryt ? 3047瀏覽 ? 0回復(fù)
超10秒高分辨率，北大Open Sora視頻生成更強(qiáng)了，還支持華為芯片

輕薄滴假象 ? 2408瀏覽 ? 0回復(fù)
阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長(zhǎng)視頻生成

Syrupup ? 3703瀏覽 ? 0回復(fù)
開源音頻模型Stable Audio Open，文本生成47秒高清音效

Aceryt ? 4104瀏覽 ? 0回復(fù)
曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包

輕薄滴假象 ? 2776瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長(zhǎng)視頻生成

angel ? 2756瀏覽 ? 0回復(fù)
Stability.ai開源3D模型，僅需0.5秒就能快速生成

Aceryt ? 2919瀏覽 ? 0回復(fù)
視頻生成要有自己的系統(tǒng)！尤洋團(tuán)隊(duì)歷時(shí)半年開源VideoSys

輕薄滴假象 ? 2104瀏覽 ? 0回復(fù)
精準(zhǔn)可控新視角視頻生成+場(chǎng)景級(jí)3D生成！北大&港中文&騰訊等開源ViewCrafter

angel ? 2437瀏覽 ? 0回復(fù)
阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2304瀏覽 ? 0回復(fù)
16幀1024×1024視頻耗時(shí)僅16秒！64倍壓縮助力高效視頻生成：復(fù)旦&微軟發(fā)布Reducio-DiT

angel ? 2585瀏覽 ? 0回復(fù)
NVIDIA AI 推出 Fugatto：一個(gè) 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音

Halo咯咯 ? 2097瀏覽 ? 0回復(fù)
OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1788瀏覽 ? 0回復(fù)
開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型

angel ? 3058瀏覽 ? 0回復(fù)
阿里發(fā)布通義萬相2.1 :最佳視頻生成模型

Halo咯咯 ? 2461瀏覽 ? 0回復(fù)
谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1122瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 464瀏覽 ? 0回復(fù)
全球首個(gè)開源「無限時(shí)長(zhǎng)」電影生成模型炸場(chǎng)：昆侖萬維把視頻生成卷到新時(shí)代

angel ? 605瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： ACL 2024 | 讓純LLM實(shí)現(xiàn)類人的符號(hào)邏輯推理能力，開源框架SymbCoT來了

下一篇： ICML 2024 Oral｜外部引導(dǎo)的深度聚類新范式

社區(qū)精華內(nèi)容

目錄

<sub id="iioq6"><s id="iioq6"></s></sub>

<ruby id="iioq6"></ruby>