自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="jkqvv"></thead>

<s id="jkqvv"><li id="jkqvv"><menuitem id="jkqvv"></menuitem></li></s>

<legend id="jkqvv"><track id="jkqvv"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風精華

輕薄滴假象

發(fā)布于 2024-4-18 10:17

瀏覽

0收藏

自從 AI 讓人類實現(xiàn)音樂創(chuàng)作自由后，連吵架都變得有趣了起來。

前段時間，X 平臺知名 AI 博主 Aran Komatsuzaki 自己寫了一首歌，專門用來表達對另一位 AI 科學家 ——Gary Marcus 的不滿，還用當前大火的 Suno 把它生成了出來。要知道，過去，這些大佬們的口水戰(zhàn)主要就是發(fā)個帖子，然后你來我往地跟帖。這次，Aran Komatsuzaki 的做法可謂是玩出了新花樣，不知道是不是從「謝帝謝帝我要 diss 你」得到的靈感。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

和 Aran Komatsuzaki 一樣，國內外很多懂音樂、不懂音樂的人都在試玩 Suno 等 AI 音樂創(chuàng)作工具，生成了很多非常有意思的音樂作品。

不過，有很多網(wǎng)友反映，Suno 有時生成中文不太穩(wěn)定，會出現(xiàn)中文歌曲帶有英文感、生僻字唱錯等問題。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

B 站網(wǎng)友針對 Suno 生成的一首中文歌發(fā)表的評論。視頻地址：https://b23.tv/gVqTUOu

那么，有沒有一個 AI 音樂生成模型專門針對中文做過優(yōu)化呢？

昆侖萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模型。它生成的中文人聲發(fā)音清晰、正宗、無異響，沒有出現(xiàn)「百老匯式中文歌」等水土不服的情況。而且，它不僅針對普通話做了優(yōu)化，粵語、成都話、北京話等方言語種也照顧到了。

那么，和 Suno 比，天工 SkyMusic 表現(xiàn)如何呢？橫向測評的數(shù)據(jù)顯示，在人聲和 BGM 音質、人聲自然度、發(fā)音可懂度等幾個指標上，天工 SkyMusic 都更勝一籌，綜合性能超越 Suno V3，成為中國首個音樂 AIGC 的 SOTA 模型，也讓中國的自研大模型技術第一次在 AIGC 領域領跑全球。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

如此優(yōu)異的表現(xiàn)自然離不開強大的基座模型，即昆侖萬維在同一時間發(fā)布并開源的大模型「天工 3.0」。該模型擁有 4000 億參數(shù)，超越了 3140 億參數(shù)的 Grok-1，是全球最大的開源 MoE 大模型。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

在 MMBench 等多項權威多模態(tài)測評結果中，「天工 3.0」超越 GPT-4V，全球領先。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

在這個基座模型的加持下，天工 SkyMusic 對歌曲的理解更為深刻。它能夠通過歌詞控制情緒變化，并實現(xiàn)如顫音、歌劇、吟唱等多種歌唱技巧，使生成的音樂作品情感更加豐富且貼合情境。

《我的滑板鞋》,機器之心,56秒

那么，這個模型具體怎么用？技術路線是怎樣的？它背后的「天工 3.0」又有何創(chuàng)新之處？我們一個一個來看。

首個國產(chǎn)音樂 SOTA 模型的無限玩法

其實，用天工 SkyMusic 生成歌曲是非常簡單的：你只需要輸入歌名、歌詞，選擇參考曲目，它就能生成風格、唱腔與之類似的歌。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

如果你不想自己寫歌詞，也可以試試輸入框右下角的「AI 寫詞」功能。它可以從第一句開始寫，每次只生成一句，不滿意的句子可以及時刪掉，直至整首歌創(chuàng)作完成。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

當然，你也可以嘗試用「天工 3.0」來寫歌，比如這首《機器之心》就是我們用「天工 3.0」寫出來的：

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

接下來就是選擇參考歌曲，這也是天工 SkyMusic 的獨特之處，即能夠按照示例音源生成音樂。

在這一步，天工 SkyMusic 提供了很多參考曲目，你可以從中挑選，也可以選擇上傳歌曲文件。在這里，我們上傳了一首洛天依的歌曲，看看生成效果如何。

這種按照示例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在用戶作品展示區(qū)域，我們看到，光是《新造的人》（電影《周處除三害》插曲）就有古風搖滾、DJ 等五個版本。

在試用過程中我們還發(fā)現(xiàn)，其實，天工 SkyMusic 生成的音樂涵蓋了說唱、民謠、放克、古風、電子等多種曲風。下一步，團隊還計劃讓用戶根據(jù)哼出來的旋律生成歌曲，這將對專業(yè)人士有很大幫助。

目前，天工 SkyMusic 已全面開放，下載「天工」APP 就可以體驗。這是國內目前唯一公開可用的 AI 音樂生成大模型，它的出現(xiàn)填補了國內 AIGC 工具在這一領域的空白。

雖然這個模型還處于起步階段，但已經(jīng)讓很多人感受到了音樂創(chuàng)作的樂趣。大家用它去改造神曲、二創(chuàng)金曲、改寫古詩詞助力教育…… 開發(fā)出了各種音樂創(chuàng)作新方向。

自研類 Sora 架構，技術路線圖已公開

天工 SkyMusic 是一個端到端的音樂生成模型，因此我們用起來感覺非常簡單。但是，整個模型的開發(fā)卻沒有那么簡單。

首先從技術路線來說，天工 SkyMusic 選擇了大模型音樂音頻生成路線，這意味著它直接學習并生成音頻波形，而不是采用符號音樂生成路線（如 MIDI）來生成樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成，從而提供更直接、更高質量的音樂創(chuàng)作體驗。但是，這個方向也更難，需要高昂的算力和資金，因此做的人非常少。

而且，在這個方向中，下決心去攻克「人聲 Song」領域的人更少，大部分研究集中于無人聲的 BGM 領域，因為前者幾乎沒有任何開放的資料或開源模型可供參考。

頂著這些壓力，昆侖萬維做了無數(shù)次研發(fā)實驗，投入了大量算力，構建了包含 2000 萬首歌曲的數(shù)據(jù)集（人類有史以來最大的音樂數(shù)據(jù)集），終于探索出了一個效果好、可復現(xiàn)的方案。而且，他們還把這個方案的技術原理圖公開了。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

天工 SkyMusic 技術原理圖：Large-scale Transformer 負責譜曲，來學習 Music Patches 的上下文依賴關系，同時完成音樂可控性；Diffusion Transformer 負責演唱，通過 LDM 讓 Music Patches 被還原成高質量音頻。這套模型架構在處理視頻、音頻和音樂時效果極佳。

從圖中可以看出，天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑，不過研發(fā)時間是在 Sora 問世之前，因此不可避免地要踩很多坑。

對于產(chǎn)業(yè)來說，這張原理圖非常寶貴，因為市面上沒有任何可用的 AI 音樂大模型企業(yè)公開自己的技術路徑，包括 SUNO，昆侖萬維是唯一一個。

強大的背后基座 —— 天工 3.0

天工 SkyMusic 的成功離不開它背后的基座模型 —— 天工 3.0。它最核心的升級體現(xiàn)在「獨立思考」方面。這在該模型新增的多輪搜索與綜合工具調用、圖表繪制、研究模式、增強模式等功能中均有所體現(xiàn)。

給定一個數(shù)據(jù)統(tǒng)計任務，它不僅能夠幫你把數(shù)據(jù)都收集齊全，還能自己寫代碼、調用各種函數(shù)來繪制圖表。各個中間步驟被拆解得條理清晰，后續(xù)的執(zhí)行也基本不需要人去干預，甚至連「避免標簽重疊」、「文本居中顯示」這類細節(jié)都被考慮到了。這就是「獨立思考」能力的體現(xiàn)。

這種「獨立思考」能力的提升離不開「天工 3.0」在語義理解、邏輯推理等方面的優(yōu)化。與上一代「天工 2.0」MoE 大模型相比，「天工 3.0」在模型語義理解、邏輯推理以及通用性、泛化性、不確定性知識、學習能力等領域擁有驚人的性能提升，其模型技術知識能力提升超過 20%，數(shù)學 / 推理 / 代碼 / 文創(chuàng)能力提升超過 30%。

以搜索任務為例。在「搜索增強」模式中，給出一個簡單的搜索請求，「天工 3.0」不僅會給出一段概括性的回答，還會把一些重要信息提煉成圖表。

在「研究」模式中，它還會提供一個「深入研究」模塊，去展開討論搜索 Query 中未提到的延伸問題，讓你有一種在讀論文的感覺。最后，它還把這些信息整理成了思維導圖，方便迅速查閱。

在語義理解、邏輯推理能力均大幅提升的基礎上，「天工 3.0」還針對模型獨立規(guī)劃、調用、組合外部工具及信息的能力進行了專項訓練。通過獨立規(guī)劃以及調用、組合外部工具及信息，它可以幫你精準高效地完成產(chǎn)業(yè)研究、產(chǎn)品橫評、信息分析等各類復雜需求。

這種獨立思考的能力對于人工智能大模型至關重要。首先，這種能力使得 AI 能夠在缺乏直接指令的情況下進行自主推理，提高其處理復雜問題的能力；其次，獨立思考的 AI 模型能夠進行創(chuàng)新性的解決方案設計，滿足個性化和場景化的需求；最后，這種能力促使 AI 在遇到新奇或變化的環(huán)境時，通過自我學習和適應來持續(xù)優(yōu)化其性能。這三個方面的累積作用，極大地推動了 AI 技術的應用廣度和深度，使其在多種實際應用中表現(xiàn)出更高的智能和效率。

「天工 3.0」包含了 AI 音樂、AI 搜索、AI 寫作、AI 繪畫等多項大模型能力，談到 4000 億參數(shù) MoE 大模型「天工 3.0」與天工 SkyMusic 背后的關系時，昆侖萬維董事長兼 CEO 方漢解釋說，「大家知道 AI 底座大模型是 AIGC 堅實的基礎，尤其是文本大模型。文生圖、文生音樂和文生視頻（這些 AIGC 模型）的能力基礎都是文本大模型。如果文本模型能力不夠強，AIGC 能力就會受到很大限制?！?/p>

這種作用在「天工 3.0」的 AI 繪畫等能力上也有所體現(xiàn)?！柑旃?3.0」新增了圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能，實測效果優(yōu)秀。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

「我們的 4000 億大模型是給我們所有的面向 C 端的產(chǎn)品提供支撐的底座大模型。我的底座大模型做得越好，我的音樂、游戲、視頻以及動漫產(chǎn)品就會做得更好。所以我們做底座大模型是有非常強的動力的。」方漢說到。

實現(xiàn)通用人工智能，

讓每個人更好地塑造和表達自我

在關于 AGI 的愿景中，我們經(jīng)常聽一些AI企業(yè)高管提到，他們想要用 AI 工具來提高人類社會的生產(chǎn)力和效率。因此，他們大多專注于模型智力的擴展和增強。但在方漢看來，這其中忽略了一個重要問題，即如何用 AI 幫助人們更好地理解和表達情感。

在天工 SkyMusic 的音樂作品區(qū)，我們看到了很多這樣的例子：學生即將畢業(yè)的離愁、青年愛而不得的神傷、中年人養(yǎng)家糊口的疲憊都通過歌聲表達了出來。這是真正的「以歌明志」。

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

首個國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費用，不限曲風-AI.x社區(qū)

而對于方言的支持則更像一種文化平權，這是方漢非常看重的一點。未來，他們希望把更多語種加進去，讓每一個小語種人群都可以輕松創(chuàng)作出屬于自己的文化內容。

「在 AIGC 領域，我們宏偉的目標是希望全世界每一個人都能平等地去創(chuàng)作內容。我們想要降低所有人的創(chuàng)作門檻，讓大家都能更好地塑造和表達自我。」方漢表示。

最近，這些內容還被寫入了昆侖萬維的最新使命中。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/SrEAPjXBEXwdN1VYQjrL0g??

標簽

贊

收藏

回復

舉報

回復

相關推薦

首個基于Mamba的MLLM來了！模型權重、訓練代碼等已全部開源

輕薄滴假象 ? 3259瀏覽 ? 0回復
Vidu官方論文來了！媲美Sora的國產(chǎn)視頻生成器背后技術探秘

angel ? 8636瀏覽 ? 0回復
國內首個中文原生DiT架構SOTA大模型全面開源！———Hunyuan-DiT技術報告詳解

angel ? 4797瀏覽 ? 0回復
現(xiàn)在，所有人都能免費用GPT-4o了！

duhorse ? 4353瀏覽 ? 0回復
Dream Machine官宣免費用，電影級大片全網(wǎng)玩瘋

duhorse ? 2770瀏覽 ? 0回復
Midjourney官宣網(wǎng)頁版免費用！前谷歌大佬祭出AI生圖2.0，全網(wǎng)驚艷實測

duhorse ? 1943瀏覽 ? 0回復
全球首個帶背景音樂，文生1080超高清視頻模型

Aceryt ? 2407瀏覽 ? 0回復
社區(qū)專屬福利，100%中獎：免費試用、快速上云

AI.x社區(qū)活動小助手 ? 4965瀏覽 ? 0回復
Kimi官宣，國內首個對標OpenAI的數(shù)學模型來了

風云2002_1 ? 1789瀏覽 ? 0回復
DeepSeek首發(fā)國產(chǎn)類o1模型！人人可以免費使用！

51CTO技術棧 ? 3569瀏覽 ? 0回復
Sonauto免費AI音樂編輯器：小白也能快速上手的音樂創(chuàng)作平臺！

穿越時空111 ? 5513瀏覽 ? 0回復
實測來了！Kimi發(fā)布k1視覺思考模型，實力顛覆K12教育賽道，涌現(xiàn)能力強得可怕，免費可用！網(wǎng)友：國產(chǎn)之光！

51CTO技術棧 ? 2911瀏覽 ? 0回復
Voyage AI 推出 voyage-code-3：專為代碼檢索而優(yōu)化的全新下一代嵌入模型

Halo咯咯 ? 3200瀏覽 ? 0回復
滿血DeepSeek-R1免費用！附帶數(shù)據(jù)蒸餾的一些想法！

NLP工作站 ? 2558瀏覽 ? 0回復
又一個國產(chǎn)AI出來了！

數(shù)師兄 ? 3558瀏覽 ? 0回復
中國產(chǎn)品再次引爆全球，首個通用AI代理跑分超OpenA1!最全梳理來了!

51CTO技術棧 ? 1742瀏覽 ? 0回復
零階優(yōu)化的擴散模型個性化方法；合成圖像檢測；舞蹈動作音樂同步生成

AI研究前瞻 ? 1130瀏覽 ? 0回復
音樂界的DeepSeek來了！全球首個音樂推理大模型Mureka O1上線，音樂領域要迎來大變革了？

算家計算 ? 1218瀏覽 ? 0回復
國產(chǎn)AI開啟長鏡頭革命！昆侖萬維SkyReels-V2開源，全球首個無限時長AI視頻模型來了

算家計算 ? 496瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：無向圖最小割問題取得新突破，谷歌研究獲SODA 2024最佳論文獎

下一篇：誰才是最強的？清華給海內外知名大模型做了場綜合能力評測

社區(qū)精華內容

目錄

<style id="7dy1d"></style>