自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="uccga"><i id="uccga"></i></blockquote>

<tfoot id="uccga"><source id="uccga"></source></tfoot>

<pre id="uccga"><source id="uccga"></source></pre>

<sub id="uccga"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law

輕薄滴假象

發(fā)布于 2024-8-29 13:29

瀏覽

0收藏

最近，又一款國產(chǎn) AI 神器吸引了眾網(wǎng)友和圈內研究人員的關注！它就是全新的圖像和視頻生成控制工具 —— ControlNeXt，由思謀科技創(chuàng)始人、港科大講座教授賈佳亞團隊開發(fā)。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

X 平臺上知名 AI 博主「AK」推薦

從命名來看，ControlNeXt 「致敬」了斯坦福大學研究團隊在 2023 年 2 月提出的 ControlNet，通過引入一些額外的控制信號，讓預訓練的圖像擴散模型（如 Stable Diffusion）根據(jù)預設的條件調整和優(yōu)化，實現(xiàn)線稿生成全彩圖，還能做語義分割、邊緣檢測、人體姿勢識別。

如果說 ControlNet 開啟了大模型多樣化玩法的先河，那么 ControlNeXt 在生成速度、精準控制和用戶友好性等方面迎來全方位優(yōu)化。重要的是，ControlNeXt 只用不到 ControlNet 10% 的訓練參數(shù)，可以稱得上是下一代「小鋼炮版」ControlNet 了。

截至目前，ControlNeXt 兼容了多款 Stable Diffusion 家族圖像生成模型（包括 SD1.5、SDXL、SD3），以及視頻生成模型 SVD。并且，ControlNeXt 對這些模型都做到即插即用，無需額外配置便能輕松玩轉各種控制指令，便捷性拉滿。該項目的 GitHub 星標已達 1.1k。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

項目地址：https://github.com/dvlab-research/ControlNeXt

實戰(zhàn)效果究竟如何？下面一波 ControlNeXt 的 Demo 示例會給我們答案。

ControlNeXt 支持 Canny（邊緣）條件控制，在 SDXL 中，通過提取下圖（最左）輸入圖像的 Canny 邊緣，輸出不同風格的圖像。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

當然，更復雜的畫面輪廓和控制線條也能輕松搞定。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

ControlNeXt 還支持掩模（mask）和景深（depth）條件控制，下圖分別為 SD 1.5 中掩模與景深可控生成效果，很有一筆成畫的味道。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

同樣在 SD 1.5 中，ControlNeXt 支持姿勢（pose）條件控制，并且無需訓練即可無縫集成各種 LoRA 權重。配合使用人體姿勢控制與 LoRA，在保持動作相同的前提下，多樣風格的人物呼之欲出，比如戰(zhàn)士（Warrior）、原神（Genshin）、國畫（Chinese Painting）和動畫（Animation）。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

使用 ControlNeXt 后，SD3 支持了超分辨率（SR），讓模糊圖像「變身」超高清畫質。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

在視頻生成模型 SVD 中，ControlNeXt 實現(xiàn)了對人體姿勢動作的整體控制，尤其連手指動作的模仿都非常精準。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

不夸張的說，在視覺條件生成這塊，ControlNeXt 成為了更全能的「選手」。它的亮眼視效折服了網(wǎng)友，甚至有人認為「ControlNeXt 是游戲改變者，在可控圖像和視頻生成方面表現(xiàn)出色，可以想象未來社區(qū)會拿它做更多二創(chuàng)工作?！?/p>

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

而 ControlNeXt 體驗全方位提升的背后，離不開賈佳亞團隊在輕量級條件控制模塊設計、控制注入位置和方式的選擇、交叉歸一化技術的使用等多個方面的獨到思路。

正是有了這些創(chuàng)新，才帶來了 ControlNeXt 訓練參數(shù)、計算開銷和內存占用的全面「瘦身」，以及模型訓練收斂和推理層面的「提速」。

架構創(chuàng)新

讓 ControlNeXt 更輕、更快、更強

在剖析 ControlNeXt 有哪些創(chuàng)新之前，我們先來了解一下當前可控生成方法的不足，這樣更能看到賈佳亞團隊在架構上「有的放矢」的優(yōu)化。

以 ControlNet、T2I-Adapter 等典型方法為例，它們通過添加并行分支或適配器來處理和注入額外條件。接下來與去噪主分支并行處理輔助控制以提取細粒度特征，利用零卷積和交叉注意力來整合條件控制并指導去噪過程。

這些操作往往會帶來計算成本和訓練開銷的顯著增加，甚至導致 GPU 內存增加一倍，還需要引入大量新的訓練參數(shù)。尤其針對視頻生成模型，需要重復處理每個單獨幀，挑戰(zhàn)更大。

賈佳亞團隊首先要做的便是架構層面的剪枝。他們認為，預訓練的大型生成模型已經(jīng)足夠強大，無需引入大量額外參數(shù)來實現(xiàn)控制生成能力。ControlNeXt 移除 ControlNet 中龐大的控制分支（control branch），改而使用由多個 ResNet 塊組成的輕量級卷積模塊。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

ControlNeXt 整體訓練流程

該模塊的規(guī)模比預訓練模型小得多，用于從控制條件中提取景深、人體姿勢骨骼、邊緣圖等特征表示，并與去噪特征對齊。過程中更多依賴模型本身來處理控制信號，在訓練期間凍結大部分預訓練模塊，并有選擇性地優(yōu)化模型的一小部分可學習參數(shù)，最大程度降低訓練過程中可能出現(xiàn)的遺忘風險。

從結果來看，在適配 SD、SDXL、SVD 等預訓練模型時，ControlNeXt 的訓練參數(shù)量通常不及 ControlNet 的 10%，計算開銷和內存占用大大降低。ControlNeXt 在 SD 1.5、SDXL 和 SVD 中的可學習參數(shù)量分別為 3000 萬、1.08 億和 5500 萬，相較于 ControlNet 有了數(shù)量級減少（3.61 億、12.51 億和 6.82 億）。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

同時輕量級模塊的引入使得 ControlNeXt 在推理階段不會出現(xiàn)明顯的延遲，因而生成速度會更快。如下圖所示，在 SD 1.5、SDXL 和 SVD 模型中，ControlNeXt 的推理時間更短，相較于 ControlNet 更具效率優(yōu)勢。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

另一方面，ControlNeXt 在控制條件的注入層面做了創(chuàng)新。他們觀察到，在大多數(shù)可控生成任務中，條件控制的形式往往很簡單或與去噪特征保持高度一致，因而沒有必要在去噪網(wǎng)絡的每一層重復注入控制信息。

賈佳亞團隊選擇在網(wǎng)絡中間層聚合并對齊條件控制特征與去噪特征，這里用到了關鍵的交叉歸一化（Cross Normalization）技術。該技術讓 ControlNeXt 不用像傳統(tǒng)方法那樣利用零初始化來引入額外學習參數(shù)，還解決了初始化階段的訓練不穩(wěn)定性和收斂速度慢等問題。

得益于交叉歸一化，ControlNeXt 的訓練速度得到提升，并在訓練初期也能確保生成控制的有效性，降低對網(wǎng)絡權重初始化的敏感度。從下圖可以看到，ControlNeXt 實現(xiàn)了更快的訓練收斂和數(shù)據(jù)擬合，只需要 400 步左右便開始收斂。相比之下，ControlNet 則需要走完十倍甚至幾十倍的訓練步數(shù)。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

可以說，ControlNeXt 很好解決了以往可控生成方法存在的較高計算成本、GPU 內存占用和推理時延，用更少參數(shù)、更低成本實現(xiàn)了與以往方法相當甚至更好的控制效果和泛化性能。

而跳出此次研究本身，ControlNeXt 也是過去兩年賈佳亞團隊努力方向的寫照，他們致力于拿少參數(shù)、少算力來深挖大模型潛能。這顯然與當前大模型領域的「摩爾定律」Scaling Law 走的是不同的路，后者通常憑借大參數(shù)、大數(shù)據(jù)和大算力來提升模型性能。

不盲跟 Scaling Law

走出不一樣的大模型之路

當前，Scaling Law 仍然在發(fā)揮著作用，通過「加碼」參數(shù)、數(shù)據(jù)和算力來增效是大多數(shù)圈內玩家的主流做法，OpenAI 的 GPT 系列模型是其中的典型代表，對大模型領域產(chǎn)生了深遠的影響。

隨之而來的是更高的訓練成本、更多的數(shù)據(jù)和計算資源，這些不會對財力雄厚的大廠們造成太多壓力。但對那些預算相對不足的科研機構和個人開發(fā)者而言，挑戰(zhàn)很大，尤其是當下 GPU 顯卡還越來越貴。

其實，拼 Scaling Law 并不是模型提效的唯一途徑，從長期看也有局限性。很多業(yè)內人士認為，隨著時間推移，當模型參數(shù)規(guī)模達到一定程度時，性能提升速度可能會放緩。同時高質量訓練數(shù)據(jù)的持續(xù)獲取也是亟需解決的一大難題。

今年 6 月，普林斯頓大學計算機科學系教授 Arvind Narayanan 等二人在他們的文章《AI scaling myths》中表示 AI 行業(yè)正經(jīng)歷模型規(guī)模下行的壓力，過去一年大部分開發(fā)工作落在了小模型上，比如 Anthropic 的 Claude 3.5 Sonnet、谷歌的 Gemini 1.5 Pro，甚至 OpenAI 也推出了 GPT-4o mini，參數(shù)規(guī)模雖小、性能同樣強大且更便宜。

賈佳亞團隊秉持類似理念，沒有選擇無限堆數(shù)據(jù)、參數(shù)和算力的傳統(tǒng)做法。2024 世界機器人大會上，賈佳亞在接受采訪時談到了 Scaling Law，他表示在自己團隊的研究中不會對它進行明確的定義，使用 1 萬張卡訓練出來的模型或系統(tǒng)不一定就比 5000 張卡訓練出的更好。

賈佳亞認為應該更多地在模型算法層面進行創(chuàng)新，在工程層面最大程度地提高 GPU 顯卡的利用率、降低功耗，力求用更少的計算量達到同樣的效果。

同時關注偏垂類的行業(yè)和場景，通過持續(xù)的技術迭代，把算力等資源投入集中在一點，將某個領域的模型做得更精、更專，而不像其他玩家那樣耗巨資開發(fā)超大規(guī)模通用大模型。

小算力也能出大成果

包括 ControlNeXt 在內，不盲從 Scaling Law 的思路已經(jīng)在賈佳亞團隊過去兩年的系列成果中得到了充分驗證，覆蓋了多模態(tài)大模型、超長文本擴展技術和視覺語言模型等多個研究方向。

2023 年 8 月，賈佳亞團隊提出 LISA，解鎖多模態(tài)大模型「推理分割」能力。LISA 只需要在 8 張 24GB 顯存的 3090 顯卡上進行 10000 次迭代訓練，即可完成 70 億參數(shù)模型的訓練。

結果表明，LISA 在訓練中僅使用不包含復雜推理的分割數(shù)據(jù)，就能在推理分割任務上展現(xiàn)出優(yōu)異的零樣本泛化能力，并在使用額外的推理分割數(shù)據(jù)微調后讓分割效果更上一個臺階。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

LISA 效果展示

LISA 的成功只是少算力探索的牛刀小試，賈佳亞團隊在 2023 年 10 月提出了超長文本擴展技術 LongLoRA，在單臺 8x A100 設備上，LongLoRA 將 LLaMA2 7B 從 4k 上下文擴展到 100k， LLaMA2 70B 擴展到 32k。LongLoRA 還被接收為 ICLR 2024 Oral。

在喂給 LongLoRA 加持的 Llama2-13B 超長篇幅的科幻巨著《三體》后，它可以為你詳細總結「史強對整個人類社會的重要性」。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

該團隊還于 2023 年 12 月提出 LLaMA-VID，旨在解決視覺語言模型在處理長視頻時因視覺 token 過多導致的計算負擔，通過將視頻中每一幀圖像的 token 數(shù)壓縮到了 2 個，實現(xiàn)了單圖之外短視頻甚至 3 小時時長電影的輸入處理。

LLaMA-VID 被 ECCV 2024 接收。此外，賈佳亞團隊還提供了 LLaMA-VID 試用版本，由單個 3090 GPU 實現(xiàn)，支持 30 分鐘的視頻處理。感興趣的小伙伴可以嘗試一下。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

今年 4 月，賈佳亞團隊又提出了 Mini-Gemini，從高清圖像精確理解、高質量數(shù)據(jù)集、結合圖像推理與生成三個層面挖掘視覺語言模型的潛力。

為了增強視覺 token，Mini-Gemini 利用額外的視覺編碼器來做高分辨率優(yōu)化。同時僅使用 2-3M 數(shù)據(jù)，便實現(xiàn)了對圖像理解、推理和生成的統(tǒng)一流程。實驗結果表明，Mini-Gemini 在各種 Zero-shot 的榜單上毫不遜色各大廠用大量數(shù)據(jù)堆出來的模型。

視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰(zhàn)Scaling Law-AI.x社區(qū)

在延續(xù)谷歌 Gemini 識別圖片內容并給出建議的能力基礎上，Mini-Gemini 還能生成一只對應的毛絨小熊

對于開源社區(qū)最大的好消息是，Mini-Gemini 的代碼、模型和數(shù)據(jù)全部開源，讓開發(fā)者們體驗「GPT-4 + Dall-E 3」的強大組合。賈佳亞透露，Mini-Gemini 第二個版本即將到來，屆時將接入語音模塊。

得益于開源以及算力需求相對低的特性，賈佳亞團隊的項目在 GitHub 上受到了開發(fā)者的廣泛喜愛，LISA、LongLoRA 和 Mini-Gemini 的星標數(shù)分別達到了 1.7k、2.6k 和 3.1k。

從 LISA 到最新提出的 ControlNeXt，賈佳亞團隊走穩(wěn)了少參數(shù)、小算力突破這條路。由于計算資源投入不大，這些模型也更容易實現(xiàn)商業(yè)化應用落地。

可以預見，未來在持續(xù)技術創(chuàng)新的驅動下，我們將看到更多「小而彌堅」的大模型成果出現(xiàn)。

本文轉自機器之心，作者：關注生成式AI的

原文鏈接:??https://mp.weixin.qq.com/s/IBqOmZbSCcdRvyFRdcXMLQ??

標簽

已于2024-8-29 13:32:35修改

贊

收藏

回復

舉報

回復

相關推薦

10倍速度突破質量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3163瀏覽 ? 0回復
這家世界模型公司發(fā)布中國版Sora級視頻生成大模型，走向世界模型打造新一代數(shù)據(jù)引擎

輕薄滴假象 ? 2952瀏覽 ? 0回復
YOLOv9：深度解析新一代實時目標檢測王者

sword_hero ? 5561瀏覽 ? 0回復
史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍

輕薄滴假象 ? 2949瀏覽 ? 0回復
Excp & FastPersist：數(shù)十倍 LLM Checkpoint 保存加速和壓縮

amei2000go ? 5197瀏覽 ? 0回復
微軟重磅開源 GraphRAG：新一代 RAG 技術來了！

玄姐聊AGI ? 5449瀏覽 ? 0回復
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 2759瀏覽 ? 0回復
賈佳亞團隊重磅開源ControlNeXt：超強圖像視頻生成方法

angel ? 3063瀏覽 ? 0回復
蜘蛛俠妖嬈起舞，下一代ControlNet來了！賈佳亞團隊推出，即插即用，還能控制視頻生成

Crystalcxt ? 1875瀏覽 ? 0回復
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2305瀏覽 ? 0回復
生成速度提升50倍，Scaling Law 再創(chuàng)奇跡：兩步采樣就出圖，實時視頻時代或將開啟！

51CTO技術棧 ? 1802瀏覽 ? 0回復
新Scaling Law浮出水面！OpenAI內部員工爆料下一代模型Orion性能堪憂

51CTO技術棧 ? 1940瀏覽 ? 0回復
LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案

AIPaperDaily ? 1997瀏覽 ? 0回復
圖像生成與各種編輯任務大一統(tǒng)！賈佳亞團隊提出DreamOmni：訓練收斂速度快且性能強大

angel ? 1874瀏覽 ? 0回復
為什么多模態(tài)AI是下一個風口？深度解讀新一代LLM

芝士AI吃魚 ? 4248瀏覽 ? 0回復
賈佳亞團隊新作MagicMirror：生成身份一致且高質量個性化視頻，效果驚艷！

angel ? 2165瀏覽 ? 0回復
直擊痛點，新一代身份保持視頻生成解決方案！阿里等提出FantasyID:多視角與3D融合！

angel ? 1600瀏覽 ? 0回復
別搞 GraphRAG 了，擁抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI ? 2095瀏覽 ? 0回復
新一代視頻修復技術FloED性能超越所有擴散模型! | 港科大&達摩院

angel ? 800瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：視頻生成要有自己的系統(tǒng)！尤洋團隊歷時半年開源VideoSys

下一篇： ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略

社區(qū)精華內容

目錄

^{<sub id="e6bgs"></sub>}

<legend id="e6bgs"><track id="e6bgs"></track></legend>