自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="yom6x"></thead>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora

輕薄滴假象

發(fā)布于 2024-4-29 12:56

瀏覽

0收藏

在 4 月 27 日召開的中關(guān)村論壇通用人工智能平行論壇上，人大系初創(chuàng)公司智子引擎隆重發(fā)布全新的多模態(tài)大模型 Awaker 1.0，向 AGI 邁出至關(guān)重要的一步。

相對于智子引擎前代的 ChatImg 序列模型，Awaker 1.0 采用全新的 MOE 架構(gòu)并具備自主更新能力，是業(yè)界首個(gè)實(shí)現(xiàn) “真正” 自主更新的多模態(tài)大模型。

在視覺生成方面，Awaker 1.0 采用完全自研的視頻生成底座 VDT，在寫真視頻生成上取得好于 Sora 的效果，打破大模型 “最后一公里” 落地難的困境。

Awaker 1.0 是一個(gè)將視覺理解與視覺生成進(jìn)行超級融合的多模態(tài)大模型。在理解側(cè)，Awaker 1.0 與數(shù)字世界和現(xiàn)實(shí)世界進(jìn)行交互，在執(zhí)行任務(wù)的過程中將場景行為數(shù)據(jù)反哺給模型，以實(shí)現(xiàn)持續(xù)更新與訓(xùn)練；在生成側(cè)，Awaker 1.0 可以生成高質(zhì)量的多模態(tài)內(nèi)容，對現(xiàn)實(shí)世界進(jìn)行模擬，為理解側(cè)模型提供更多的訓(xùn)練數(shù)據(jù)。

尤其重要的是，因?yàn)榫邆?“真正” 的自主更新能力，Awaker 1.0 適用于更廣泛的行業(yè)場景，能夠解決更復(fù)雜的實(shí)際任務(wù)，比如 AI Agent、具身智能、綜合治理、安防巡檢等。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

Awaker 的 MOE 基座模型

在理解側(cè)，Awaker 1.0 的基座模型主要解決了多模態(tài)多任務(wù)預(yù)訓(xùn)練存在嚴(yán)重沖突的問題。受益于精心設(shè)計(jì)的多任務(wù) MOE 架構(gòu)，Awaker 1.0 的基座模型既能繼承智子引擎前代多模態(tài)大模型 ChatImg 的基礎(chǔ)能力，還能學(xué)習(xí)各個(gè)多模態(tài)任務(wù)所需的獨(dú)特能力。相對于前代多模態(tài)大模型 ChatImg，Awaker 1.0 的基座模型能力在多個(gè)任務(wù)上都有了大幅提升。

鑒于主流的多模態(tài)評測榜單存在評測數(shù)據(jù)泄露的問題，我們采取嚴(yán)格的標(biāo)準(zhǔn)構(gòu)建自有的評測集，其中大部分的測試圖片來自個(gè)人的手機(jī)相冊。在該多模態(tài)評測集上，我們對 Awaker 1.0 和國內(nèi)外最先進(jìn)的三個(gè)多模態(tài)大模型進(jìn)行公平的人工評測，詳細(xì)的評測結(jié)果如下表所示。注意到 GPT-4V 和 Intern-VL 并不直接支持檢測任務(wù)，它們的檢測結(jié)果是通過要求模型使用語言描述物體方位得到的。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

我們發(fā)現(xiàn)，Awaker 1.0 的基座模型在視覺問答和業(yè)務(wù)應(yīng)用任務(wù)上超過了 GPT-4V、Qwen-VL-Max 和 Intern-VL，同時(shí)它在描述、推理和檢測任務(wù)上也達(dá)到了次好的效果?？傮w而言，Awaker 1.0 的平均得分超過國內(nèi)外最先進(jìn)的三個(gè)模型，驗(yàn)證了多任務(wù) MOE 架構(gòu)的有效性。下面是幾個(gè)具體的對比分析例子。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

從這些對比例子可以看到，在計(jì)數(shù)和 OCR 問題上，Awaker 1.0 能正確地給出答案，而其它三個(gè)模型均回答錯(cuò)誤（或部分錯(cuò)誤）。在詳細(xì)描述任務(wù)上，Qwen-VL-Max 比較容易出現(xiàn)幻覺，Intern-VL 能夠準(zhǔn)確地描述圖片的內(nèi)容但在某些細(xì)節(jié)上不夠準(zhǔn)確和具體。GPT-4V 和 Awaker 1.0 不但能夠詳細(xì)地描述圖片的內(nèi)容，而且能夠準(zhǔn)確地識(shí)別出圖片中的細(xì)節(jié)，如圖中展示的可口可樂。

Awaker + 具身智能：邁向 AGI

多模態(tài)大模型與具身智能的結(jié)合是非常自然的，因?yàn)槎嗄B(tài)大模型所具有的視覺理解能力可以天然與具身智能的攝像頭進(jìn)行結(jié)合。在人工智能領(lǐng)域，“多模態(tài)大模型 + 具身智能” 甚至被認(rèn)為是實(shí)現(xiàn)通用人工智能（AGI）的可行路徑。

一方面，人們期望具身智能擁有適應(yīng)性，即智能體能夠通過持續(xù)學(xué)習(xí)來適應(yīng)不斷變化的應(yīng)用環(huán)境，既能在已知多模態(tài)任務(wù)上越做越好，也能快速適應(yīng)未知的多模態(tài)任務(wù)。

另一方面，人們還期望具身智能具有真正的創(chuàng)造性，希望它通過對環(huán)境的自主探索，能夠發(fā)現(xiàn)新的策略和解決方案，并探索人工智能的能力邊界。通過將多模態(tài)大模型用作具身智能的 “大腦”，我們有可能大幅地提升具身智能的適應(yīng)性和創(chuàng)造性，從而最終接近 AGI 的門檻（甚至實(shí)現(xiàn) AGI）。

但是，現(xiàn)有的多模態(tài)大模型都存在兩個(gè)明顯的問題：一是模型的迭代更新周期長，需要大量的人力和財(cái)力投入；二是模型的訓(xùn)練數(shù)據(jù)都源自現(xiàn)有的數(shù)據(jù)，模型不能持續(xù)獲得大量的新知識(shí)。雖然通過 RAG 和長上下文的方式也可以注入持續(xù)出現(xiàn)的新知識(shí)，但是多模態(tài)大模型本身并沒有學(xué)習(xí)到這些新知識(shí)，同時(shí)這兩種補(bǔ)救方式還會(huì)帶來額外的問題。

總之，目前的多模態(tài)大模型在實(shí)際應(yīng)用場景中均不具備很強(qiáng)的適應(yīng)性，更不具備創(chuàng)造性，導(dǎo)致在行業(yè)落地時(shí)總是出現(xiàn)各種各樣的困難。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

智子引擎此次發(fā)布的 Awaker 1.0，是世界上首個(gè)具有自主更新機(jī)制的多模態(tài)大模型，可以用作具身智能的 “大腦”。Awaker 1.0 的自主更新機(jī)制，包含三大關(guān)鍵技術(shù)：數(shù)據(jù)主動(dòng)生成、模型反思評估、模型連續(xù)更新。

區(qū)別于所有其它多模態(tài)大模型，Awaker 1.0 是 “活” 的，它的參數(shù)可以實(shí)時(shí)持續(xù)地更新。

從上方的框架圖中可以看出，Awaker 1.0 能夠與各種智能設(shè)備結(jié)合，通過智能設(shè)備觀察世界，產(chǎn)生動(dòng)作意圖，并自動(dòng)構(gòu)建指令控制智能設(shè)備完成各種動(dòng)作。智能設(shè)備在完成各種動(dòng)作后會(huì)自動(dòng)產(chǎn)生各種反饋，Awaker 1.0 能夠從這些動(dòng)作和反饋中獲取有效的訓(xùn)練數(shù)據(jù)進(jìn)行持續(xù)的自我更新，不斷強(qiáng)化模型的各種能力。

以新知識(shí)注入為例，Awaker 1.0 能夠不斷地在互聯(lián)網(wǎng)上學(xué)習(xí)最新的新聞信息，并結(jié)合新學(xué)習(xí)到的新聞信息回答各種復(fù)雜問題。不同于 RAG 和長上下文的傳統(tǒng)方式，Awaker 1.0 能真正學(xué)到新知識(shí)并 “記憶” 在模型的參數(shù)上。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

從上述例子可以看到，在連續(xù)三天的自我更新中，Awaker 1.0 每天都能學(xué)習(xí)當(dāng)天的新聞信息，并在回答問題時(shí)準(zhǔn)確地說出對應(yīng)信息。同時(shí)，Awaker 1.0 在連續(xù)學(xué)習(xí)的過程中并不會(huì)遺忘學(xué)過的知識(shí)，例如智界 S7 的知識(shí)在 2 天后仍然被 Awaker 1.0 記住或理解。

Awaker 1.0 還能夠與各種智能設(shè)備結(jié)合，實(shí)現(xiàn)云邊協(xié)同。Awaker 1.0 作為 “大腦” 部署在云端，控制各種邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)。邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)時(shí)獲得的反饋又會(huì)源源不斷地傳回給 Awaker 1.0，讓它持續(xù)地獲得訓(xùn)練數(shù)據(jù)，不斷進(jìn)行自我更新。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

上述云邊協(xié)同的技術(shù)路線已經(jīng)應(yīng)用在電網(wǎng)智能巡檢、智慧城市等應(yīng)用場景中，取得了遠(yuǎn)遠(yuǎn)好于傳統(tǒng)小模型的識(shí)別效果，并獲得了行業(yè)客戶的高度認(rèn)可。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

現(xiàn)實(shí)世界的模擬器：VDT

Awaker 1.0 的生成側(cè)，是智子引擎自主研發(fā)的類 Sora 視頻生成底座 VDT，可以用作現(xiàn)實(shí)世界的模擬器。VDT 的研究成果于 2023 年 5 月發(fā)布在 arXiv 網(wǎng)站，比 OpenAI 發(fā)布 Sora 提前 10 個(gè)月。VDT 的學(xué)術(shù)論文已經(jīng)被國際頂級人工智能會(huì)議 ICLR 2024 接收。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

視頻生成底座 VDT 的創(chuàng)新之處，主要包括以下幾個(gè)方面：

將 Transformer 技術(shù)應(yīng)用于基于擴(kuò)散的視頻生成，展現(xiàn)了 Transformer 在視頻生成領(lǐng)域的巨大潛力。VDT 的優(yōu)勢在于其出色的時(shí)間依賴性捕獲能力，能夠生成時(shí)間上連貫的視頻幀，包括模擬三維對象隨時(shí)間的物理動(dòng)態(tài)。
提出統(tǒng)一的時(shí)空掩碼建模機(jī)制，使 VDT 能夠處理多種視頻生成任務(wù)，實(shí)現(xiàn)了該技術(shù)的廣泛應(yīng)用。VDT 靈活的條件信息處理方式，如簡單的 token 空間拼接，有效地統(tǒng)一了不同長度和模態(tài)的信息。同時(shí)，通過與時(shí)空掩碼建模機(jī)制結(jié)合，VDT 成為了一個(gè)通用的視頻擴(kuò)散工具，在不修改模型結(jié)構(gòu)的情況下可以應(yīng)用于無條件生成、視頻后續(xù)幀預(yù)測、插幀、圖生視頻、視頻畫面補(bǔ)全等多種視頻生成任務(wù)。

我們重點(diǎn)探索了 VDT 對簡單物理規(guī)律的模擬，在 Physion 數(shù)據(jù)集上對 VDT 進(jìn)行訓(xùn)練。在下面的示例中，我們發(fā)現(xiàn) VDT 成功模擬了物理過程，如小球沿拋物線軌跡運(yùn)動(dòng)和小球在平面上滾動(dòng)并與其他物體碰撞等。同時(shí)也能從第 2 行第 2 個(gè)例子中看出 VDT 捕捉到了球的速度和動(dòng)量規(guī)律，因?yàn)樾∏蜃罱K由于沖擊力不夠而沒有撞倒柱子。這證明了 Transformer 架構(gòu)可以學(xué)習(xí)到一定的物理規(guī)律。

人大系多模態(tài)模型邁向AGI：首次實(shí)現(xiàn)自主更新，寫真視頻生成力壓Sora-AI.x社區(qū)

我們還在寫真視頻生成任務(wù)上進(jìn)行了深度探索。該任務(wù)對視頻生成質(zhì)量的要求非常高，因?yàn)槲覀兲烊粚θ四樢约叭宋锏膭?dòng)態(tài)變化更加敏感。鑒于該任務(wù)的特殊性，我們需要結(jié)合 VDT（或 Sora）和可控生成來應(yīng)對寫真視頻生成面臨的挑戰(zhàn)。目前智子引擎已經(jīng)突破寫真視頻生成的大部分關(guān)鍵技術(shù)，取得比 Sora 更好的寫真視頻生成質(zhì)量。智子引擎還將繼續(xù)優(yōu)化人像可控生成算法，同時(shí)也在積極進(jìn)行商業(yè)化探索。目前已經(jīng)找到確定的商業(yè)落地場景，有望近期就打破大模型 “最后一公里” 落地難的困境。

未來更加通用的 VDT 將成為解決多模態(tài)大模型數(shù)據(jù)來源問題的得力工具。使用視頻生成的方式，VDT 將能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行模擬，進(jìn)一步提高視覺數(shù)據(jù)生產(chǎn)的效率，為多模態(tài)大模型 Awaker 的自主更新提供助力。

結(jié)語

Awaker 1.0 是智子引擎團(tuán)隊(duì)向著 “實(shí)現(xiàn) AGI” 的終極目標(biāo)邁進(jìn)的關(guān)鍵一步。團(tuán)隊(duì)認(rèn)為 AI 的自我探索、自我反思等自主學(xué)習(xí)能力是智能水平的重要評估標(biāo)準(zhǔn)，與持續(xù)加大參數(shù)規(guī)模（Scaling Law）相比是同等重要的。Awaker 1.0 已實(shí)現(xiàn) “數(shù)據(jù)主動(dòng)生成、模型反思評估、模型連續(xù)更新” 等關(guān)鍵技術(shù)框架，在理解側(cè)和生成側(cè)都實(shí)現(xiàn)了效果突破，有望加速多模態(tài)大模型行業(yè)的發(fā)展，最終讓人類實(shí)現(xiàn) AGI。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/CAO9Lmga2hB9R1wz0WHC0g??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

谷歌推出多模態(tài)視頻模型，自動(dòng)生成豐富動(dòng)作視頻

Aceryt ? 3107瀏覽 ? 0回復(fù)
超10秒高分辨率，北大Open Sora視頻生成更強(qiáng)了，還支持華為芯片

輕薄滴假象 ? 2411瀏覽 ? 0回復(fù)
Sora之后，OpenAI Lilian Weng親自撰文教你從頭設(shè)計(jì)視頻生成擴(kuò)散模型

輕薄滴假象 ? 2330瀏覽 ? 0回復(fù)
Open-Sora 1.1重磅更新+解讀：完全開源的高效復(fù)現(xiàn)類Sora視頻生成方案！YYDS!

angel ? 5125瀏覽 ? 0回復(fù)
人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產(chǎn)業(yè)峰會(huì)

Crystalcxt ? 2333瀏覽 ? 0回復(fù)
媲美Sora的國產(chǎn)視頻生成器背后技術(shù)探秘

angel ? 8640瀏覽 ? 0回復(fù)
阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成

Syrupup ? 3704瀏覽 ? 0回復(fù)
模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！

戀戀青鳥 ? 4899瀏覽 ? 0回復(fù)
力壓Transformer，詳解Mamba和狀態(tài)空間模型

小虎哦哦 ? 3260瀏覽 ? 0回復(fù)
阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律

輕薄滴假象 ? 2587瀏覽 ? 0回復(fù)
視頻生成類大模型實(shí)現(xiàn)原理以及應(yīng)用和難點(diǎn)

AI探索時(shí)代 ? 3490瀏覽 ? 0回復(fù)
手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密

angel ? 2372瀏覽 ? 0回復(fù)
Open-Sora 1.1 解讀：完全開源的高效復(fù)現(xiàn)類Sora視頻生成方案！

angel ? 2267瀏覽 ? 0回復(fù)
藝術(shù)家泄露OpenAI Sora視頻生成神器，附地址

云原生AI百寶箱 ? 1846瀏覽 ? 0回復(fù)
OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1793瀏覽 ? 0回復(fù)
基于Gemini 2.0和LangGraph實(shí)現(xiàn)自主多工具AI代理

51CTO內(nèi)容精選 ? 2156瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎(jiǎng)勵(lì)模型；將獎(jiǎng)勵(lì)模型多模態(tài)情緒識(shí)別上

AI研究前瞻 ? 1629瀏覽 ? 0回復(fù)
超越Sora！谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1130瀏覽 ? 0回復(fù)
AI視頻生成新突破！字節(jié)提出一致性視頻生成方法Phantom：通過跨模態(tài)對齊生成主題一致的視頻，超多應(yīng)用場景

AIGCStudio ? 168瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： CVPR 2024 | 文本一鍵轉(zhuǎn)3D數(shù)字人骨骼動(dòng)畫，阿爾伯塔大學(xué)提出MoMask框架

下一篇：在12個(gè)視頻理解任務(wù)中，Mamba先打敗了Transformer

社區(qū)精華內(nèi)容

目錄

<thead id="6m8pu"><rt id="6m8pu"></rt></thead>

<thead id="6m8pu"><rt id="6m8pu"></rt></thead>

<sub id="6m8pu"></sub>

<blockquote id="6m8pu"><p id="6m8pu"><li id="6m8pu"></li></p></blockquote>