自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora

發(fā)布于 2024-4-29 12:56
瀏覽
0收藏

在 4 月 27 日召開的中關(guān)村論壇通用人工智能平行論壇上,人大系初創(chuàng)公司智子引擎隆重發(fā)布全新的多模態(tài)大模型 Awaker 1.0,向 AGI 邁出至關(guān)重要的一步。


相對于智子引擎前代的 ChatImg 序列模型,Awaker 1.0 采用全新的 MOE 架構(gòu)并具備自主更新能力,是業(yè)界首個(gè)實(shí)現(xiàn) “真正” 自主更新的多模態(tài)大模型。


在視覺生成方面,Awaker 1.0 采用完全自研的視頻生成底座 VDT,在寫真視頻生成上取得好于 Sora 的效果,打破大模型 “最后一公里” 落地難的困境。


Awaker 1.0 是一個(gè)將視覺理解與視覺生成進(jìn)行超級融合的多模態(tài)大模型。在理解側(cè),Awaker 1.0 與數(shù)字世界和現(xiàn)實(shí)世界進(jìn)行交互,在執(zhí)行任務(wù)的過程中將場景行為數(shù)據(jù)反哺給模型,以實(shí)現(xiàn)持續(xù)更新與訓(xùn)練;在生成側(cè),Awaker 1.0 可以生成高質(zhì)量的多模態(tài)內(nèi)容,對現(xiàn)實(shí)世界進(jìn)行模擬,為理解側(cè)模型提供更多的訓(xùn)練數(shù)據(jù)。


尤其重要的是,因?yàn)榫邆?“真正” 的自主更新能力,Awaker 1.0 適用于更廣泛的行業(yè)場景,能夠解決更復(fù)雜的實(shí)際任務(wù),比如 AI Agent、具身智能、綜合治理、安防巡檢等。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)


Awaker 的 MOE 基座模型


在理解側(cè),Awaker 1.0 的基座模型主要解決了多模態(tài)多任務(wù)預(yù)訓(xùn)練存在嚴(yán)重沖突的問題。受益于精心設(shè)計(jì)的多任務(wù) MOE 架構(gòu),Awaker 1.0 的基座模型既能繼承智子引擎前代多模態(tài)大模型 ChatImg 的基礎(chǔ)能力,還能學(xué)習(xí)各個(gè)多模態(tài)任務(wù)所需的獨(dú)特能力。相對于前代多模態(tài)大模型 ChatImg,Awaker 1.0 的基座模型能力在多個(gè)任務(wù)上都有了大幅提升。


鑒于主流的多模態(tài)評測榜單存在評測數(shù)據(jù)泄露的問題,我們采取嚴(yán)格的標(biāo)準(zhǔn)構(gòu)建自有的評測集,其中大部分的測試圖片來自個(gè)人的手機(jī)相冊。在該多模態(tài)評測集上,我們對 Awaker 1.0 和國內(nèi)外最先進(jìn)的三個(gè)多模態(tài)大模型進(jìn)行公平的人工評測,詳細(xì)的評測結(jié)果如下表所示。注意到 GPT-4V 和 Intern-VL 并不直接支持檢測任務(wù),它們的檢測結(jié)果是通過要求模型使用語言描述物體方位得到的。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)


我們發(fā)現(xiàn),Awaker 1.0 的基座模型在視覺問答和業(yè)務(wù)應(yīng)用任務(wù)上超過了 GPT-4V、Qwen-VL-Max 和 Intern-VL,同時(shí)它在描述、推理和檢測任務(wù)上也達(dá)到了次好的效果??傮w而言,Awaker 1.0 的平均得分超過國內(nèi)外最先進(jìn)的三個(gè)模型,驗(yàn)證了多任務(wù) MOE 架構(gòu)的有效性。下面是幾個(gè)具體的對比分析例子。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)



從這些對比例子可以看到,在計(jì)數(shù)和 OCR 問題上,Awaker 1.0 能正確地給出答案,而其它三個(gè)模型均回答錯(cuò)誤(或部分錯(cuò)誤)。在詳細(xì)描述任務(wù)上,Qwen-VL-Max 比較容易出現(xiàn)幻覺,Intern-VL 能夠準(zhǔn)確地描述圖片的內(nèi)容但在某些細(xì)節(jié)上不夠準(zhǔn)確和具體。GPT-4V 和 Awaker 1.0 不但能夠詳細(xì)地描述圖片的內(nèi)容,而且能夠準(zhǔn)確地識(shí)別出圖片中的細(xì)節(jié),如圖中展示的可口可樂。


Awaker + 具身智能:邁向 AGI


多模態(tài)大模型與具身智能的結(jié)合是非常自然的,因?yàn)槎嗄B(tài)大模型所具有的視覺理解能力可以天然與具身智能的攝像頭進(jìn)行結(jié)合。在人工智能領(lǐng)域,“多模態(tài)大模型 + 具身智能” 甚至被認(rèn)為是實(shí)現(xiàn)通用人工智能(AGI)的可行路徑。


一方面,人們期望具身智能擁有適應(yīng)性,即智能體能夠通過持續(xù)學(xué)習(xí)來適應(yīng)不斷變化的應(yīng)用環(huán)境,既能在已知多模態(tài)任務(wù)上越做越好,也能快速適應(yīng)未知的多模態(tài)任務(wù)。


另一方面,人們還期望具身智能具有真正的創(chuàng)造性,希望它通過對環(huán)境的自主探索,能夠發(fā)現(xiàn)新的策略和解決方案,并探索人工智能的能力邊界。通過將多模態(tài)大模型用作具身智能的 “大腦”,我們有可能大幅地提升具身智能的適應(yīng)性和創(chuàng)造性,從而最終接近 AGI 的門檻(甚至實(shí)現(xiàn) AGI)。


但是,現(xiàn)有的多模態(tài)大模型都存在兩個(gè)明顯的問題:一是模型的迭代更新周期長,需要大量的人力和財(cái)力投入;二是模型的訓(xùn)練數(shù)據(jù)都源自現(xiàn)有的數(shù)據(jù),模型不能持續(xù)獲得大量的新知識(shí)。雖然通過 RAG 和長上下文的方式也可以注入持續(xù)出現(xiàn)的新知識(shí),但是多模態(tài)大模型本身并沒有學(xué)習(xí)到這些新知識(shí),同時(shí)這兩種補(bǔ)救方式還會(huì)帶來額外的問題。


總之,目前的多模態(tài)大模型在實(shí)際應(yīng)用場景中均不具備很強(qiáng)的適應(yīng)性,更不具備創(chuàng)造性,導(dǎo)致在行業(yè)落地時(shí)總是出現(xiàn)各種各樣的困難。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)



智子引擎此次發(fā)布的 Awaker 1.0,是世界上首個(gè)具有自主更新機(jī)制的多模態(tài)大模型,可以用作具身智能的 “大腦”。Awaker 1.0 的自主更新機(jī)制,包含三大關(guān)鍵技術(shù):數(shù)據(jù)主動(dòng)生成、模型反思評估、模型連續(xù)更新。


區(qū)別于所有其它多模態(tài)大模型,Awaker 1.0 是 “活” 的,它的參數(shù)可以實(shí)時(shí)持續(xù)地更新。


從上方的框架圖中可以看出,Awaker 1.0 能夠與各種智能設(shè)備結(jié)合,通過智能設(shè)備觀察世界,產(chǎn)生動(dòng)作意圖,并自動(dòng)構(gòu)建指令控制智能設(shè)備完成各種動(dòng)作。智能設(shè)備在完成各種動(dòng)作后會(huì)自動(dòng)產(chǎn)生各種反饋,Awaker 1.0 能夠從這些動(dòng)作和反饋中獲取有效的訓(xùn)練數(shù)據(jù)進(jìn)行持續(xù)的自我更新,不斷強(qiáng)化模型的各種能力。


以新知識(shí)注入為例,Awaker 1.0 能夠不斷地在互聯(lián)網(wǎng)上學(xué)習(xí)最新的新聞信息,并結(jié)合新學(xué)習(xí)到的新聞信息回答各種復(fù)雜問題。不同于 RAG 和長上下文的傳統(tǒng)方式,Awaker 1.0 能真正學(xué)到新知識(shí)并 “記憶” 在模型的參數(shù)上。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)


從上述例子可以看到,在連續(xù)三天的自我更新中,Awaker 1.0 每天都能學(xué)習(xí)當(dāng)天的新聞信息,并在回答問題時(shí)準(zhǔn)確地說出對應(yīng)信息。同時(shí),Awaker 1.0 在連續(xù)學(xué)習(xí)的過程中并不會(huì)遺忘學(xué)過的知識(shí),例如智界 S7 的知識(shí)在 2 天后仍然被 Awaker 1.0 記住或理解。


Awaker 1.0 還能夠與各種智能設(shè)備結(jié)合,實(shí)現(xiàn)云邊協(xié)同。Awaker 1.0 作為 “大腦” 部署在云端,控制各種邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)。邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)時(shí)獲得的反饋又會(huì)源源不斷地傳回給 Awaker 1.0,讓它持續(xù)地獲得訓(xùn)練數(shù)據(jù),不斷進(jìn)行自我更新。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)


上述云邊協(xié)同的技術(shù)路線已經(jīng)應(yīng)用在電網(wǎng)智能巡檢、智慧城市等應(yīng)用場景中,取得了遠(yuǎn)遠(yuǎn)好于傳統(tǒng)小模型的識(shí)別效果,并獲得了行業(yè)客戶的高度認(rèn)可。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)



人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)


現(xiàn)實(shí)世界的模擬器:VDT


Awaker 1.0 的生成側(cè),是智子引擎自主研發(fā)的類 Sora 視頻生成底座 VDT,可以用作現(xiàn)實(shí)世界的模擬器。VDT 的研究成果于 2023 年 5 月發(fā)布在 arXiv 網(wǎng)站,比 OpenAI 發(fā)布 Sora 提前 10 個(gè)月。VDT 的學(xué)術(shù)論文已經(jīng)被國際頂級人工智能會(huì)議 ICLR 2024 接收。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)


視頻生成底座 VDT 的創(chuàng)新之處,主要包括以下幾個(gè)方面:


  • 將 Transformer 技術(shù)應(yīng)用于基于擴(kuò)散的視頻生成,展現(xiàn)了 Transformer 在視頻生成領(lǐng)域的巨大潛力。VDT 的優(yōu)勢在于其出色的時(shí)間依賴性捕獲能力,能夠生成時(shí)間上連貫的視頻幀,包括模擬三維對象隨時(shí)間的物理動(dòng)態(tài)。
  • 提出統(tǒng)一的時(shí)空掩碼建模機(jī)制,使 VDT 能夠處理多種視頻生成任務(wù),實(shí)現(xiàn)了該技術(shù)的廣泛應(yīng)用。VDT 靈活的條件信息處理方式,如簡單的 token 空間拼接,有效地統(tǒng)一了不同長度和模態(tài)的信息。同時(shí),通過與時(shí)空掩碼建模機(jī)制結(jié)合,VDT 成為了一個(gè)通用的視頻擴(kuò)散工具,在不修改模型結(jié)構(gòu)的情況下可以應(yīng)用于無條件生成、視頻后續(xù)幀預(yù)測、插幀、圖生視頻、視頻畫面補(bǔ)全等多種視頻生成任務(wù)。


我們重點(diǎn)探索了 VDT 對簡單物理規(guī)律的模擬,在 Physion 數(shù)據(jù)集上對 VDT 進(jìn)行訓(xùn)練。在下面的示例中,我們發(fā)現(xiàn) VDT 成功模擬了物理過程,如小球沿拋物線軌跡運(yùn)動(dòng)和小球在平面上滾動(dòng)并與其他物體碰撞等。同時(shí)也能從第 2 行第 2 個(gè)例子中看出 VDT 捕捉到了球的速度和動(dòng)量規(guī)律,因?yàn)樾∏蜃罱K由于沖擊力不夠而沒有撞倒柱子。這證明了 Transformer 架構(gòu)可以學(xué)習(xí)到一定的物理規(guī)律。


人大系多模態(tài)模型邁向AGI:首次實(shí)現(xiàn)自主更新,寫真視頻生成力壓Sora-AI.x社區(qū)


我們還在寫真視頻生成任務(wù)上進(jìn)行了深度探索。該任務(wù)對視頻生成質(zhì)量的要求非常高,因?yàn)槲覀兲烊粚θ四樢约叭宋锏膭?dòng)態(tài)變化更加敏感。鑒于該任務(wù)的特殊性,我們需要結(jié)合 VDT(或 Sora)和可控生成來應(yīng)對寫真視頻生成面臨的挑戰(zhàn)。目前智子引擎已經(jīng)突破寫真視頻生成的大部分關(guān)鍵技術(shù),取得比 Sora 更好的寫真視頻生成質(zhì)量。智子引擎還將繼續(xù)優(yōu)化人像可控生成算法,同時(shí)也在積極進(jìn)行商業(yè)化探索。目前已經(jīng)找到確定的商業(yè)落地場景,有望近期就打破大模型 “最后一公里” 落地難的困境。


未來更加通用的 VDT 將成為解決多模態(tài)大模型數(shù)據(jù)來源問題的得力工具。使用視頻生成的方式,VDT 將能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行模擬,進(jìn)一步提高視覺數(shù)據(jù)生產(chǎn)的效率,為多模態(tài)大模型 Awaker 的自主更新提供助力。


結(jié)語


Awaker 1.0 是智子引擎團(tuán)隊(duì)向著 “實(shí)現(xiàn) AGI” 的終極目標(biāo)邁進(jìn)的關(guān)鍵一步。團(tuán)隊(duì)認(rèn)為 AI 的自我探索、自我反思等自主學(xué)習(xí)能力是智能水平的重要評估標(biāo)準(zhǔn),與持續(xù)加大參數(shù)規(guī)模(Scaling Law)相比是同等重要的。Awaker 1.0 已實(shí)現(xiàn) “數(shù)據(jù)主動(dòng)生成、模型反思評估、模型連續(xù)更新” 等關(guān)鍵技術(shù)框架,在理解側(cè)和生成側(cè)都實(shí)現(xiàn)了效果突破,有望加速多模態(tài)大模型行業(yè)的發(fā)展,最終讓人類實(shí)現(xiàn) AGI。


本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/CAO9Lmga2hB9R1wz0WHC0g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦