自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超級(jí)智能體生命力覺(jué)醒!可自我更新的AI來(lái)了,媽媽再也不用擔(dān)心數(shù)據(jù)瓶頸難題

人工智能 新聞
來(lái)自人大系的初創(chuàng)團(tuán)隊(duì),用自家的新模型,率先在國(guó)內(nèi)把“模型生成數(shù)據(jù)自己喂自己”變成了現(xiàn)實(shí)。

哭死啊,全球狂煉大模型,一互聯(lián)網(wǎng)的數(shù)據(jù)不夠用,根本不夠用。

訓(xùn)練模型搞得跟《饑餓游戲》似的,全球AI研究者,都在苦惱怎么才能喂飽這群數(shù)據(jù)大胃王。

尤其在多模態(tài)任務(wù)中,這一問(wèn)題尤為突出。

一籌莫展之際,來(lái)自人大系的初創(chuàng)團(tuán)隊(duì),用自家的新模型,率先在國(guó)內(nèi)把“模型生成數(shù)據(jù)自己喂自己”變成了現(xiàn)實(shí)。

而且還是理解側(cè)和生成側(cè)雙管齊下,兩側(cè)都能生成高質(zhì)量、多模態(tài)的新數(shù)據(jù),對(duì)模型本身進(jìn)行數(shù)據(jù)反哺。

模型是啥?

中關(guān)村論壇上剛剛露面的多模態(tài)大模型Awaker 1.0。

團(tuán)隊(duì)是誰(shuí)?

智子引擎。由人大高瓴人工智能學(xué)院博士生高一釗創(chuàng)立,高瓴人工智能學(xué)院盧志武教授擔(dān)任顧問(wèn)。公司成立時(shí)還是2021年,就早早打入多模態(tài)這條“無(wú)人區(qū)”賽道。

MOE架構(gòu),解決多模態(tài)多任務(wù)訓(xùn)練沖突問(wèn)題

這不是智子引擎第一次發(fā)布模型。

去年3月8日,潛心研發(fā)兩年的團(tuán)隊(duì)對(duì)外發(fā)布了自研的第一個(gè)多模態(tài)模型,百億級(jí)別參數(shù)的ChatImg序列模型,并基于此推出世界首個(gè)公開(kāi)評(píng)測(cè)多模態(tài)對(duì)話應(yīng)用ChatImg(元乘象)。

后來(lái),ChatImg不斷迭代,新模型Awaker的研發(fā)也在并行推進(jìn)。后者還繼承了前代模型的基礎(chǔ)能力。

相較于前代的ChatImg序列模型,Awaker 1.0采用了MoE模型架構(gòu)

要說(shuō)原因嘛,是想要解決解決多模態(tài)多任務(wù)訓(xùn)練存在嚴(yán)重沖突的問(wèn)題。

采用MoE模型架構(gòu),可以更好地學(xué)習(xí)多模態(tài)通用能力以及各個(gè)任務(wù)所需的獨(dú)特能力,從而讓整個(gè)Awaker 1.0的能力在多個(gè)任務(wù)上有進(jìn)一步提升。

數(shù)據(jù)勝千言:

圖片

鑒于主流多模態(tài)評(píng)測(cè)榜單存在評(píng)測(cè)數(shù)據(jù)泄露問(wèn)題,智子團(tuán)隊(duì)從嚴(yán)構(gòu)建了自有評(píng)測(cè)集,大部分測(cè)試圖片來(lái)自個(gè)人手機(jī)相冊(cè)。

表格顯示,團(tuán)隊(duì)讓Awaker 1.0和國(guó)內(nèi)外最先進(jìn)的3個(gè)多模態(tài)大模型進(jìn)行了評(píng)測(cè)。

多提一嘴,由于GPT-4V和Intern-VL并不直接支持檢測(cè)任務(wù),它們的檢測(cè)結(jié)果是通過(guò)要求模型使用語(yǔ)言描述物體方位得到的。

可以看到,在視覺(jué)問(wèn)答和業(yè)務(wù)應(yīng)用任務(wù)上,Awaker 1.0的基座模型超過(guò)了GPT-4V、Qwen-VL-Max和Intern-VL。

在描述、推理和檢測(cè)任務(wù)上,Awaker 1.0的基座模型達(dá)到了次好效果。

最后來(lái)看平均分,Awaker 1.0處于幾者中的最高值。

因此,上述結(jié)果也印證了多任務(wù)多模態(tài)模型采用MoE架構(gòu)的有效性。

數(shù)據(jù)集評(píng)測(cè)結(jié)果有了,真實(shí)效果還需進(jìn)一步上手體驗(yàn)。

這里主要問(wèn)了它和對(duì)比大模型一些關(guān)于中文OCR(圖片文字識(shí)別)和計(jì)數(shù)問(wèn)題、詳細(xì)描述任務(wù)等問(wèn)題。

這個(gè)主要考計(jì)數(shù)

Awaker 1.0能正確地給出答案,而其它三個(gè)模型均回答錯(cuò)誤。

圖片

這個(gè)主要考中文OCR

正確回答的選手是Qwen-VL-Max和Awaker 1.0。

圖片

最后這題考圖片內(nèi)容理解。

GPT-4V和Awaker 1.0不但能夠詳細(xì)地描述圖片的內(nèi)容,而且能夠準(zhǔn)確地識(shí)別出圖片中的細(xì)節(jié),如圖中展示的可口可樂(lè)。

圖片

不得不提一嘴的是,Awaker 1.0繼承了一些智子團(tuán)隊(duì)此前廣為關(guān)注的研究成果。

說(shuō)的就是你——Awaker 1.0的生成側(cè)。

Awaker 1.0的生成側(cè),是智子引擎自主研發(fā)的類Sora視頻生成底座VDT(Video Diffusion Transformer)。

VDT的學(xué)術(shù)論文早于OpenAI Sora的發(fā)布(去年5月),并已被頂會(huì)ICLR 2024接收。

圖片

VDT與眾不同的創(chuàng)新之處,主要有兩點(diǎn)。

一是在技術(shù)架構(gòu)上采用Diffusion Transformer,在OpenAI之前就展現(xiàn)了Transformer在視頻生成領(lǐng)域的巨大潛力。

它的優(yōu)勢(shì)在于其出色的時(shí)間依賴性捕獲能力,能夠生成時(shí)間上連貫的視頻幀,包括模擬三維對(duì)象隨時(shí)間的物理動(dòng)態(tài)。

二是提出統(tǒng)一的時(shí)空掩碼建模機(jī)制,使VDT能夠處理多種視頻生成任務(wù)。

VDT靈活的條件信息處理方式,如簡(jiǎn)單的token空間拼接,有效地統(tǒng)一了不同長(zhǎng)度和模態(tài)的信息。

同時(shí),通過(guò)與該工作提出的時(shí)空掩碼建模機(jī)制結(jié)合,VDT成為了一個(gè)通用的視頻擴(kuò)散工具,在不修改模型結(jié)構(gòu)的情況下可以應(yīng)用于無(wú)條件生成、視頻后續(xù)幀預(yù)測(cè)、插幀、圖生視頻、視頻畫(huà)面補(bǔ)全等多種視頻生成任務(wù)。

據(jù)了解,智子引擎團(tuán)隊(duì)不僅探索了VDT對(duì)簡(jiǎn)單物理規(guī)律的模擬,發(fā)現(xiàn)它能模擬物理過(guò)程

圖片

還在超寫(xiě)實(shí)人像視頻生成任務(wù)上進(jìn)行了深度探索。

因?yàn)槿庋蹖?duì)人臉及人的動(dòng)態(tài)變化非常敏感,所以這個(gè)任務(wù)對(duì)視頻生成質(zhì)量的要求非常高。不過(guò),智子引擎已經(jīng)突破超寫(xiě)實(shí)人像視頻生成的大部分關(guān)鍵技術(shù),比起Sora也沒(méi)在怕的。

口說(shuō)無(wú)憑。

這是智子引擎結(jié)合VDT和可控生成,對(duì)人像視頻生成質(zhì)量提升后的效果:

據(jù)悉,智子引擎還將繼續(xù)優(yōu)化人物可控的生成算法,并積極進(jìn)行商業(yè)化探索。

生成源源不斷的新交互數(shù)據(jù)

更值得關(guān)注的是,智子引擎團(tuán)隊(duì)強(qiáng)調(diào):

Awaker 1.0是世界上首個(gè)能自主更新的多模態(tài)大模型。

換句話說(shuō),Awaker 1.0是“活”的,它的參數(shù)可以實(shí)時(shí)持續(xù)地更新——這就導(dǎo)致Awaker 1.0區(qū)別于所有其它多模態(tài)大模型,

Awaker 1.0的自主更新機(jī)制,包含三大關(guān)鍵技術(shù),分別是:

  • 數(shù)據(jù)主動(dòng)生成
  • 模型反思評(píng)估
  • 模型連續(xù)更新

這三項(xiàng)技術(shù),讓Awaker 1.0具備自主學(xué)習(xí)、自動(dòng)反思和自主更新的能力,可以在這個(gè)世界自由探索,甚至與人類互動(dòng)。

基于此,Awaker 1.0在理解側(cè)和生成側(cè)都能生成源源不斷的新交互數(shù)據(jù)。

怎么做到的?

在理解側(cè),Awaker 1.0與數(shù)字世界和現(xiàn)實(shí)世界進(jìn)行交互。

在執(zhí)行任務(wù)的過(guò)程中,Awaker 1.0將場(chǎng)景行為數(shù)據(jù)反哺給模型,以實(shí)現(xiàn)持續(xù)更新與訓(xùn)練。

在生成側(cè),Awaker 1.0可以進(jìn)行高質(zhì)量的多模態(tài)內(nèi)容生成,為理解側(cè)模型提供更多的訓(xùn)練數(shù)據(jù)。

在理解側(cè)和生成側(cè)的兩個(gè)循環(huán)中,Awaker 1.0實(shí)際實(shí)現(xiàn)了將視覺(jué)理解與視覺(jué)生成進(jìn)行融合。

要知道,Sora問(wèn)世后,越來(lái)越多聲音表示,要通往AGI,必須達(dá)成“理解和生成的大一統(tǒng)”。

圖片

以新知識(shí)注入為例,下面來(lái)看個(gè)具體跑通的例子。

Awaker 1.0能夠不斷在互聯(lián)網(wǎng)上學(xué)習(xí)實(shí)時(shí)新聞信息,同時(shí),它結(jié)合新學(xué)習(xí)到的新聞信息來(lái)回答各種復(fù)雜問(wèn)題。

這和目前兩種主流,即RAG和傳統(tǒng)長(zhǎng)上下文方式還不太一樣,Awaker 1.0是真的把新知識(shí)“記憶”在自個(gè)兒模型的參數(shù)上。

圖片

可以看到,連續(xù)3天的自我更新過(guò)程中,Awaker 1.0每天都能學(xué)習(xí)當(dāng)天的新聞信息,并在描述中準(zhǔn)確地說(shuō)出對(duì)應(yīng)信息。

而且雖然一直在學(xué),Awaker 1.0倒沒(méi)有顧此失彼,它并不會(huì)很快地遺忘學(xué)過(guò)的知識(shí)。

譬如,4月16日學(xué)進(jìn)去的智界S7相關(guān)知識(shí),在2天后仍然被Awaker 1.0記住或理解。

So,在這個(gè)數(shù)據(jù)如金的時(shí)代,別再哀嘆“數(shù)據(jù)不夠用”了。

面對(duì)數(shù)據(jù)瓶頸的團(tuán)隊(duì)們,一種可行、可用的新選擇,不就被Awaker 1.0送來(lái)了?

具身智能“活”的大腦

話說(shuō)回來(lái),正是由于實(shí)現(xiàn)了視覺(jué)理解與視覺(jué)生成的融合,當(dāng)遇到“多模態(tài)大模型適配具身智能”的問(wèn)題,Awaker 1.0的驕傲已經(jīng)顯露無(wú)疑。

事情是這樣的:

Awaker 1.0這類多模態(tài)大模型,其具有的視覺(jué)理解能力可以天然與具身智能的“眼睛”相結(jié)合。

而且主流聲音也認(rèn)為,“多模態(tài)大模型+具身智能”有可能大幅地提升具身智能的適應(yīng)性和創(chuàng)造性,甚至是實(shí)現(xiàn)AGI的可行路徑。

理由不外乎兩點(diǎn)。

第一,人們期望具身智能擁有適應(yīng)性,即智能體能夠通過(guò)持續(xù)學(xué)習(xí)來(lái)適應(yīng)不斷變化的應(yīng)用環(huán)境。

這樣一來(lái),具身智能既能在已知多模態(tài)任務(wù)上越做越好,也能快速適應(yīng)未知的多模態(tài)任務(wù)。

第二,人們還期望具身智能具有真正的創(chuàng)造性,希望它通過(guò)對(duì)環(huán)境的自主探索,能夠發(fā)現(xiàn)新的策略和解決方案,并探索AI的能力邊界。

但是二者的適配,并不是簡(jiǎn)簡(jiǎn)單單把多模態(tài)大模型鏈接個(gè)身體,或直接給具身智能裝個(gè)腦子那么簡(jiǎn)單。

就拿多模態(tài)大模型來(lái)說(shuō),至少有兩個(gè)明顯的問(wèn)題擺在面前。

一是模型的迭代更新周期長(zhǎng),需要大量的人力投入;

二是模型的訓(xùn)練數(shù)據(jù)都源自已有的數(shù)據(jù),模型不能持續(xù)獲得大量的新知識(shí)。雖然通過(guò)RAG和擴(kuò)長(zhǎng)上下文窗口也可以注入持續(xù)出現(xiàn)的新知識(shí),模型記不住,補(bǔ)救方式還會(huì)帶來(lái)額外的問(wèn)題。

總之,目前的多模態(tài)大模型在實(shí)際應(yīng)用場(chǎng)景中不具備很強(qiáng)的適應(yīng)性,更不具備創(chuàng)造性,導(dǎo)致在行業(yè)落地時(shí)總是出現(xiàn)各種各樣的困難。

妙啊——還記得我們前面提到,Awaker 1.0不僅可以學(xué)新知識(shí),還能記住新知識(shí),并且這種學(xué)習(xí)是每天的、持續(xù)的、及時(shí)的。

圖片

從這張框架圖可以看出,Awaker 1.0能夠與各種智能設(shè)備結(jié)合,通過(guò)智能設(shè)備觀察世界,產(chǎn)生動(dòng)作意圖,并自動(dòng)構(gòu)建指令控制智能設(shè)備完成各種動(dòng)作。

在完成各種動(dòng)作后,智能設(shè)備會(huì)自動(dòng)產(chǎn)生各種反饋,Awaker 1.0能夠從這些動(dòng)作和反饋中獲取有效的訓(xùn)練數(shù)據(jù)進(jìn)行持續(xù)的自我更新,不斷強(qiáng)化模型的各種能力。

這就相當(dāng)于具身智能擁有一個(gè)活的大腦了。

誰(shuí)看了不說(shuō)一句how pay(狗頭)

尤其重要的是,因?yàn)榫邆渥灾鞲履芰?,Awaker 1.0不單單是可以和具身智能適配,它還適用于更廣泛的行業(yè)場(chǎng)景,能夠解決更復(fù)雜的實(shí)際任務(wù)。

例如,Awaker 1.0與各種智能設(shè)備結(jié)合,從而實(shí)現(xiàn)云邊協(xié)同。

這時(shí)候,Awaker 1.0就是部署在云端的“大腦”,觀察、指揮,控制各種邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)。

而邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)時(shí)獲得的反饋,又會(huì)源源不斷地傳回給Awaker 1.0,讓它持續(xù)地獲得訓(xùn)練數(shù)據(jù),不斷進(jìn)行自我更新。

這可不是紙上談兵,Awaker 1.0與智能設(shè)備的云邊協(xié)同的技術(shù)路線,已經(jīng)應(yīng)用在電網(wǎng)智能巡檢、智慧城市等應(yīng)用場(chǎng)景中,并取得了遠(yuǎn)好于傳統(tǒng)小模型的識(shí)別效果。

圖片

多模態(tài)大模型能聽(tīng)、能看、能說(shuō),在語(yǔ)音識(shí)別、圖像處理、自然語(yǔ)言理解等多個(gè)領(lǐng)域展現(xiàn)出了巨大的潛力和應(yīng)用價(jià)值,幾乎無(wú)所不能。

但它的煩惱很明顯,如何不斷吸收新知識(shí)、適應(yīng)新變化?

可以說(shuō),修煉內(nèi)功、提升武藝成為了多模態(tài)大模型面臨的一個(gè)重要課題。

智子引擎Awaker 1.0的問(wèn)世,為多模態(tài)大模型的自我超越提供了一把鑰匙。

它好像會(huì)了那個(gè)吸星大法,通過(guò)自主更新機(jī)制,打破了數(shù)據(jù)短缺的瓶頸,為多模態(tài)大模型的持續(xù)學(xué)習(xí)和自我進(jìn)化提供了可能;再就是利用云邊協(xié)同技術(shù),勇闖在具身智能等智能體設(shè)備的具體應(yīng)用場(chǎng)景。

這或許是邁向AGI的一小步,但同時(shí)也是多模態(tài)大模型自我超越之旅的一個(gè)開(kāi)始。

漫長(zhǎng)而艱難的旅程,需要智子引擎這樣的團(tuán)隊(duì),向技術(shù)的高峰不斷攀登。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-06-08 07:48:26

數(shù)據(jù) Python開(kāi)發(fā)

2015-05-29 09:01:48

2022-09-14 08:02:25

加密算法Bcryp

2015-10-22 10:38:43

Wi-Fi燃?xì)鈭?bào)警器

2023-09-12 13:39:08

2019-09-04 10:00:07

手機(jī)人臉識(shí)別

2021-12-21 09:05:46

命令Linux敲錯(cuò)

2020-06-15 08:03:17

大文件OOM內(nèi)存

2021-08-13 22:38:36

大數(shù)據(jù)互聯(lián)網(wǎng)技術(shù)

2021-06-04 12:05:03

Redis Bitmap 數(shù)據(jù)庫(kù)

2019-12-14 15:50:51

編程元知識(shí)代碼開(kāi)發(fā)

2016-08-09 16:17:37

高德地圖TFBOYS大數(shù)據(jù)

2018-12-10 15:12:27

智慧城市AI城市智能體

2020-04-10 09:55:28

Git 工具黑魔法

2020-03-02 00:01:25

Linux字符目錄

2021-06-11 07:14:04

QQ音樂(lè)微信翻譯

2012-06-08 09:48:33

2012-07-10 10:05:09

虛擬化

2020-12-18 08:23:16

安卓手機(jī)系統(tǒng)谷歌
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)