自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

上海數(shù)字大腦研究院發(fā)布國(guó)內(nèi)首個(gè)多模態(tài)決策大模型DB1,可實(shí)現(xiàn)超復(fù)雜問題快速?zèng)Q策

人工智能 新聞
多模態(tài)決策大模型是實(shí)現(xiàn)決策智能體從游戲走向更廣泛場(chǎng)景,從虛擬走向現(xiàn)實(shí),在現(xiàn)實(shí)開放動(dòng)態(tài)環(huán)境中進(jìn)行自主感覺與決策,最終實(shí)現(xiàn)更加通用人工智能的關(guān)鍵探索方向之一。

近日,上海數(shù)字大腦研究院(以下簡(jiǎn)稱 “數(shù)研院”)推出首個(gè)數(shù)字大腦多模態(tài)決策大模型(簡(jiǎn)稱 DB1),填補(bǔ)了國(guó)內(nèi)在此方面的空白,進(jìn)一步驗(yàn)證了預(yù)訓(xùn)練模型在文本、圖 - 文、強(qiáng)化學(xué)習(xí)決策、運(yùn)籌優(yōu)化決策方面應(yīng)用的潛力。目前,DB1代碼我們已開源在Github,項(xiàng)目鏈接:https://github.com/Shanghai-Digital-Brain-Laboratory/BDM-DB1。

此前,數(shù)研院提出 MADT(https://arxiv.org/abs/2112.02845)/MAT(https://arxiv.org/abs/2205.14953)等多智能體模型,在一些離線大模型通過序列建模,使用 Transformer 模型在一些單 / 多智能體任務(wù)上取得了顯著效果,并持續(xù)在該方向上進(jìn)行研究探索。

過去幾年,隨著預(yù)訓(xùn)練大模型的興起,學(xué)術(shù)界與產(chǎn)業(yè)界在預(yù)訓(xùn)練模型的參數(shù)量與多模態(tài)任務(wù)上不斷取得新的進(jìn)展,大規(guī)模預(yù)訓(xùn)練模型通過對(duì)海量數(shù)據(jù)和知識(shí)的深度建模,被認(rèn)為是通往通用人工智能的重要路徑之一。專注決策智能研究的數(shù)研院創(chuàng)新性地嘗試將預(yù)訓(xùn)練模型的成功復(fù)制到?jīng)Q策任務(wù)上,并且取得了突破。

多模態(tài)決策大模型 DB1

此前,DeepMind 推出 Gato,將單智能體決策任務(wù)、多輪對(duì)話和圖片 - 文本生成任務(wù)統(tǒng)一到一個(gè)基于 Transformer 的自回歸問題上,并在 604 個(gè)不同任務(wù)上取得了良好表現(xiàn),顯示出通過序列預(yù)測(cè)能夠解決一些簡(jiǎn)單的強(qiáng)化學(xué)習(xí)決策問題,這在側(cè)面驗(yàn)證了數(shù)研院在決策大模型研究方向的正確性。

此次,數(shù)研院推出的 DB1,主要對(duì) Gato 進(jìn)行了復(fù)現(xiàn)與驗(yàn)證,并從網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)量、任務(wù)類型與任務(wù)數(shù)量?jī)煞矫鎳L試進(jìn)行了改進(jìn):

  • 參數(shù)量與網(wǎng)絡(luò)結(jié)構(gòu):DB1 參數(shù)量達(dá) 12.1 億。在參數(shù)量上盡量做到與 Gato 接近。整體來(lái)說(shuō),數(shù)研院使用了與 Gato 類似的結(jié)構(gòu)(相同的 Decoder Block 數(shù)量、隱層大小等),但在 FeedForwardNetwork 中,由于 GeGLU 激活函數(shù)會(huì)額外引入 1/3 的參數(shù)量,數(shù)研院為了接近 Gato 的參數(shù)量,使用 4 * n_embed 維的隱層狀態(tài)經(jīng)過 GeGLU 激活函數(shù)后變成 2 * n_embed 維的特征。在其他方面,我們與 Gato 的實(shí)現(xiàn)一樣在輸入輸出編碼端共享了 embedding 參數(shù)。不同于 Gato,在 layer normalization 的選擇上我們采用了 PostNorm 的方案,同時(shí)我們?cè)?Attention 上使用混合精度計(jì)算,提高了數(shù)值穩(wěn)定性。
    ?
  • 任務(wù)類型與任務(wù)數(shù)量:DB1 的實(shí)驗(yàn)任務(wù)數(shù)量達(dá) 870,較 Gato 提升了 44.04%,較 Gato 在 >=50% 專家性能上提升 2.23%。具體任務(wù)類型上,DB1 大部分繼承了 Gato 的決策、圖像和文本類任務(wù),各類任務(wù)數(shù)量基本維持一致。但在決策類任務(wù)方面,DB1 另外引入了 200 余個(gè)現(xiàn)實(shí)場(chǎng)景任務(wù),即 100 和 200 節(jié)點(diǎn)規(guī)模的旅行商問題(TSP,此類任務(wù)在所有中國(guó)主要城市隨機(jī)選擇 100-200 個(gè)地理位置作為結(jié)點(diǎn)表征)求解。

可以看到的是,DB1 整體表現(xiàn)已經(jīng)與 Gato 達(dá)到同一水平,并已經(jīng)開始向更加貼近實(shí)際業(yè)務(wù)的需求領(lǐng)域體進(jìn)化,很好地求解了 NP-hard 的 TSP 問題,而此前 Gato 并未在此方向探索。

圖片DB1 (右) 與 GATO (左)指標(biāo)對(duì)比

圖片

DB1 在強(qiáng)化學(xué)習(xí)模擬環(huán)境上的多任務(wù)性能分布

相較于傳統(tǒng)的決策算法,DB1 在跨任務(wù)決策能力和快速遷移能力上都有不錯(cuò)的表現(xiàn)。從跨任務(wù)決策能力和參數(shù)量來(lái)說(shuō),實(shí)現(xiàn)了從單一復(fù)雜任務(wù)的千萬(wàn) - 億級(jí)別參數(shù)量到多個(gè)復(fù)雜任務(wù)的十億級(jí)別參數(shù)的跨越,并持續(xù)增長(zhǎng),并且具備解決復(fù)雜商業(yè)環(huán)境中的實(shí)際問題的充分能力。從遷移能力來(lái)說(shuō),DB1 完成了從智能預(yù)測(cè)到智能決策、從單智能體到多智能體的跨越,彌補(bǔ)傳統(tǒng)方法在跨任務(wù)遷移方面的不足,使得在企業(yè)內(nèi)部建立大模型成為可能。

不可否認(rèn)的是,DB1 在開發(fā)過程也遇到了很多難點(diǎn),數(shù)研院進(jìn)行了大量嘗試,可為業(yè)內(nèi)在大規(guī)模模型訓(xùn)練及多任務(wù)訓(xùn)練數(shù)據(jù)存儲(chǔ)方面提供一些標(biāo)準(zhǔn)解決路徑。由于模型參數(shù)到達(dá) 10 億參數(shù)規(guī)模且任務(wù)規(guī)模龐大,同時(shí)需要在超過 100T(300B+ Tokens)的專家數(shù)據(jù)上進(jìn)行訓(xùn)練,普通的深度強(qiáng)化學(xué)習(xí)訓(xùn)練框架已無(wú)法滿足在該種情況下的快速訓(xùn)練。為此,一方面,針對(duì)分布式訓(xùn)練,數(shù)研院充分考慮強(qiáng)化學(xué)習(xí)、運(yùn)籌優(yōu)化和大模型訓(xùn)練的計(jì)算結(jié)構(gòu),在單機(jī)多卡和多機(jī)多卡的環(huán)境下,極致利用硬件資源,巧妙設(shè)計(jì)模塊間的通訊機(jī)制,盡可能提升模型的訓(xùn)練效率,將 870 個(gè)任務(wù)的訓(xùn)練時(shí)間縮短到了一周。另一方面,針對(duì)分布式隨機(jī)采樣,訓(xùn)練過程所需數(shù)據(jù)索引、存儲(chǔ)、加載以及預(yù)處理也成為相應(yīng)瓶頸,數(shù)研院在加載數(shù)據(jù)集時(shí)采用了延遲加載模式,以解決內(nèi)存限制問題并盡可能充分利用可用內(nèi)存。此外,在對(duì)加載數(shù)據(jù)進(jìn)行預(yù)處理后,會(huì)將處理過的數(shù)據(jù)緩存至硬盤中,便于此后可直接加載預(yù)處理完成的數(shù)據(jù),縮減重復(fù)預(yù)處理帶來(lái)的時(shí)間和資源成本。

目前,國(guó)際國(guó)內(nèi)頭部企業(yè)與研究機(jī)構(gòu)如 OpenAI、Google、Meta、華為、百度和達(dá)摩院等都已經(jīng)進(jìn)行了多模態(tài)大模型相關(guān)的研究并且有了一定商業(yè)化嘗試,包括在自身產(chǎn)品中應(yīng)用或者提供模型 API 和相關(guān)行業(yè)解決方案。相比之下,數(shù)研院更關(guān)注決策問題,同時(shí)支持游戲 AI 決策任務(wù)、運(yùn)籌優(yōu)化 TSP 求解任務(wù)、機(jī)器人決策控制任務(wù)、黑盒優(yōu)化求解任務(wù)與多輪對(duì)話任務(wù)上進(jìn)行應(yīng)用嘗試。

任務(wù)表現(xiàn)

運(yùn)籌優(yōu)化:TSP 問題求解

以中國(guó)部分城市為節(jié)點(diǎn)的 TSP 問題

強(qiáng)化學(xué)習(xí)任務(wù)視頻演示

DB1 模型在完成 870 個(gè)不同決策任務(wù)的離線學(xué)習(xí)后,其評(píng)估結(jié)果顯示有 76.67% 的任務(wù)達(dá)到或超過 50% 的專家水平。以下是一些任務(wù)的效果展示。

  • 電子游戲場(chǎng)景:DB1 可以接收 2D/3D 圖像輸入,并且很好地完成類如 Atari,Procgen 在內(nèi)的 2D 像素游戲,同時(shí)對(duì)于 DMLab 這種與真實(shí)世界較為相似的 3D 圖像輸入任務(wù),DB1 也表現(xiàn)出了良好的性能。

圖片

Atari Breakout

圖片


DMLab  Explore Object Locations

圖片

Procgen DogBall

  • 連續(xù)控制場(chǎng)景:在機(jī)器人領(lǐng)域的連續(xù)控制任務(wù)上,DB1 也能夠建模連續(xù)動(dòng)作的策略輸出,并且良好地完成仿真任務(wù)上。

圖片

Metaworld PlateSlide

圖片

ModularRL Cheetah

文本 - 圖像任務(wù)

  • 文本生成:給出一段文字提示,生成長(zhǎng)文本描述
  • 輸入提示:digital brain laboratory is a shanghai based
  • 生成結(jié)果:digital brain laboratory is a shanghai based company and we are looking for a highly skilled and experienced person to join our team in shanghai, china.
    we are a digital brain lab and we are looking for a highly skilled and experienced person to join our team in shanghai, china.
    this is an opportunity to work for a well known and growing company that is going through a fast growth phase and to have an impact in the market.
    This is a full-time, permanent position.
    We are looking for a highly skilled, motivated and experienced software engineer who can lead a team of 5-10 in a highly competitive environment
  • 圖像描述生成:給定一張圖片生成對(duì)應(yīng)文本描述

圖片


當(dāng)前決策大模型的局限性與未來(lái)方向

雖然當(dāng)前多模態(tài)決策預(yù)訓(xùn)練模型 DB1 取得了一定效果,但仍存在一定局限性,諸如:跨域任務(wù)采樣權(quán)重敏感、跨域知識(shí)遷移困難、長(zhǎng)序列建模困難、專家數(shù)據(jù)強(qiáng)依賴等。雖然存在眾多挑戰(zhàn),但現(xiàn)階段看來(lái),多模態(tài)決策大模型是實(shí)現(xiàn)決策智能體從游戲走向更廣泛場(chǎng)景,從虛擬走向現(xiàn)實(shí),在現(xiàn)實(shí)開放動(dòng)態(tài)環(huán)境中進(jìn)行自主感覺與決策,最終實(shí)現(xiàn)更加通用人工智能的關(guān)鍵探索方向之一。未來(lái),數(shù)研院將持續(xù)迭代數(shù)字大腦決策大模型,通過更大參數(shù)量,更有效的序列表征,接入和支持更多任務(wù),結(jié)合離線 / 線訓(xùn)練與微調(diào),實(shí)現(xiàn)跨域、跨模態(tài)、跨任務(wù)的知識(shí)泛化與遷移,最終在現(xiàn)實(shí)應(yīng)用場(chǎng)景下提供更通用、更高效、更低成本的決策智能決策解決方案。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-04-15 12:14:10

2024-12-16 07:30:00

2023-11-30 08:00:00

AutoGen人工智能金融數(shù)據(jù)

2018-10-10 13:57:32

區(qū)塊鏈技術(shù)智能

2024-11-28 14:20:00

AI模型

2023-05-15 12:14:02

ChatGPT語(yǔ)音模型

2025-01-08 08:21:16

2021-03-22 11:16:50

人工智能應(yīng)用基礎(chǔ)設(shè)施

2024-10-09 09:38:11

2018-09-17 11:00:05

AWS人工智能亞馬遜

2019-11-27 10:20:08

數(shù)字經(jīng)濟(jì)研究院區(qū)塊鏈區(qū)塊鏈技術(shù)

2025-03-31 09:22:00

強(qiáng)化學(xué)習(xí)模型AI

2024-02-26 12:34:52

模型數(shù)據(jù)決策模型

2024-10-30 12:21:18

2020-08-10 15:12:07

支付寶理財(cái)保險(xiǎn)

2009-10-30 09:54:52

Internet接入
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)