自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepMind祖師帶出了AI徒弟,用「傳授」而非「訓練」教AI尋寶

人工智能 深度學習 新聞
用海量樣本、參數(shù)「訓練」AI,成效再顯著,在DeepMind研究者的眼中,也遠不如人類之間「傳授」經(jīng)驗的方式的速度與能效。

?最近,DeepMind又在強化學習領(lǐng)域整了個新活。

用通俗的中文來闡述,DeepMind研究者認為人類獲取知識技能,更多來自于「傳授」而非「訓練」。

也就是說,這個全新智能體可以通過觀察單個人類演示來快速學習新行為,而無需使用人工數(shù)據(jù)進行預訓練。

日后你惹出禍來,不把為師說出來就行

文化傳授是一種全領(lǐng)域通用的社會技能,它讓智能體之間能以高保真度和召回率實時獲取和使用彼此的經(jīng)驗信息。

人類社群里,正是基于此技能的積累過程,推動了累積的文化進化,在代際之間擴展了人類的技能、工具和知識。

數(shù)千年來,從航海路線到數(shù)學,從社會規(guī)范到藝術(shù)品,人類發(fā)現(xiàn)、進化并積累了豐富的文化知識。

定義為有效地將經(jīng)驗信息從一個人傳遞給另一個人的文化傳授,是人類能力呈指數(shù)級增長的積累過程。

大到辛巴達環(huán)游七海,小到辦公室同事教你用打印機。這些或顯或隱的經(jīng)驗性技能,都是以社會性習得的「傳授」、而非像如今「訓練」AI的方式來傳遞的。

AI如果能用這種「傳授」方式獲得知識,不管是人機交互、還是AI自身的智能擴展,效率都將更上層樓。

為此,DeepMind利用深度強化學習技術(shù)開發(fā)了一種在人工智能體中產(chǎn)生零樣本、高召回率的文化傳授的方法。

經(jīng)過訓練后,人工智能體可以推斷和回憶專家展示過的指引性知識。這一知識轉(zhuǎn)移是實時發(fā)生的,并且可以概括以前未見過的大量任務。

給AI「傳授」文化

DeepMind研究團隊在程序生成的3D世界中訓練和測試人工智能。

這個3D 世界中包含的彩色球形目標,嵌入在充滿障礙的復雜地形中。行為者必須以正確的順序?qū)Ш降诌_目標,而每種情景里目標的位置都會隨機變化。

由于無法猜測順序,因此單純的探索策略會產(chǎn)生很大的懲罰。作為文化傳授信息的來源,研究團隊生成了一個「專家機器人」腳本,它能始終以正確的順序觸達目標。

對于一個復雜的世界來說,探測任務旨在對跳躍或蹲下的行為以及圍繞垂直障礙物的導航進行清晰的演示。

在所有的探測中,人類的運動模式總是以目標為導向,接近最佳狀態(tài)(不會產(chǎn)生任何分數(shù)懲罰),但顯然與腳本機器人不同,在最初的幾秒鐘里需要時間來定位,并且不總是兩次采取完全相同的路徑。

智能體(藍色)將跟隨一個專家(紅色)在世界中尋找目標,并跨越不同地形和障礙物,在專家離開之后智能體將繼續(xù)完成任務。

專家為智能體

專家為人類

需要注意的是,視頻中的軌跡只是為了讓人類觀察者方便跟蹤,對于智能體來說是不可見的。

方法實現(xiàn)和結(jié)果

DeepMind研究團隊通過排除法確定了文化傳授出現(xiàn)所需的、最小數(shù)據(jù)量級的訓練成分表,這個「入門工具包」被研究者稱為 MEDAL-ADR。

這些訓練成分包括「記憶存儲」 (M)、「專家退出」 (ED)、「對專家的注意力偏見」 (AL) 和「自動域隨機化」 (ADR)。

智能體的結(jié)構(gòu)

訓練架構(gòu)

為了更好地感知世界,DeepMind給智能體安裝了一圈激光雷達傳感器。

通過從身上全方位地發(fā)出射線,智能體就能get到與障礙物之間的距離了。

在訓練期間,智能體會在某個時間點出現(xiàn)的社會學習行為的進展。

訓練8.6億步:初始探索

訓練15.9億步:模仿

訓練18.2億步:記憶

訓練26.7億步:獨立

泛化:世界空間

世界空間的參數(shù)是由地形的大小和顛簸程度以及障礙物的密度決定的。

為了量化空間普適性,DeepMind通過障礙物密度和世界大小的笛卡爾乘積來生成游戲地圖。

障礙物復雜度: 1.0,地形復雜度: 1.0

泛化:游戲空間

游戲空間是由世界上的目標數(shù)量以及它們之間的正確導航路徑所包含的交叉點數(shù)量來定義的。

為了量化空間普適性,DeepMind在「N-目標,M-交叉」游戲的規(guī)則內(nèi)生成智能體的任務。

目標球體:5,路徑交叉:4

泛化:專家空間

專家的空間是由專家在世界范圍內(nèi)采取的速度和行動分布來定義的。

專家可以是腳本化的機器人,也可以是具有更真實和多樣化運動模式的人類玩家。

為了量化空間普適性,DeepMind利用運動速度和動作噪聲的笛卡爾乘積,生成了與專家機器人的行為。

噪聲: 0.5,最大速度: 13.0

噪聲: 0.0,最大速度: 17.0

可以看到,沒有噪聲時機器人會直奔目標,而添加了噪聲之后則會有明顯的「猶豫」。而當專家的速度設置得過快時,智能體到后面就已經(jīng)要完全追不上了。

經(jīng)過反復測試,DeepMind開發(fā)的智能體在一系列具有挑戰(zhàn)性的任務中都要優(yōu)于所對比的控制變量,包括最先進的方法ME-AL。

此外,文化傳授在知識轉(zhuǎn)輸中的泛化程度出人意料地好,并且人工智能體在專家退出后很久還能回憶起示范。

研究團隊觀察人工智能體的「大腦」,發(fā)現(xiàn)了負責編碼社會信息和目標狀態(tài)的、具有驚人可解釋性的「神經(jīng)元」。

總而言之,DeepMind開發(fā)的流程能訓練出足夠靈活、高召回率、實時文化傳授的智能體,而無需在訓練流水線中使用人工數(shù)據(jù)。這為文化演進成為開發(fā)通用人工智能的算法鋪平了道路。

開發(fā)團隊

Lei Zhang是DeepMind為此項目新組建的「通用文化智能團隊」(Cultural General Intelligence Team)的成員。

他是多倫多大學電氣工程博士,本科、碩學位也均在多倫多大學獲得。

在深度強化學習、通用模型、卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、分布式訓練、特征探測算法等領(lǐng)域有成就。

曾是OpenAI機械手解決魔方難題團隊的成員,現(xiàn)是DeepMind研究科學家。?

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-02-14 19:02:52

人工智能網(wǎng)絡模型

2020-04-29 12:40:35

AI 神經(jīng)網(wǎng)絡 DeepMind

2023-04-25 14:00:00

GPTAI

2024-07-25 12:35:33

2020-03-27 13:33:21

阿里安全AIAI模型

2022-02-24 13:59:59

AI智能體研究

2023-06-20 07:57:06

聊天機器人ChatGPT

2025-03-13 10:28:07

2018-02-25 17:09:30

視頻AI圖像

2022-02-11 15:09:55

AI模型DeepMind

2024-05-16 17:07:04

紅帽AIRHEL AI

2023-10-04 11:54:34

2024-05-20 12:47:03

AI軟件開發(fā)

2024-07-18 07:07:07

2023-04-21 15:49:13

谷歌DeepMind

2023-01-13 14:04:14

AI

2023-10-04 09:46:35

2023-12-17 19:38:37

谷歌AI 模型人工智能
點贊
收藏

51CTO技術(shù)棧公眾號