自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖靈獎(jiǎng)?lì)C給強(qiáng)化學(xué)習(xí)師徒,一個(gè)造船改行寫代碼,一個(gè)痛批AI投身AGI

人工智能 新聞
最近幾年來AI的重大進(jìn)展,從AlphaGo到ChatGPT,都與他們開創(chuàng)的強(qiáng)化學(xué)習(xí)技術(shù)密切相關(guān)。

計(jì)算機(jī)最高獎(jiǎng)圖靈獎(jiǎng)揭曉!

強(qiáng)化學(xué)習(xí)先驅(qū)Andrew Barto與Richard Sutton共同獲獎(jiǎng),他們被評(píng)價(jià)為“引領(lǐng)基礎(chǔ)AI技術(shù)開發(fā)的研究人員”。

圖片

值得一提的是,兩位是師徒關(guān)系,Richard Sutton是Andrew Barto他第一位博士生。

兩人1998年合著的《強(qiáng)化學(xué)習(xí):導(dǎo)論》,時(shí)至今日也是強(qiáng)化學(xué)習(xí)的標(biāo)準(zhǔn)教材,引用數(shù)接近8萬,尤其在最近五年也仍在持續(xù)攀升。

圖片

最近幾年來AI的重大進(jìn)展,從AlphaGo到ChatGPT,都與他們開創(chuàng)的強(qiáng)化學(xué)習(xí)技術(shù)密切相關(guān)。

師徒拉開了強(qiáng)化學(xué)習(xí)大門

先來看Andrew Barto,是馬薩諸塞大學(xué)阿默斯特分校信息與計(jì)算機(jī)科學(xué)系榮譽(yù)教授,年紀(jì)在76歲左右。

圖片

他是IEEE Fellow,曾獲馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)、IJCAI 研究卓越獎(jiǎng)(Research Excellence Award)和 IEEE 神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先驅(qū)獎(jiǎng)。

Barto本科畢業(yè)于密歇根大學(xué)數(shù)學(xué)專業(yè),此前他主修的是船舶建筑與工程專業(yè)。在閱讀了邁克爾·阿比布、麥卡洛克和皮茨的著作后,他開始對(duì)使用計(jì)算機(jī)和數(shù)學(xué)來模擬大腦產(chǎn)生了興趣。

五年后,他以一篇關(guān)于細(xì)胞自動(dòng)機(jī)的論文獲得了計(jì)算機(jī)的博士學(xué)位。

《細(xì)胞自動(dòng)機(jī)作為自然系統(tǒng)的模型》

圖片

1977 年,他作為博士后研究助理在馬薩諸塞大學(xué)阿默斯特分校開始職業(yè)生涯,此后擔(dān)任過多個(gè)職位,包括副教授、教授和系主任。

任職期間,Barto 共同領(lǐng)導(dǎo)了自主學(xué)習(xí)實(shí)驗(yàn)室(最初為自適應(yīng)網(wǎng)絡(luò)實(shí)驗(yàn)室),該實(shí)驗(yàn)室提出了強(qiáng)化學(xué)習(xí)的幾個(gè)關(guān)鍵思想。

圖片

直到Richard Sutton來到他的實(shí)驗(yàn)室,他們正式拉開了強(qiáng)化學(xué)習(xí)的大門。

圖片

2012年他官宣退休,再也不再招收學(xué)生。

再來看看他的學(xué)生Richard Sutton,時(shí)至今日仍然AGI探索積極分子。

目前,他是是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授、Keen Technologies(一家總部位于德克薩斯州達(dá)拉斯的通用人工智能公司)的研究科學(xué)家,以及阿爾伯塔機(jī)器智能研究所(Amii)的首席科學(xué)顧問。

圖片

1978年,他從斯坦福大學(xué)心理學(xué)專業(yè)畢業(yè),隨后在Andrew Barto的指導(dǎo)下,先后獲得了碩博學(xué)位。

他的博士論文《Temporal Credit Assignment in Reinforcement Learning》(強(qiáng)化學(xué)習(xí)中的時(shí)間學(xué)分分配),介紹了行為批判架構(gòu)和時(shí)間學(xué)分分配,足足有210頁。

圖片而要說興趣轉(zhuǎn)向強(qiáng)化學(xué)習(xí)的緣由,他是受到Harry Klopf在 20 世紀(jì) 70 年代的研究成果的影響,該成果提出監(jiān)督學(xué)習(xí)不足以用于人工智能或解釋智能行為,而由“行為的享樂方面”驅(qū)動(dòng)的試錯(cuò)學(xué)習(xí)才是必要的。

Sutton 從 2017 年到 2023 年是 DeepMind 的杰出研究科學(xué)家。在加入阿爾伯塔大學(xué)之前,他曾于 1998 年至 2002 年在新澤西州 Florham Park 的 AT&T 香農(nóng)實(shí)驗(yàn)室人工智能部門擔(dān)任首席技術(shù)人員。

2019年,他曾撰文《痛苦的教訓(xùn)》痛批當(dāng)前AI的發(fā)展,表示“未能吸取慘痛教訓(xùn),即從長遠(yuǎn)來看,建立我們的思維方式是行不通的”。

他認(rèn)為“70 年的人工智能研究表明,利用計(jì)算的通用方法最終是最有效的,而且領(lǐng)先優(yōu)勢很大”,打敗了在計(jì)算機(jī)視覺、語音識(shí)別、國際象棋或圍棋等特定領(lǐng)域基于人類知識(shí)的努力。

2023年,他官宣與John Carmack合作,共同開發(fā)AGI,也就是Keen Technologies。

圖靈獎(jiǎng)官方科普強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)的起源

強(qiáng)化學(xué)習(xí)是怎么來的?圖靈獎(jiǎng)官網(wǎng)在頒獎(jiǎng)公告中介紹到:

人工智能(AI)領(lǐng)域通常涉及構(gòu)建智能體——即感知和行動(dòng)的實(shí)體。

更強(qiáng)的智能體選擇更好行動(dòng)方案。因此,人工智能的核心是某些行動(dòng)方案比其他方案更好的觀念。獎(jiǎng)勵(lì)——一個(gè)從心理學(xué)和神經(jīng)科學(xué)借用的術(shù)語——表示提供給智能體與其實(shí)際行為質(zhì)量相關(guān)的信號(hào)。強(qiáng)化學(xué)習(xí)(RL)是在此信號(hào)下學(xué)習(xí)如何更成功行為的進(jìn)程。

獎(jiǎng)勵(lì)學(xué)習(xí)的理念對(duì)動(dòng)物培訓(xùn)師來說已經(jīng)存在了數(shù)千年。

后來,艾倫·圖靈在1950年的論文《Computing Machinery and Intelligence》中提出了“機(jī)器能思考嗎?”的問題,并提出了基于獎(jiǎng)勵(lì)和懲罰的機(jī)器學(xué)習(xí)方法。

圖片

雖然圖靈報(bào)告稱已經(jīng)使用這種方法進(jìn)行了一些初步實(shí)驗(yàn), 且Arthur Samuel在20世紀(jì)50年代末開發(fā)了一個(gè)通過自我對(duì)弈學(xué)習(xí)的國際象棋程序,但在接下來的幾十年里,人們?cè)谶@條道路上進(jìn)步甚微。

圖片

直到20世紀(jì)80年代初,Barto和他的博士研究生Sutton受到心理學(xué)觀察的啟發(fā),開始將強(qiáng)化學(xué)習(xí)構(gòu)想為一個(gè)通用的問題框架。

他們借鑒了馬爾可夫決策過程(MDPs)提供的數(shù)學(xué)基礎(chǔ)。在馬爾可夫決策過程中,智能體在隨機(jī)環(huán)境中做出決策,每次狀態(tài)轉(zhuǎn)移后都會(huì)收到一個(gè)獎(jiǎng)勵(lì)信號(hào),并旨在最大化其長期累積獎(jiǎng)勵(lì)。標(biāo)準(zhǔn)的馬爾可夫決策過程理論假設(shè)智能體知曉關(guān)于馬爾可夫決策過程的一切信息,而強(qiáng)化學(xué)習(xí)框架則允許環(huán)境和獎(jiǎng)勵(lì)未知。強(qiáng)化學(xué)習(xí)所需的最少信息,再加上馬爾可夫決策過程框架的通用性,使得強(qiáng)化學(xué)習(xí)算法能夠應(yīng)用于廣泛的問題,如下文將進(jìn)一步解釋。

圖片

Barto和Sutton共同以及與其他人一起,開發(fā)了許多強(qiáng)化學(xué)習(xí)的基本算法方法。其中包括他們最重要的貢獻(xiàn)——時(shí)序差分學(xué)習(xí)(在解決獎(jiǎng)勵(lì)預(yù)測問題上取得了重大進(jìn)展),還有策略梯度方法以及將神經(jīng)網(wǎng)絡(luò)用作表示學(xué)習(xí)函數(shù)的工具。

他們還提出了將學(xué)習(xí)與規(guī)劃相結(jié)合的智能體設(shè)計(jì),展示了獲取環(huán)境知識(shí)作為規(guī)劃基礎(chǔ)的價(jià)值。

或許同樣具有影響力的是他們的教科書《Reinforcement Learning: An Introduction》(1998),這本書至今仍是該領(lǐng)域的標(biāo)準(zhǔn)參考文獻(xiàn),被引用次數(shù)超過7.5萬次。它讓數(shù)千名研究人員得以理解這一新興領(lǐng)域并為之做出貢獻(xiàn),直至今日仍激勵(lì)著計(jì)算機(jī)科學(xué)領(lǐng)域許多重要的研究活動(dòng)。

圖片

深度強(qiáng)化學(xué)習(xí)的應(yīng)用

盡管Barto和Sutton的算法是幾十年前開發(fā)的,但強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中的重大進(jìn)展卻是在過去十五年中通過將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)算法(由2018年圖靈獎(jiǎng)得主Bengio、Hinton和LeCun 創(chuàng))相結(jié)合而實(shí)現(xiàn)的,這催生了深度強(qiáng)化學(xué)習(xí)技術(shù)。

強(qiáng)化學(xué)習(xí)最著名的例子是AlphaGo在2016年和2017年戰(zhàn)勝了最頂尖的人類圍棋選手。近期的另一項(xiàng)重大成就是ChatGPT。

ChatGPT是一個(gè)分兩個(gè)階段訓(xùn)練的大語言模型,其中第二階段采用了一種名為基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的技術(shù),以捕捉人類的期望。

圖片

強(qiáng)化學(xué)習(xí)在許多其他領(lǐng)域也取得了成功。一個(gè)備受矚目的研究實(shí)例是機(jī)器人在手中操作技能學(xué)習(xí)以及解決實(shí)體魔方問題,這表明在模擬環(huán)境中進(jìn)行所有強(qiáng)化學(xué)習(xí),最終在差異顯著的現(xiàn)實(shí)世界中也能取得成功。

圖片

其他領(lǐng)域包括網(wǎng)絡(luò)擁塞控制、芯片設(shè)計(jì)、互聯(lián)網(wǎng)廣告、優(yōu)化、全球供應(yīng)鏈優(yōu)化、提升聊天機(jī)器人的行為和推理能力,甚至改進(jìn)計(jì)算機(jī)科學(xué)中最古老問題之一——矩陣乘法的算法。

圖片

最后,一項(xiàng)部分受神經(jīng)科學(xué)啟發(fā)的技術(shù)也反過來帶來了啟發(fā)。近期的研究(包括Barto的工作)表明,人工智能領(lǐng)域的特定強(qiáng)化學(xué)習(xí)算法能夠很好地解釋關(guān)于人類大腦中多巴胺系統(tǒng)的一系列研究發(fā)現(xiàn)。

美國計(jì)算機(jī)協(xié)會(huì)(ACM)主席Yannis Ioannidis稱“Barto和Sutton的工作展示了運(yùn)用多學(xué)科方法應(yīng)對(duì)我們領(lǐng)域長期存在的挑戰(zhàn)所蘊(yùn)含的巨大潛力”。

從認(rèn)知科學(xué)、心理學(xué)到神經(jīng)科學(xué)等研究領(lǐng)域都啟發(fā)了強(qiáng)化學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)為人工智能領(lǐng)域一些最重要的進(jìn)展奠定了基礎(chǔ),也讓我們對(duì)大腦的工作方式有了更深入的了解。

Barto和Sutton的工作并非我們可以拋在身后的墊腳石。強(qiáng)化學(xué)習(xí)仍在不斷發(fā)展,為計(jì)算機(jī)科學(xué)和許多其他學(xué)科的進(jìn)一步發(fā)展提供了巨大潛力。我們用本領(lǐng)域最負(fù)盛名的獎(jiǎng)項(xiàng)來表彰他們是恰如其分的?!?/p>

谷歌高級(jí)副總裁Jeff Dean(谷歌為圖靈獎(jiǎng)提供資金支持)指出,“Barto和Sutton開創(chuàng)的強(qiáng)化學(xué)習(xí)直接回應(yīng)了圖靈的挑戰(zhàn)”。

在過去幾十年里,他們的工作一直是人工智能發(fā)展的關(guān)鍵。他們開發(fā)的工具仍然是人工智能熱潮的核心支柱,帶來了重大進(jìn)展,吸引了大批年輕研究人員,并推動(dòng)了數(shù)十億美元的投資。強(qiáng)化學(xué)習(xí)的影響在未來仍將持續(xù)?!?/p>

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-06 07:35:30

2024-12-09 08:45:00

模型AI

2017-11-21 09:20:06

深度學(xué)習(xí)TensorFlow游戲AI

2025-02-24 08:20:00

AI代碼生成

2024-11-01 09:39:26

強(qiáng)化學(xué)習(xí)AI

2025-04-02 12:20:00

開發(fā)代碼函數(shù)

2018-10-18 14:26:45

云計(jì)算架構(gòu)師管理

2023-04-10 14:20:47

ChatGPTRESTAPI

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2024-08-12 00:00:05

集成學(xué)習(xí)典型算法代碼

2024-07-30 08:08:49

2024-08-08 12:33:55

算法

2021-04-13 10:25:57

Linux命令pstree

2024-07-12 08:38:05

2021-04-11 10:08:50

LinuxLinux命令ntpdate

2012-07-13 10:01:03

2016-03-01 14:37:47

華為

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2014-01-09 09:42:56

Python語言檢測器

2022-09-19 08:07:28

Goweb 程序
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)