自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="djexa"><menu id="djexa"></menu></abbr>

<blockquote id="djexa"><i id="djexa"></i></blockquote>

<blockquote id="djexa"><i id="djexa"></i></blockquote>

<legend id="djexa"><track id="djexa"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

2024圖靈獎(jiǎng)?lì)C給強(qiáng)化學(xué)習(xí)兩位奠基人！ChatGPT、DeepSeek背后功臣戴上遲來(lái)的冠冕

作者：新智元 2025-03-06 07:35:30

強(qiáng)化學(xué)習(xí)之父Richard Sutton和他的導(dǎo)師Andrew Barto，獲得了2024年圖靈獎(jiǎng)。有人說(shuō)，圖靈獎(jiǎng)終于頒給了強(qiáng)化學(xué)習(xí)，這是遲到的「獎(jiǎng)勵(lì)」。

2024年圖靈獎(jiǎng)，頒給了強(qiáng)化學(xué)習(xí)之父！

就在剛剛，計(jì)算機(jī)學(xué)會(huì)ACM宣布：Andrew G. Barto和Richard S. Sutton為2024年ACM圖靈獎(jiǎng)獲得者，以表彰他們?yōu)閺?qiáng)化學(xué)習(xí)奠定了概念和算法基礎(chǔ)。

繼諾貝爾獎(jiǎng)之后，AI學(xué)者再次將圖靈獎(jiǎng)收歸囊中。

圖片

「強(qiáng)化學(xué)習(xí)之父」Richard S. Sutton和他的導(dǎo)師Andrew G. Barto，都為強(qiáng)化學(xué)習(xí)做出了奠基性的貢獻(xiàn)。

從1980年代開(kāi)始的一系列論文中，二人就引入了強(qiáng)化學(xué)習(xí)的核心理念，構(gòu)建了數(shù)學(xué)基礎(chǔ)，并開(kāi)發(fā)了強(qiáng)化學(xué)習(xí)的關(guān)鍵算法——這是創(chuàng)建智能系統(tǒng)最為重要的方法之一。

1998年，Sutton和Barto共同撰寫了「Reinforcement Learning: An Introduction」（強(qiáng)化學(xué)習(xí)導(dǎo)論），這本書至今仍被視為該領(lǐng)域的奠基之作。目前，已被引用了超過(guò)75,000次。

如今，Barto是馬薩諸塞大學(xué)阿姆赫斯特分校信息與計(jì)算機(jī)科學(xué)系的名譽(yù)教授。

Sutton是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授，Keen Technologies的首席研究員，以及阿爾伯塔機(jī)器智能研究所（Amii）的特聘研究員。

ACM A.M. 圖靈獎(jiǎng)常被譽(yù)為「計(jì)算機(jī)領(lǐng)域的諾貝爾獎(jiǎng)」，獎(jiǎng)金高達(dá)100萬(wàn)美元，由谷歌提供資金支持。該獎(jiǎng)項(xiàng)以奠定了計(jì)算科學(xué)數(shù)學(xué)理論基礎(chǔ)的英國(guó)數(shù)學(xué)家艾倫·圖靈（Alan M. Turing）的名字命名。

得知自己獲得今年圖靈獎(jiǎng)的消息時(shí)，Sutton感到非常震驚。

就在最近，Sutton才剛發(fā)文引述了圖靈的名言

RL之父和他的博導(dǎo)

AI行業(yè)一直努力最大化機(jī)器知識(shí)容量。而身處這個(gè)行業(yè)的Richard Sutton，長(zhǎng)期以來(lái)一直在思考一個(gè)更為基礎(chǔ)的問(wèn)題——機(jī)器如何學(xué)習(xí)？

隨著「Reinforcement Learning：An Introduction」的出版，這本強(qiáng)化學(xué)習(xí)領(lǐng)域的「圣經(jīng)」在數(shù)十年后，仍然有著重要的意義。因?yàn)檫@些思想本質(zhì)上看似簡(jiǎn)單，卻對(duì)更廣泛的AI行業(yè)產(chǎn)生著持續(xù)的影響。

Reinforcement Learning: Summary and Review | Bill Mei

Sutton這樣解釋他的研究方法：研究必須從小處著手；這種基礎(chǔ)研究，不會(huì)立即為最新技術(shù)帶來(lái)明顯的改進(jìn)。

早在1978年，二人便開(kāi)始合作。

當(dāng)時(shí)，Sutton正在馬薩諸塞大學(xué)阿默斯特分校攻讀博士學(xué)位，而他的導(dǎo)師正是Barto。隨后，Sutton又跟著B(niǎo)arto完成了博士后研究。

他們編寫了一些最早的RL算法，就像人類或機(jī)器學(xué)習(xí)的方式一樣，讓機(jī)器通過(guò)反復(fù)試錯(cuò)獲取知識(shí)。

圖片

雖然Sutton由此贏得了學(xué)術(shù)界的贊譽(yù)，但在某種程度上，卻讓他跟谷歌、微軟、OpenAI等大公司構(gòu)建的LLM所代表主流理論，產(chǎn)生了分歧。

在他看來(lái)，這些技術(shù)只是在模仿人類行為，并未真正認(rèn)識(shí)到自己的行動(dòng)，并且從中學(xué)習(xí)——

我認(rèn)為它們并不在通往AGI的正確道路上。

強(qiáng)化學(xué)習(xí)的核心，是確保機(jī)器「從經(jīng)驗(yàn)中學(xué)習(xí)」，或者理解反饋并從錯(cuò)誤中學(xué)習(xí)。

然而，LLM是從海量歷史數(shù)據(jù)中提取信息來(lái)生成回應(yīng)的，所以它們的智能程度也僅僅與其神經(jīng)網(wǎng)絡(luò)在給定時(shí)間的規(guī)模相當(dāng)。

因此，LLM天然就有一種「愚蠢的弱點(diǎn)」。雖然可以調(diào)整對(duì)書面問(wèn)題的回答，但它們的主要目標(biāo)，僅僅是確定文本鏈中的下一個(gè)輸出而已。

對(duì)于如今的許多AI系統(tǒng)，Sutton都評(píng)價(jià)為「在于你互動(dòng)時(shí)完全不會(huì)學(xué)習(xí)」。

比如在他看來(lái)，ChatGPT就不會(huì)根據(jù)自己的經(jīng)驗(yàn)改變?nèi)魏螜?quán)重；它對(duì)結(jié)果漠不關(guān)心，也真正缺乏認(rèn)知；它對(duì)發(fā)生的任何事都不會(huì)驚訝，因?yàn)樗緛?lái)對(duì)于發(fā)生的事就沒(méi)有任何預(yù)期。

圖片

Sutton的谷歌DeepMind前同事Michael Bowling如此評(píng)價(jià)他——

當(dāng)世界其他地方都在追逐大語(yǔ)言模型應(yīng)用時(shí)，Rich仍在堅(jiān)守基礎(chǔ)研究的陣地。

在以后，當(dāng)人們希望看到能真正和人類互動(dòng)的AI系統(tǒng)，他們可能會(huì)意識(shí)到，Sutton對(duì)強(qiáng)化學(xué)習(xí)的貢獻(xiàn)是多么意義重大。

而且在過(guò)去五年中，RL也越來(lái)越被重視。引起全球轟動(dòng)的DeepSeek，就是用RL通過(guò)正反饋循環(huán)來(lái)訓(xùn)練AI的。

在阿爾伯塔機(jī)器智能研究所（Amii）負(fù)責(zé)人Cam Linke看來(lái)，Sutton是一位為人謙遜、不事張揚(yáng)的專業(yè)人士。他摒棄了科學(xué)領(lǐng)域常見(jiàn)的傳統(tǒng)等級(jí)制度或政治因素，對(duì)他來(lái)說(shuō)科學(xué)過(guò)程才是關(guān)鍵所在。

繼Geoffrey Hinton和Yoshua Bengio在2018年與Yann LeCun一起因?qū)ι疃壬窠?jīng)網(wǎng)絡(luò)研究的貢獻(xiàn)獲獎(jiǎng)后，Sutton是最新一位獲得圖靈獎(jiǎng)的加拿大研究者。

他表示，自己將自己看作是一個(gè)強(qiáng)化學(xué)習(xí)智能體，通過(guò)經(jīng)驗(yàn)在各個(gè)層面學(xué)習(xí)，比如踢到腳趾后調(diào)整走路的方式，或者接受一份工作，從中獲得樂(lè)趣。

圖片

什么是強(qiáng)化學(xué)習(xí)？

AI領(lǐng)域通常關(guān)注于構(gòu)建AI智能體——即能夠感知和行動(dòng)的實(shí)體。

更智能的AI智能體能夠選擇更好的行動(dòng)方案。因此，知道哪些行動(dòng)方案更好對(duì)AI至關(guān)重要。

獎(jiǎng)勵(lì)——這一借用自心理學(xué)和神經(jīng)科學(xué)的術(shù)語(yǔ)——表示一個(gè)提供給AI智能體與其行為質(zhì)量相關(guān)的信號(hào)。

強(qiáng)化學(xué)習(xí)（RL）就是在這種獎(jiǎng)勵(lì)信號(hào)的引導(dǎo)下學(xué)習(xí)找到更好行動(dòng)方案的過(guò)程。

從獎(jiǎng)勵(lì)中學(xué)習(xí)的理念對(duì)于動(dòng)物訓(xùn)練師來(lái)說(shuō)已經(jīng)存在了數(shù)千年。

后來(lái)，艾倫·圖靈（Alan Turing）在1950年的論文《計(jì)算機(jī)器與智能》中探討了「機(jī)器能思考嗎？」這一問(wèn)題，并提出了一種基于獎(jiǎng)勵(lì)和懲罰的機(jī)器學(xué)習(xí)方法。

雖然圖靈稱他曾進(jìn)行一些初步實(shí)驗(yàn)，而且Arthur Samuel在1950年代后期開(kāi)發(fā)了一個(gè)能通過(guò)自我對(duì)弈進(jìn)行學(xué)習(xí)的跳棋程序，但在隨后的幾十年里，AI的這一研究方向幾乎沒(méi)有取得任何進(jìn)展。

到了1980年代初，受到心理學(xué)觀察的啟發(fā)，Barto和他的博士生Sutton開(kāi)始將強(qiáng)化學(xué)習(xí)構(gòu)建為一個(gè)通用問(wèn)題框架。

他們借鑒了馬爾可夫決策過(guò)程（MDP）提供的數(shù)學(xué)基礎(chǔ)，在這個(gè)過(guò)程中，AI智能體在具有隨機(jī)性的環(huán)境中做出決策，在每次狀態(tài)轉(zhuǎn)換后接收獎(jiǎng)勵(lì)信號(hào)，目的是將長(zhǎng)期累積的獎(jiǎng)勵(lì)最大。

與標(biāo)準(zhǔn)MDP理論假設(shè)AI智能體已知MDP的所有信息不同，強(qiáng)化學(xué)習(xí)框架允許環(huán)境和獎(jiǎng)勵(lì)是未知的。

強(qiáng)化學(xué)習(xí)的信息需求最小，結(jié)合MDP框架的通用性，使得強(qiáng)化學(xué)習(xí)算法可以應(yīng)用于廣泛的問(wèn)題領(lǐng)域。

Barto和Sutton，無(wú)論是合作還是與其他研究者協(xié)作，都開(kāi)發(fā)出了許多強(qiáng)化學(xué)習(xí)的基本算法。

包括他們最重要的貢獻(xiàn)——時(shí)間差分學(xué)習(xí)，它在解決獎(jiǎng)勵(lì)預(yù)測(cè)問(wèn)題方面取得了重要突破，此外還有策略梯度方法和將神經(jīng)網(wǎng)絡(luò)作為表示學(xué)習(xí)函數(shù)的工具的使用。

他們還提出了結(jié)合學(xué)習(xí)和規(guī)劃的AI智能體設(shè)計(jì)，證明了將環(huán)境知識(shí)作為規(guī)劃基礎(chǔ)的價(jià)值。

正如前文提到的，「Reinforcement Learning: An Introduction」這本書使數(shù)千名研究人員能夠理解并為這一領(lǐng)域做出貢獻(xiàn)，更重要的是，它還在繼續(xù)激發(fā)當(dāng)今計(jì)算機(jī)科學(xué)中的許多重要研究活動(dòng)。

盡管Barto和Sutton的算法是幾十年前開(kāi)發(fā)的，但在過(guò)去十五年中，通過(guò)與深度學(xué)習(xí)算法（由2018年圖靈獎(jiǎng)獲得者Bengio、Hinton和LeCun開(kāi)創(chuàng)）相結(jié)合，強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用取得了重大突破——深度強(qiáng)化學(xué)習(xí)技術(shù)。

圖片

強(qiáng)化學(xué)習(xí)最引人注目的例子是AlphaGo計(jì)算機(jī)程序在2016年和2017年戰(zhàn)勝世界頂尖人類圍棋選手。

近幾年的另一個(gè)重大成就是聊天機(jī)器人ChatGPT的出現(xiàn)。

ChatGPT是一個(gè)LLM，其訓(xùn)練分為兩個(gè)階段，第二階段采用了一種稱為基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）技術(shù)，以更好地捕捉人類的期望和偏好。

強(qiáng)化學(xué)習(xí)在許多其他領(lǐng)域也取得了顯著成功。

一個(gè)備受矚目的研究案例是機(jī)器人在手中操作和解決物理（魔方）問(wèn)題的運(yùn)動(dòng)技能學(xué)習(xí)，這表明完全在模擬中進(jìn)行強(qiáng)化學(xué)習(xí)，最終也可能在顯著不同的現(xiàn)實(shí)世界中取得成功。

圖片

其他的應(yīng)用領(lǐng)域包括網(wǎng)絡(luò)擁塞控制、芯片設(shè)計(jì)、互聯(lián)網(wǎng)廣告、優(yōu)化算法、全球供應(yīng)鏈優(yōu)化、提升聊天機(jī)器人的行為和推理能力，甚至改進(jìn)計(jì)算機(jī)科學(xué)中最古老的問(wèn)題之一的矩陣乘法算法。

最后，這項(xiàng)部分受到神經(jīng)科學(xué)啟發(fā)的技術(shù)也反過(guò)來(lái)回饋了神經(jīng)科學(xué)。最近的研究，包括Barto的工作，表明人工智能中開(kāi)發(fā)的特定強(qiáng)化學(xué)習(xí)算法，為有關(guān)人類大腦中多巴胺系統(tǒng)的大量發(fā)現(xiàn)提供了最佳解釋。

獲獎(jiǎng)人介紹

Andrew Barto

Andrew Barto是馬薩諸塞大學(xué)阿默斯特分校信息與計(jì)算機(jī)科學(xué)系榮譽(yù)退休教授。是IEEE和AAAS的Fellow。

Barto于1970年從密歇根大學(xué)獲得數(shù)學(xué)學(xué)士學(xué)位。在閱讀了Michael Arbib and McCulloch和Pitts的作品后，他對(duì)利用計(jì)算機(jī)和數(shù)學(xué)來(lái)模擬大腦產(chǎn)生了興趣，五年后因一篇關(guān)于元胞自動(dòng)機(jī)的論文獲得了該校的計(jì)算機(jī)科學(xué)博士學(xué)位。

他于1977年作為博士后研究員開(kāi)始在馬薩諸塞大學(xué)阿默斯特分校的職業(yè)生涯，此后曾擔(dān)任多個(gè)職位，包括副教授、教授和系主任。

此前，他曾獲得包括馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)、IJCAI研究卓越獎(jiǎng)和IEEE神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先驅(qū)獎(jiǎng)在內(nèi)的眾多獎(jiǎng)項(xiàng)。

Richard Sutton

Richard Sutton是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授，Keen Technologies的研究科學(xué)家，以及阿爾伯塔機(jī)器智能研究所（Amii）的首席科學(xué)顧問(wèn)。是AAAI、英國(guó)皇家學(xué)會(huì)和加拿大皇家學(xué)會(huì)的Fellow。

在2017年至2023年期間，他曾擔(dān)任DeepMind的杰出研究科學(xué)家。

在加入阿爾伯塔大學(xué)之前，他于1998年至2002年在AT&T香農(nóng)實(shí)驗(yàn)室AI部門擔(dān)任首席技術(shù)專家。

Sutton獲得了斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位，并在馬薩諸塞大學(xué)阿默斯特分校獲得計(jì)算機(jī)與信息科學(xué)的碩士和博士學(xué)位。

Sutton獲得的榮譽(yù)包括國(guó)際AI聯(lián)合會(huì)研究卓越獎(jiǎng)、加拿大AI協(xié)會(huì)終身成就獎(jiǎng)和馬薩諸塞大學(xué)阿默斯特分校杰出研究成就獎(jiǎng)。

參考資料：

https://awards.acm.org/turing

責(zé)任編輯：武曉燕來(lái)源：新智元

ChatGPT DeepSeek 圖靈獎(jiǎng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)