自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="0dzdb"></tr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

作者：機(jī)器之心 2021-06-11 09:28:04

新聞機(jī)器學(xué)習(xí)

人們把具備與人類同等智慧、或超越人類的人工智能稱為通用人工智能（AGI）。這種系統(tǒng)被認(rèn)為可以執(zhí)行人類能夠執(zhí)行的任何智能任務(wù)，它是人工智能領(lǐng)域主要研究目標(biāo)之一。

幾十年來，在人工智能領(lǐng)域，計(jì)算機(jī)科學(xué)家設(shè)計(jì)并開發(fā)了各種復(fù)雜的機(jī)制和技術(shù)，以復(fù)現(xiàn)視覺、語言、推理、運(yùn)動(dòng)技能等智能能力。盡管這些努力使人工智能系統(tǒng)在有限的環(huán)境中能夠有效地解決特定的問題，但卻尚未開發(fā)出與人類和動(dòng)物一般的智能系統(tǒng)。

人們把具備與人類同等智慧、或超越人類的人工智能稱為通用人工智能（AGI）。這種系統(tǒng)被認(rèn)為可以執(zhí)行人類能夠執(zhí)行的任何智能任務(wù)，它是人工智能領(lǐng)域主要研究目標(biāo)之一。關(guān)于通用人工智能的探索正在不斷發(fā)展。近日強(qiáng)化學(xué)習(xí)大佬 David Silver、Richard Sutton 等人在一篇名為《Reward is enough》的論文中提出將智能及其相關(guān)能力理解為促進(jìn)獎(jiǎng)勵(lì)最大化。

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

論文地址：
https://www.sciencedirect.com/science/article/pii/S0004370221000862

該研究認(rèn)為獎(jiǎng)勵(lì)足以驅(qū)動(dòng)自然和人工智能領(lǐng)域所研究的智能行為，包括知識(shí)、學(xué)習(xí)、感知、社交智能、語言、泛化能力和模仿能力，并且研究者認(rèn)為借助獎(jiǎng)勵(lì)最大化和試錯(cuò)經(jīng)驗(yàn)就足以開發(fā)出具備智能能力的行為。因此，他們得出結(jié)論：強(qiáng)化學(xué)習(xí)將促進(jìn)通用人工智能的發(fā)展。

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

AI 的兩條路徑

創(chuàng)建 AI 的一種常見方法是嘗試在計(jì)算機(jī)中復(fù)制智能行為的元素。例如，我們對(duì)哺乳動(dòng)物視覺系統(tǒng)的理解催生出各種人工智能系統(tǒng)，這些系統(tǒng)可以對(duì)圖像進(jìn)行分類、定位照片中的物體、定義物體的邊界等。同樣，我們對(duì)語言的理解也幫助開發(fā)了各種自然語言處理系統(tǒng)，比如問答、文本生成和機(jī)器翻譯。

但這些都是狹義人工智能的實(shí)例，只是被設(shè)計(jì)用來執(zhí)行特定任務(wù)的系統(tǒng)，而不具有解決一般問題的能力。一些研究者認(rèn)為，組裝多個(gè)狹義人工智能模塊將產(chǎn)生更強(qiáng)大的智能系統(tǒng)，以解決需要多種技能的復(fù)雜問題。

而在該研究中，研究者認(rèn)為創(chuàng)建通用人工智能的方法是重新創(chuàng)建一種簡(jiǎn)單但有效的規(guī)則。該研究首先提出假設(shè)：獎(jiǎng)勵(lì)最大化這一通用目標(biāo)，足以驅(qū)動(dòng)自然智能和人工智能中至少大部分的智能行為?！?/p>

這基本上就是大自然自身的運(yùn)作方式。數(shù)十億年的自然選擇和隨機(jī)變異讓生物不斷進(jìn)化。能夠應(yīng)對(duì)環(huán)境挑戰(zhàn)的生物才能得以生存和繁殖，其余的則被淘汰。這種簡(jiǎn)單而有效的機(jī)制促使生物進(jìn)化出各種技能和能力來感知、生存、改變環(huán)境，以及相互交流。

研究者說：「人工智能體未來所面臨的環(huán)境和動(dòng)物與人類面臨的自然世界一樣，本質(zhì)上是如此復(fù)雜，以至于它們需要具備復(fù)雜的能力才能在這些環(huán)境中成功生存。」因此，以獎(jiǎng)勵(lì)最大化來衡量的成功，需要智能體表現(xiàn)出相關(guān)的智能能力。從這個(gè)意義上說，獎(jiǎng)勵(lì)最大化的一般目標(biāo)包含了許多甚至可能是所有的智能目標(biāo)。并且，研究者認(rèn)為最大化獎(jiǎng)勵(lì)最普遍和可擴(kuò)展的方式是借助與環(huán)境交互學(xué)習(xí)的智能體。

獎(jiǎng)勵(lì)就足夠了

與人工智能的許多交互式方法一樣，強(qiáng)化學(xué)習(xí)遵循一種協(xié)議，將問題分解為兩個(gè)隨時(shí)間順序交互的系統(tǒng)：做出決策的智能體（解決方案）和受這些決策影響的環(huán)境（問題）。這與其他專用協(xié)議形成對(duì)比，其他專用協(xié)議可能考慮多個(gè)智能體、多個(gè)環(huán)境或其他交互模式。

基于強(qiáng)化學(xué)習(xí)的思想，該研究認(rèn)為獎(jiǎng)勵(lì)足以表達(dá)各種各樣的目標(biāo)。智能的多種形式可以被理解為有利于對(duì)應(yīng)的獎(jiǎng)勵(lì)最大化，而與每種智能形式相關(guān)的能力能夠在追求獎(jiǎng)勵(lì)的過程中隱式產(chǎn)生。因此該研究假設(shè)所有智能及相關(guān)能力可以理解為一種假設(shè)：「獎(jiǎng)勵(lì)就足夠了」。智能及其相關(guān)的能力，可以理解為智能體在其環(huán)境中的行為獎(jiǎng)勵(lì)最大化。

這一假設(shè)很重要，因?yàn)槿绻钦_的，那么一個(gè)獎(jiǎng)勵(lì)最大化智能體在服務(wù)于其實(shí)現(xiàn)目標(biāo)的過程中，就可以隱式地產(chǎn)生與智能相關(guān)的能力，具備出色智能能力的智能體將能夠「適者生存」。研究者從以下幾個(gè)方面論述了「獎(jiǎng)勵(lì)就足夠了」這一假設(shè)。

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

知識(shí)和學(xué)習(xí)

該研究將知識(shí)定義為智能體內(nèi)部信息，例如，知識(shí)可以包含于用于選擇動(dòng)作、預(yù)測(cè)累積獎(jiǎng)勵(lì)或預(yù)測(cè)未來觀測(cè)特征的函數(shù)參數(shù)中。有些知識(shí)是先驗(yàn)知識(shí)，有些知識(shí)是通過學(xué)習(xí)獲得的。獎(jiǎng)勵(lì)最大化的智能體將根據(jù)環(huán)境情況包含前者，例如借助自然智能體的進(jìn)化和人工智能體的設(shè)計(jì)，并通過學(xué)習(xí)獲取后者。隨著環(huán)境的不斷豐富，需求的平衡將越來越傾向于學(xué)習(xí)知識(shí)。

感知

人類需要各種感知能力來積累獎(jiǎng)勵(lì)，例如分辨朋友和敵人，開車時(shí)進(jìn)行場(chǎng)景解析等。這可能需要多種感知模式，包括視覺、聽覺、嗅覺、軀體感覺和本體感覺。

相比于監(jiān)督學(xué)習(xí)，從獎(jiǎng)勵(lì)最大化的角度考慮感知，最終可能會(huì)支持更廣泛的感知行為，包括如下具有挑戰(zhàn)性和現(xiàn)實(shí)形式的感知能力：

動(dòng)作和觀察通常交織在多種感知形式中，例如觸覺感知、視覺掃視、物理實(shí)驗(yàn)、回聲定位等；

感知的效用通常取決于智能體的行為；

獲取信息可能具有顯式和隱式成本；

數(shù)據(jù)的分布通常依賴于上下文，在豐富的環(huán)境中，潛在數(shù)據(jù)多樣性可能遠(yuǎn)遠(yuǎn)超過智能體的容量或已存在數(shù)據(jù)的數(shù)量——這需要從經(jīng)驗(yàn)中獲取感知；

感知的許多應(yīng)用程序無法獲得有標(biāo)記的數(shù)據(jù)。

社交智能

社交智能是一種理解其他智能體并與之有效互動(dòng)的能力。根據(jù)該研究的假設(shè)，社交智能可以被理解為在智能體環(huán)境中的某一智能體最大化累積獎(jiǎng)勵(lì)。按照這種標(biāo)準(zhǔn)智能體 - 環(huán)境協(xié)議，一個(gè)智能體觀察其他智能體的行為，并可能通過自身行為影響其他智能體，就像它觀察和影響環(huán)境的其他方面一樣。一個(gè)能夠預(yù)測(cè)和影響其他智能體行為的智能體通?？梢垣@得更大的累積獎(jiǎng)勵(lì)。因此，如果一個(gè)環(huán)境需要社交智能(例如包含動(dòng)物或人類的環(huán)境)，獎(jiǎng)勵(lì)最大化將能夠產(chǎn)生社交智能。

語言

語言一直是自然和人工智能領(lǐng)域大量研究的一個(gè)主題。由于語言在人類文化和互動(dòng)中起著主導(dǎo)作用，智能本身的定義往往以理解和使用語言的能力為前提，尤其是自然語言。

然而，當(dāng)前的語言建模本身不足以產(chǎn)生更廣泛的與智能相關(guān)的語言能力，包括：

語言通常是上下文相關(guān)的，不僅與所說的內(nèi)容相關(guān)，還與智能體周圍環(huán)境中正在發(fā)生的其他事情有關(guān)，有時(shí)需要通過視覺和其他感官模式感知。此外，語言經(jīng)常穿插其他表達(dá)行為，例如手勢(shì)、面部表情、音調(diào)變化等。

語言是有目的并能對(duì)環(huán)境產(chǎn)生影響的。例如，銷售人員學(xué)習(xí)調(diào)整他們的語言以最大化銷售額。

語言的具體含義和效用因智能體的情況和行為而異。例如，礦工可能需要有關(guān)巖石穩(wěn)定性的語言，農(nóng)民可能需要有關(guān)土壤肥力的語言。此外，語言可能存在機(jī)會(huì)成本，例如討論農(nóng)業(yè)的人并不一定是從事農(nóng)業(yè)工作）。

在豐富的環(huán)境中，語言處理不可預(yù)見事件的潛在用途可能超出任何語料庫的能力。在這些情況下，可能需要通過經(jīng)驗(yàn)動(dòng)態(tài)地解決語言問題。例如開發(fā)一項(xiàng)新技術(shù)或找到一種方法來解決一個(gè)新的問題。

該研究認(rèn)為基于「獎(jiǎng)勵(lì)就足夠了」的假設(shè)，豐富的語言能力，包括所有這些更廣泛的能力，都應(yīng)該源于對(duì)獎(jiǎng)勵(lì)的追求。

泛化

泛化能力通常被定義為將一個(gè)問題的解決方案轉(zhuǎn)換為另一個(gè)問題的解決方案的能力。例如，在監(jiān)督學(xué)習(xí)中，泛化可能專注于將從一個(gè)數(shù)據(jù)集（例如照片）學(xué)到的解決方案轉(zhuǎn)移到另一個(gè)數(shù)據(jù)集（例如繪畫）。

根據(jù)該研究的假設(shè)，泛化可以通過在智能體和單個(gè)復(fù)雜環(huán)境之間的持續(xù)交互流中最大化累積獎(jiǎng)勵(lì)來實(shí)現(xiàn)，這同樣遵循標(biāo)準(zhǔn)的智能體 - 環(huán)境協(xié)議。人類世界等環(huán)境需要泛化，因?yàn)橹悄荏w在不同的時(shí)間會(huì)面對(duì)環(huán)境的不同方面。例如，一只吃水果的動(dòng)物可能每天都會(huì)遇到一棵新樹，這個(gè)動(dòng)物也可能會(huì)受傷、遭受干旱或面臨入侵物種。在每種情況下，動(dòng)物都必須通過泛化過去狀態(tài)的經(jīng)驗(yàn)來快速適應(yīng)新狀態(tài)。動(dòng)物面臨的不同狀態(tài)并沒有被整齊地劃分為具有不同標(biāo)簽的任務(wù)。相反，狀態(tài)取決于動(dòng)物的行為，它可能結(jié)合了在不同時(shí)間尺度上重復(fù)出現(xiàn)的各種元素，可以觀察到狀態(tài)的重要方面。豐富的環(huán)境同樣需要智能體從過去的狀態(tài)泛化到未來的狀態(tài)，以及所有相關(guān)的復(fù)雜性，以便有效地積累獎(jiǎng)勵(lì)。

模仿

模仿是與人類和動(dòng)物智能相關(guān)的一種重要能力，它可以幫助人類和動(dòng)物快速獲得其他能力，例如語言、知識(shí)和運(yùn)動(dòng)技能。在人工智能中，模仿通常被表述為通過行為克隆，從演示中學(xué)習(xí)，并提供有關(guān)教師行為、觀察和獎(jiǎng)勵(lì)的明確數(shù)據(jù)時(shí)。相比之下，觀察學(xué)習(xí)的自然能力包括從觀察到的其他人類或動(dòng)物的行為中進(jìn)行的任何形式的學(xué)習(xí)，并且不要求直接訪問教師的行為、觀察和獎(jiǎng)勵(lì)。這表明，與通過行為克隆的直接模仿相比，在復(fù)雜環(huán)境中可能需要更廣泛和現(xiàn)實(shí)的觀察學(xué)習(xí)能力，包括：

其他智能體可能是智能體的環(huán)境的組成部分（例如嬰兒觀察其母親），而無需假設(shè)存在包含教師數(shù)據(jù)的特殊數(shù)據(jù)集；

智能體可能需要學(xué)習(xí)它自己的狀態(tài)與另一個(gè)智能體的狀態(tài)之間的關(guān)聯(lián)，或者智能體自己的動(dòng)作和另一個(gè)智能體的觀察結(jié)果，這可能會(huì)產(chǎn)生更高的抽象級(jí)別；

其他智能體可能只能被部分觀察到，因此他們的行為或目標(biāo)可能只是被不完美地推斷出來；

其他智能體可能會(huì)表現(xiàn)出應(yīng)避免的不良行為；

環(huán)境中可能有許多其他智能體，表現(xiàn)出不同的技能或不同的能力水平。

該研究認(rèn)為這些更廣泛的觀察學(xué)習(xí)能力能夠由獎(jiǎng)勵(lì)最大化驅(qū)動(dòng)的，從單個(gè)智能體的角度來看，它只是將其他智能體視為其環(huán)境的組成部分，這可能會(huì)帶來許多與行為克隆相同的好處。例如樣本高效的知識(shí)獲取，但這需要更廣泛和更綜合的背景下。

通用智能

基于該研究的假設(shè)，通用智能可以理解為通過在單一復(fù)雜的環(huán)境中最大化一個(gè)特殊獎(jiǎng)勵(lì)來實(shí)現(xiàn)。例如，自然智能在其整個(gè)生命周期中都面向從與自然世界的互動(dòng)中產(chǎn)生的連續(xù)經(jīng)驗(yàn)流。動(dòng)物的經(jīng)驗(yàn)流足夠豐富和多樣，它可能需要靈活的能力來實(shí)現(xiàn)各種各樣的子目標(biāo)（例如覓食、戰(zhàn)斗、逃跑等），以便成功地最大化其整體獎(jiǎng)勵(lì)（例如饑餓或繁殖）。類似地，如果人工智能體的經(jīng)驗(yàn)流足夠豐富，那么單一目標(biāo)（例如電池壽命或生存）可能隱含地需要實(shí)現(xiàn)同樣廣泛的子目標(biāo)的能力，因此獎(jiǎng)勵(lì)最大化應(yīng)該足以產(chǎn)生一種通用人工智能。

強(qiáng)化學(xué)習(xí)智能體

該研究的主要假設(shè)是智能及其相關(guān)能力可以被理解為促進(jìn)獎(jiǎng)勵(lì)最大化，這與智能體的性質(zhì)無關(guān)。因此，如何構(gòu)建最大化獎(jiǎng)勵(lì)的智能體是一個(gè)重要問題。該研究認(rèn)為這個(gè)問題同樣可以通過問題本身，即「獎(jiǎng)勵(lì)最大化」來回答。具體來說，研究者設(shè)想了一種具有一般能力的智能體，然后從他們與環(huán)境交互的持續(xù)經(jīng)驗(yàn)中學(xué)習(xí)如何最大化獎(jiǎng)勵(lì)。這種智能體，被稱之為強(qiáng)化學(xué)習(xí)智能體。

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

在所有可能的最大化獎(jiǎng)勵(lì)的解決方法中，最自然的方法當(dāng)然是通過與環(huán)境交互，從經(jīng)驗(yàn)中學(xué)習(xí)。隨著時(shí)間的推移，這種互動(dòng)體驗(yàn)提供了大量關(guān)于因果關(guān)系、行為后果以及如何積累獎(jiǎng)勵(lì)的信息。與其預(yù)先確定智能體的行為（相信設(shè)計(jì)者對(duì)環(huán)境的預(yù)知），不如賦予智能體發(fā)現(xiàn)自己行為的一般能力（相信經(jīng)驗(yàn)）是很自然的。更具體地說，最大化獎(jiǎng)勵(lì)的設(shè)計(jì)目標(biāo)是通過從經(jīng)驗(yàn)中學(xué)習(xí)最大化獎(jiǎng)勵(lì)的行為的持續(xù)內(nèi)部過程來實(shí)現(xiàn)的。

獎(jiǎng)勵(lì)真的足夠了嗎？

對(duì)于該研究「獎(jiǎng)勵(lì)就足夠了」的觀點(diǎn)，有網(wǎng)友表示不贊成：「這似乎是對(duì)個(gè)人效用函數(shù)這一共同概念的重新語境化。所有生物都有效用函數(shù)，他們的目標(biāo)是最大化他們的個(gè)人效用。效用理論有著深厚而豐富的歷史淵源，但本文對(duì)效用理論的認(rèn)識(shí)并不多見。Silver 和 Sutton 都是 RL 領(lǐng)域的大牛，但對(duì)我而言，這篇論文給我的感覺很糟糕。」

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

還有網(wǎng)友認(rèn)為這是重新包裝進(jìn)化論：

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

甚至有人質(zhì)疑「?jìng)涫茏鹁吹难芯空吒菀紫萑脒^度自信」：

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

還有網(wǎng)友表示：「這篇文章沒有對(duì)可以做什么和不能做什么設(shè)置任何界限。難道無需直接分析函數(shù)即可知道在嘗試最大化函數(shù)時(shí)可以或不能出現(xiàn)什么嗎？獎(jiǎng)勵(lì)函數(shù)與獲得這些獎(jiǎng)勵(lì)的系統(tǒng)相結(jié)合，完全確定了 “可出現(xiàn)” 行為的空間，而無論出現(xiàn)什么，對(duì)它們來說都是智能行為?！?/p>

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

不過，也有人提出了一個(gè)合理的問題：

實(shí)現(xiàn)AGI，強(qiáng)化學(xué)習(xí)就夠了？Sutton：獎(jiǎng)勵(lì)機(jī)制足夠?qū)崿F(xiàn)各種目標(biāo)

最終目標(biāo)獎(jiǎng)勵(lì)是否會(huì)產(chǎn)生一般的智能，或者是否會(huì)產(chǎn)生一些額外的信號(hào)？純獎(jiǎng)勵(lì)信號(hào)是否會(huì)陷入局部最大值？他們的論點(diǎn)是，對(duì)于一個(gè)非常復(fù)雜的環(huán)境，它不會(huì)。

但如果你有一個(gè)足夠復(fù)雜的環(huán)境，模型有足夠的參數(shù)，并且你不會(huì)陷入局部最大值，那么一旦系統(tǒng)解決了問題中的瑣碎，簡(jiǎn)單的部分，唯一的方法是提高性能，創(chuàng)建更通用的解決方案，即變得更智能。

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

人工智能機(jī)器學(xué)習(xí)技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nobr id="5t9bc"></nobr>

<rt id="5t9bc"><label id="5t9bc"></label></rt>