自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

鏈世界:一種簡單而有效的人類行為Agent模型強化學習框架

人工智能
總結(jié)一下,這篇論文提出了一種行為模型強化學習(BMRL)的框架,用于讓人工智能干預人類在摩擦性任務中的行為。作者提出了一種新的人類模型,稱為鏈世界(chainworld),用于描述人類在摩擦性任務中的行為。

強化學習是一種機器學習的方法,它通過讓智能體(Agent)與環(huán)境交互,從而學習如何選擇最優(yōu)的行動來最大化累積的獎勵。強化學習在許多領域都有廣泛的應用,例如游戲、機器人、自動駕駛等。強化學習也可以用于干預人類的行為,幫助人類實現(xiàn)他們的長期目標,例如戒煙、減肥、健身等。這些任務通常是摩擦性的,也就是說,它們需要人類付出長期的努力,而不是立即獲得滿足。在這些任務中,人類往往表現(xiàn)出有限的理性,也就是說他們的行為并不總是符合他們的最佳利益,而是受到一些認知偏差、情緒影響、環(huán)境干擾等因素的影響。因此,如何用強化學習干預人類的有限理性,使其在摩擦性的任務中表現(xiàn)更好,是一個具有重要意義和挑戰(zhàn)性的問題。

為了解決這個問題,一篇最近發(fā)表在AAMAS2024會議上的論文《Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks》提出了一種行為模型強化學習(BMRL)的框架,用于讓人工智能干預人類在摩擦性任務中的行為。該論文的作者是來自哈佛大學、劍橋大學和密歇根大學的五位研究人員,他們分別是Eura Nofshin、Siddharth Swaroop、Weiwei Pan、Susan Murphy和Finale Doshi-Velez。他們的研究受到了Simons Foundation、National Science Foundation、National Institute of Biomedical Imaging and Bioengineering等機構(gòu)的資助。他們的論文的主要貢獻有以下幾點:

1)他們提出了一種新的Agent模型,稱為鏈世界(ChainWorld),用于描述Agent在摩擦性任務中的行為。鏈世界是一種簡單的馬爾可夫決策過程(MDP)模型,其中Agent可以選擇執(zhí)行或跳過任務,從而增加或減少他們達到目標的概率。人工智能可以通過改變Agent的折扣因子或獎勵來影響人類的決策。鏈世界的優(yōu)點是它可以快速地對人類進行個性化,也可以解釋人類的行為背后的原因。

2)他們引入了一種基于BMRL的Agent模型之間的等價性的概念,用于判斷不同的Agent模型是否會導致相同的人工智能干預策略。他們證明了鏈世界是一類更復雜的人類MDP的等價模型,只要它們導致相同的三窗口人工智能策略,即由無效窗口、干預窗口和無需干預窗口組成的策略。他們還給出了一些與鏈世界等價的更復雜的人類MDP的例子,例如單調(diào)鏈世界、進展世界和多鏈世界,這些模型可以捕捉一些與人類行為相關的有意義的特征。

3)他們通過實驗分析了鏈世界的魯棒性,即當真實的Agent模型與鏈世界不完全匹配或不等價時,人工智能使用鏈世界進行干預的性能如何。他們發(fā)現(xiàn)鏈世界是一種有效且魯棒的Agent模型,可以用于設計人工智能干預策略,在大多數(shù)情況下,它可以達到或接近最佳的性能,即使在一些極端的情況下,它也可以保持一定的水平。

我們將對這篇論文的主要內(nèi)容進行更詳細的解讀和分析,從而幫助您更好地理解和評價這項研究的質(zhì)量和意義。

首先,我們來看看什么是行為模型強化學習(BMRL)的框架,以及為什么它是一種適合用于干預人類行為的方法。BMRL是一種基于模型的強化學習的方法,它假設人工智能可以觀察到人類的狀態(tài)、行動和獎勵,從而建立一個Agent的MDP模型。Agent的MDP模型由一組狀態(tài)、一組行動、一個轉(zhuǎn)移函數(shù)、一個獎勵函數(shù)和一個折扣因子組成。Agent的目標是通過選擇最優(yōu)的行動來最大化他們的期望累積獎勵。然而Agent的MDP模型可能存在一些問題,導致Agent的行為與他們的目標不一致,例如:

人類的折扣因子可能過低,導致人類過于看重短期的獎勵,而忽視長期的后果。例如,一個想要戒煙的人可能會因為一時的癮而放棄他的計劃。

人類的獎勵函數(shù)可能存在一些摩擦,導致人類執(zhí)行任務的成本過高,而收益過低。例如,一個想要減肥的人可能會因為運動的痛苦而不愿意堅持他的計劃。

人類的轉(zhuǎn)移函數(shù)可能存在一些不確定性,導致人類執(zhí)行任務的結(jié)果難以預測,而風險過高。例如,一個想要學習一門新語言的人可能會因為學習的難度而不敢嘗試他的計劃。

圖片

圖1:BMRL概述,人類代理與環(huán)境交互,如標準RL中所示。人工智能主體的行為會影響人類主體。人工智能環(huán)境由人工智能主體+環(huán)境構(gòu)成。

在這些情況下,人工智能可以通過干預人類的MDP模型的參數(shù),來改變?nèi)祟惖男袨?,使其更接近他們的目標。例如,人工智能可以通過以下方式來干預人類的行為。

一是通過提供一些正向的反饋或獎勵,來提高人類的折扣因子,從而增強人類對長期目標的關注。例如,人工智能可以通過發(fā)送一些鼓勵的信息或提供一些小禮物,來激勵一個想要戒煙的人堅持他的計劃。

二是通過提供一些便利的工具或服務,來降低人類執(zhí)行任務的成本,從而增加人類的收益。例如,人工智能可以通過提供一些個性化的運動計劃或設備,來幫助一個想要減肥的人堅持他的計劃。

三是通過提供一些有用的信息或建議,來降低人類執(zhí)行任務的不確定性,從而減少人類的風險。例如,人工智能可以通過提供一些有效的學~~~

接下來,我們來看看什么是鏈世界(ChainWorld),以及為什么它是一種簡單而有效的人類模型。鏈世界是一種由作者提出的人類MDP模型,它可以用來描述人類在摩擦性任務中的行為。

圖2:鏈世界的圖形表示。圖2:鏈世界的圖形表示。

鏈世界的基本結(jié)構(gòu)如下:

鏈世界由??個狀態(tài)組成,每個狀態(tài)對應于人類執(zhí)行任務的進度。狀態(tài)??0表示人類剛開始執(zhí)行任務,狀態(tài)?????1表示人類即將完成任務,狀態(tài)????表示人類已經(jīng)完成任務,也就是達到了他們的長期目標。狀態(tài)????表示人類放棄了任務,也就是與他們的長期目標背道而馳。

鏈世界有兩個行動,??=1表示人類執(zhí)行任務,??=0表示人類跳過任務。當人類執(zhí)行任務時,他們有一定的概率????增加進度,也有一定的概率???減少進度。當人類跳過任務時,他們有一定的概率????放棄任務,也有一定的概率1?????保持進度不變。人類的行動選擇取決于他們的折扣因子???和獎勵函數(shù)??。

鏈世界的獎勵函數(shù)??由四個參數(shù)組成,分別是????、????、????和???。????表示人類完成任務的獎勵,????表示人類放棄任務的獎勵,????表示人類執(zhí)行任務的成本,???表示人類減少進度的懲罰。人類的獎勵函數(shù)反映了他們對任務的價值和摩擦的感受。

鏈世界的折扣因子???表示人類對未來獎勵的重視程度,它決定了人類的行為是否與他們的長期目標一致。人類的折扣因子可能受到一些因素的影響,例如情緒、注意力、自我控制等。人類的折扣因子反映了他們的有限理性和認知偏差。

圖片圖片

圖3:具有不同鏈世界參數(shù)的兩個人的不同最優(yōu)人工智能策略示例。每個方塊都是一個鏈世界狀態(tài)。一????意味著AI應該選擇行動來減少????,雖然????意味著AI應該選擇行動來增加??. 紅色實線和藍色虛線顯示干預窗口的開始和結(jié)束。

鏈世界的優(yōu)點是它可以用少量的參數(shù)來描述人類在摩擦性任務中的行為,從而使人工智能可以快速地對人類進行個性化。人工智能可以通過觀察人類的狀態(tài)、行動和獎勵,來估計人類的MDP模型的參數(shù),然后根據(jù)人類的MDP模型來選擇最優(yōu)的干預策略。人工智能的干預策略可以通過改變?nèi)祟惖恼劭垡蜃踊颡剟顏韺崿F(xiàn),從而影響人類的行為選擇。例如,人工智能可以通過提供一些正向的反饋或獎勵,來提高人類的折扣因子,從而增強人類對長期目標的關注。人工智能也可以通過提供一些便利的工具或服務,來降低人類執(zhí)行任務的成本,從而增加人類的收益。

鏈世界的另一個優(yōu)點是它可以解釋人類的行為背后的原因,從而使人工智能可以與人類進行有效的溝通和合作。人工智能可以通過分析人類的MDP模型的參數(shù),來了解人類的行為動機、偏好、障礙和困難。人工智能也可以通過向人類提供一些有用的信息或建議,來幫助人類理解他們的行為后果、風險和機會。人工智能還可以通過向人類展示他們的MDP模型的參數(shù),來促進人類的自我反思和自我調(diào)節(jié)。人工智能的這些功能可以增加人類對人工智能的信任和接受度,從而提高人工智能干預的效果和滿意度。

我們來看看作者是如何證明鏈世界的最優(yōu)人工智能策略具有三窗口的形式,以及這種形式的意義和優(yōu)勢。作者首先給出了鏈世界的最優(yōu)人工智能策略的定義,即在每個狀態(tài)下,選擇能夠使人類的期望累積獎勵最大化的干預策略。作者然后利用動態(tài)規(guī)劃的方法,推導出了鏈世界的最優(yōu)人工智能策略的遞推公式,即在每個狀態(tài)下,比較人工智能干預和不干預的兩種情況下,人類的期望累積獎勵的大小,選擇較大的一種作為最優(yōu)的干預策略。作者接著證明了鏈世界的最優(yōu)人工智能策略具有三窗口的形式,即存在三個臨界狀態(tài)????、????和????,使得在????之前,人工智能不干預;在????和????之間,人工智能干預折扣因子;在????和????之間,人工智能干預獎勵;在????之后,人工智能不干預。作者還給出了三個臨界狀態(tài)的計算方法,即通過求解一些不等式和方程,得到????、????和????的值。

鏈世界的最優(yōu)人工智能策略的三窗口形式有三個意義和優(yōu)勢。

它可以解釋人類在摩擦性任務中的行為模式,即人類在任務的開始和結(jié)束階段,往往不需要人工智能的干預,而在任務的中間階段,往往需要人工智能的干預。這是因為在任務的開始階段,人類的動機和信心往往較高,而在任務的結(jié)束階段,人類的目標和收益往往較明確,因此人類的行為與他們的長期目標較為一致。而在任務的中間階段,人類的動機和信心往往較低,而且目標和收益往往較模糊,因此人類的行為與他們的長期目標較為偏離。因此,人工智能的干預可以在適當?shù)臅r機,提高人類的折扣因子或獎勵,從而增強人類的行為一致性。

它可以指導人工智能的干預設計,即人工智能可以根據(jù)人類的狀態(tài),選擇合適的干預方式,從而提高干預的效率和效果。例如,人工智能可以根據(jù)人類的進度,選擇干預折扣因子或獎勵,從而影響人類的行為選擇。人工智能也可以根據(jù)人類的折扣因子或獎勵的變化量,選擇合適的干預強度,從而平衡干預的成本和收益。人工智能還可以根據(jù)人類的反饋,調(diào)整干預的策略,從而適應人類的個性和偏好。

它可以作為人類模型的等價性的判據(jù),即人工智能可以通過比較不同的人類模型是否導致相同的三窗口人工智能策略,來判斷它們是否等價。這樣,人工智能可以使用鏈世界作為其他人類MDP的替代模型,而不會損失性能。這樣,人工智能可以減少人類模型的復雜度和不確定性,從而提高干預的可解釋性和可信度。

圖片

圖4:當真正的人類模型是一個鏈世界時,我們的方法會迅速個性化。情節(jié)是多集(x軸)的AI獎勵(y軸)。左上角的線條更具個性。

最后,我們來看看作者是如何通過實驗分析鏈世界的魯棒性,即當真實的人類模型與鏈世界不完全匹配或不等價時,人工智能使用鏈世界進行干預的性能如何。作者設計了一系列的實驗,來模擬不同的人類模型和人工智能干預的場景,例如:

  • 人類模型的參數(shù)存在噪聲,即人類的折扣因子、獎勵函數(shù)、轉(zhuǎn)移函數(shù)等可能隨機變化,從而影響人類的行為選擇。
  • 人類模型的結(jié)構(gòu)存在誤差,即人類的狀態(tài)空間、行動空間、轉(zhuǎn)移函數(shù)等可能與鏈世界不一致,從而影響人類的行為模式。
  • 人類模型的復雜度存在差異,即人類的狀態(tài)空間、行動空間、轉(zhuǎn)移函數(shù)等可能比鏈世界更復雜或更簡單,從而影響人類的行為難度。
  • 人類模型的行為存在偏差,即人類的行為選擇可能不是最優(yōu)的,而是受到一些認知偏差、情緒影響、環(huán)境干擾等因素的影響。
  • 人工智能干預的效果存在變化,即人工智能干預人類的折扣因子或獎勵可能有正面的、負面的或沒有效果,從而影響人類的行為反應。

圖片圖片

圖5:Chainworld按比例縮放為大型網(wǎng)格世界。左邊的示例網(wǎng)格世界。向右移動,柵格的寬度(X)和高度(Y)將增加。

作者使用了五種基準方法來與鏈世界進行比較,分別是:

  • Oracle,即人工智能知道真實的人類模型,并使用最優(yōu)的干預策略。
  • Random,即人工智能隨機選擇干預或不干預,以及干預的方式和強度。
  • Model-free,即人工智能不使用任何人類模型,而是直接通過Q-learning來學習最優(yōu)的干預策略。
  • Model-based,即人工智能使用觀察到的人類的狀態(tài)、行動和獎勵來估計人類的轉(zhuǎn)移函數(shù),然后使用確定性等價來求解最優(yōu)的干預策略。
  • Always ??,即人工智能總是干預人類的折扣因子,不考慮人類的狀態(tài)和行動。
  • Always ????,即人工智能總是干預人類的獎勵函數(shù),不考慮人類的狀態(tài)和行動。

圖片圖片

圖6:穩(wěn)健性實驗示例。Chainworld對所有級別的錯誤指定都是穩(wěn)健的(圖6a),對低級別錯誤指定都穩(wěn)健,并在高級別上進行維護(圖6b),包括oracle在內(nèi)的所有方法都難以在圖6c中表現(xiàn)良好。附錄D.1和附錄E.3中分別列出了所有環(huán)境的詳細信息和圖表。

作者使用了人工智能在第六個回合中獲得的獎勵作為評價指標,來衡量人工智能干預的性能。作者發(fā)現(xiàn)鏈世界在大多數(shù)情況下,都可以達到或接近Oracle的性能,即使在一些極端的情況下,它也可以保持一定的水平。作者還發(fā)現(xiàn)鏈世界在低水平的模型誤差下,具有很強的魯棒性,而在高水平的模型誤差下,也可以維持一定的性能。作者還發(fā)現(xiàn),鏈世界在一些與鏈世界等價的人類模型下,可以完全復制Oracle的性能,證明了鏈世界的等價性的有效性。作者還發(fā)現(xiàn),鏈世界在一些具有行為意義的人類模型下,可以表現(xiàn)出與人類的行為模式一致的干預策略,證明了鏈世界的解釋性的有效性。

總結(jié)一下,這篇論文提出了一種行為模型強化學習(BMRL)的框架,用于讓人工智能干預人類在摩擦性任務中的行為。作者提出了一種新的人類模型,稱為鏈世界(chainworld),用于描述人類在摩擦性任務中的行為。作者引入了一種基于BMRL的人類模型之間的等價性的概念,用于判斷不同的人類模型是否會導致相同的人工智能干預策略。作者通過實驗分析了鏈世界的魯棒性,即當真實的人類模型與鏈世界不完全匹配或不等價時,人工智能使用鏈世界進行干預的性能如何。作者的研究為人工智能干預人類行為提供了一種簡單而有效的方法,也為人類行為的理解和解釋提供了一種有用的工具。

這篇論文的質(zhì)量和意義是顯而易見的,它在人工智能和行為科學的交叉領域做出了重要的貢獻。它不僅提出了一種新穎的人類模型和人工智能干預的框架,而且提供了一系列的理論證明和實驗驗證,展示了其有效性和魯棒性。它也為未來的研究提供了一些有趣的方向和挑戰(zhàn),例如進行用戶研究、考慮人工智能干預的倫理問題、測試鏈世界的魯棒性、放松一些簡化的假設,以及探索更多樣的人工智能干預方式。這篇論文值得我們認真閱讀和思考,也值得我們借鑒和應用,以期在人工智能和人類的協(xié)作和互動中,實現(xiàn)更好的效果和滿意度。(END)

參考資料:https://arxiv.org/abs/2401.14923

責任編輯:武曉燕 來源: 大噬元獸
相關推薦

2017-08-17 09:15:23

強化學習KerasOpenAI

2020-06-05 08:09:01

Python強化學習框架

2024-01-26 08:31:49

2022-09-04 14:38:00

世界模型建模IRIS

2024-04-10 14:10:33

自動駕駛強化學習

2025-02-07 16:15:27

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-03-03 09:12:00

2020-04-22 12:46:30

LinuxShell腳本

2024-12-09 08:45:00

模型AI

2018-01-10 09:05:44

火箭發(fā)射輕量網(wǎng)絡訓練

2020-04-22 11:11:22

LinuxShell腳本

2024-03-08 09:46:18

3D框架傳感器

2023-07-20 15:18:42

2024-09-30 14:40:00

AI強化學習框架

2023-08-28 06:52:29

2023-06-16 09:49:11

人工智能研究

2023-08-21 08:00:00

人工智能大型語言模型

2021-12-09 09:45:44

AI 數(shù)據(jù)神經(jīng)網(wǎng)絡

2023-10-04 18:23:02

插入排序算法
點贊
收藏

51CTO技術棧公眾號