自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強化學習的10個現(xiàn)實應用

人工智能 機器學習
在強化學習中,我們使用獎懲機制來訓練agents。Agent做出正確的行為會得到獎勵,做出錯誤的行為就會受到懲罰。這樣的話,agent就會試著將自己的錯誤行為最少化,將自己的正確行為最多化。

在強化學習中,我們使用獎懲機制來訓練agents。Agent做出正確的行為會得到獎勵,做出錯誤的行為就會受到懲罰。這樣的話,agent就會試著將自己的錯誤行為最少化,將自己的正確行為最多化。

本文我們將會聚焦于強化學習在現(xiàn)實生活中的實際應用。

無人駕駛中的應用

很多論文都提到了深度強化學習在自動駕駛領域中的應用。在無人駕駛中,需要考慮的問題是非常多的,如:不同地方的限速不同限速,是否是可行駛區(qū)域,如何躲避障礙等問題。

有些自動駕駛的任務可以與強化學習相結(jié)合,比如軌跡優(yōu)化,運動規(guī)劃,動態(tài)路徑,最優(yōu)控制,以及高速路中的情景學習策略。

比如,自動停車策略能夠完成自動停車。變道能夠使用q-learning來實現(xiàn),超車能應用超車學習策略來完成超車的同時躲避障礙并且此后保持一個穩(wěn)定得速度。

AWS DeepRacer是一款設計用來測試強化學習算法在實際軌道中的變現(xiàn)的自動駕駛賽車。它能使用攝像頭來可視化賽道,并且可以使用強化學習模型來控制油門和方向。

Wayve.ai已經(jīng)成功應用了強化學習來訓練一輛車如何在白天駕駛。他們使用了深度強化學習算法來處理車道跟隨任務的問題。他們的網(wǎng)絡結(jié)構(gòu)是一個有4個卷積層和3個全連接層的深層神經(jīng)網(wǎng)絡。例子如圖。中間的圖像表示駕駛員視角。

強化學習在工業(yè)自動化中的應用

在工業(yè)自動化中,基于強化學習的機器人被用于執(zhí)行各種任務。這些機器人不僅效率比人類更高,還可以執(zhí)行危險任務。

Deepmind使用AI智能體來冷卻Google數(shù)據(jù)中心是一個成功的應用案例。通過這種方式,節(jié)省了40%的能源支出?,F(xiàn)在,這些數(shù)據(jù)中心完全由人工智能系統(tǒng)控制,除了很少數(shù)據(jù)中心的專家,幾乎不再需要其他人工干預。該系統(tǒng)的工作方式如下:

  • 每五分鐘從數(shù)據(jù)中心獲取數(shù)據(jù)快照,并將其輸入深度神經(jīng)網(wǎng)絡
  • 預測不同組合將如何影響未來的能源消耗
  • 在符合安全標準的情況下,采取具有最小功耗的措施
  • 向數(shù)據(jù)中心發(fā)送相應措施并實施操作

當然,具體的措施還是由本地控制系統(tǒng)操作完成。

強化學習在金融貿(mào)易中的應用

有監(jiān)督的時間序列模型可用來預測未來的銷售額,還可以預測股票價格。然而,這些模型并不能決定在特定股價下應采取何種行動,強化學習(RL)正是為此問題而生。通過市場基準標準對RL模型進行評估,確保RL智能體正確做出持有、購買或是出售的決定,以保證最佳收益。

通過強化學習,金融貿(mào)易不再像從前那樣由分析師做出每一個決策,真正實現(xiàn)機器的自動決策。例如,IBM構(gòu)建有一個強大的、面向金融交易的強化學習平臺,該平臺根據(jù)每一筆金融交易的損失或利潤來調(diào)整獎勵函數(shù)。

強化學習在自然語言處理NLP中的應用

RL可用于文本摘要、問答和機器翻譯等NLP任務。

Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在論文中提出了一種基于RL的長文本問答方法。具體而言,首先從文檔中選出幾個與問題相關的句子,然后結(jié)合所選句子和問句通過RNN生成答案。

該論文結(jié)合監(jiān)督學習與強化學習生成抽象文本摘要。論文作者Romain Paulus, Caiming Xiong和Richard Socher等人希望解決基于注意力的RNN編解碼模型在摘要生成中面臨的問題。論文提出了一種新的內(nèi)注意力神經(jīng)網(wǎng)絡,通過該注意力可以關注輸入并連續(xù)生成輸出,監(jiān)督學習和強化學習被用于模型訓練。

至于機器翻譯,科羅拉多大學和馬里蘭大學的研究人員提出了一種基于強化學習的機器翻譯模型,該模型能夠?qū)W習預測單詞是否可信,并通過RL來決定是否需要輸入更多信息來幫助翻譯。

斯坦福大學、俄亥俄州立大學和微軟研究所的研究人員提出Deep-RL,可用于對話生成任務。Deep-RL使用兩個虛擬智能體模擬對話,并學習多輪對話中的未來獎勵的建模,同時,應用策略梯度方法使高質(zhì)量對話獲得更高獎勵,如連貫性、信息豐富度和簡潔性等。

強化學習在醫(yī)療保健中的應用

醫(yī)療保健領域,RL系統(tǒng)為患者只能提供治療策略。該系統(tǒng)能夠利用以往的經(jīng)驗找到最優(yōu)的策略,而無需生物系統(tǒng)的數(shù)學模型等先驗信息,這使得基于RL的系統(tǒng)具有更廣泛的適用性。

基于RL的醫(yī)療保健動態(tài)治療方案(DTRs)包括慢性病或重癥監(jiān)護、自動化醫(yī)療診斷及其他一些領域。

DTRs的輸入是一組對患者的臨床觀察和評估數(shù)據(jù),輸出則是每個階段的治療方案。通過RL,DTRs能夠確定患者在特定時間的最佳治療方案,實現(xiàn)時間依賴性決策。

在醫(yī)療保健中,RL方法還可用于根據(jù)治療的延遲效應改善長期結(jié)果。

對于慢性病,RL方法還可用于發(fā)現(xiàn)和生成最佳DTRs。

通過本文,您可以深入研究RL在醫(yī)療保健中的應用。

強化學習在工程中的應用

在工程領域,F(xiàn)acebook提出了開源強化學習平臺 —— Horizon,該平臺利用強化學習來優(yōu)化大規(guī)模生產(chǎn)系統(tǒng)。在Facebook內(nèi)部,Horizon被用于:

  • 個性化指南
  • 向用戶發(fā)送更有意義的通知
  • 優(yōu)化視頻流質(zhì)量

Horizon主要流程包括:

  • 模擬環(huán)境
  • 用于數(shù)據(jù)處理的分布式數(shù)據(jù)平臺
  • 模型的訓練與輸出

一個典型例子是,強化學習根據(jù)視頻緩沖區(qū)的狀態(tài)和其他機器學習系統(tǒng)的估計可選擇的為用戶提供低比特率或高比特率的視頻。

Horizon還能夠處理以下問題:

  • 大規(guī)模部署
  • 特征規(guī)范化
  • 分布式學習
  • 超大規(guī)模數(shù)據(jù)的處理和服務,如包含高維數(shù)據(jù)和數(shù)千特征的數(shù)據(jù)集。

強化學習在新聞推薦中的應用

在新聞推薦領域,用戶的喜好不是一成不變的,僅僅基于評論和(歷史)喜好向用戶推薦新聞無法一勞永逸?;趶娀瘜W習的系統(tǒng)則可以動態(tài)跟蹤讀者反饋并更新推薦。

構(gòu)建這樣一個系統(tǒng)需要獲取新聞特征、讀者特征、上下文特征和讀者閱讀的新聞特征。其中,新聞特征包括但不限于內(nèi)容、標題和發(fā)布者;讀者特征是指讀者與內(nèi)容的交互方式,如點擊和共享;上下文特征包括新聞的時間和新鮮度等。然后根據(jù)用戶行為定義獎勵函數(shù),訓練RL模型。

強化學習在游戲中的應用

RL在游戲領域中的應用備受關注,且極為成功,最典型的便是前些年人盡皆知的AlphaGoZero。通過強化學習,AlphaGoZero能夠從頭學習圍棋游戲,并自我學習。經(jīng)過40天的訓練,AlphaGoZero的表現(xiàn)超過了世界排名第一的柯潔。該模型僅包含一個神經(jīng)網(wǎng)絡,且只將黑白棋子作為輸入特征。由于網(wǎng)絡單一,一個簡單的樹搜索算法被用來評估位置移動和樣本移動,而無需任何蒙特卡羅展開。

實時競價——強化學習在廣告營銷中的應用

該論文提出了一種基于多智能體強化學習的實時競價策略。對大量廣告商進行聚類,然后為每個聚類分配一個策略投標智能體實現(xiàn)競標。同時,為了平衡廣告主之間的競爭與合作,論文還提出了分布式協(xié)同多智能體競價(DCMAB)。

在市場營銷中,選擇正確的目標全體才可帶來高回報,因此個人精準定位至關重要的。論文以中國最大的電子商務平臺淘寶網(wǎng)為研究對象,表明上述多智能體強化學習優(yōu)于現(xiàn)有的單智能體強化學習方法。

強化學習在機器人控制中的應用

通過深度學習和強化學習方法訓練機器人,可以使其能夠抓取各種物體,甚至是訓練中未出現(xiàn)過的物體。因此,可將其用于裝配線上產(chǎn)品的制造。

上述想法是通過結(jié)合大規(guī)模分布式優(yōu)化和QT-Opt(一種深度Q-Learning變體)實現(xiàn)的。其中,QT-Opt支持連續(xù)動作空間操作,這使其可以很好處理機器人問題。在實踐中,先離線訓練模型,然后在真實的機器人上進行部署和微調(diào)。

針對抓取任務,谷歌AI用了4個月時間,使用7個機器人運行了800機器人時。

實驗表明,在700次實驗中,QT-Opt方法有96%的概率成功抓取陌生的物體,而之前的方法僅有78%的成功率。

總結(jié)

強化學習是一個非常有趣且值得廣泛研究的領域,RL技術的進步及其在現(xiàn)實各領域的應用勢必將取得更大的成功。

在本文中,我們粗略介紹了強化學習的不同領域應用。希望這能激發(fā)起你的好奇心,并引起你對RL的熱愛和研究。如果想了解更多,推薦查看這兩個項目:https://github.com/aikorea/awesome-rl,https://github.com/dennybritz/reinforcement-learning。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權。

責任編輯:未麗燕 來源: 雷鋒網(wǎng)
相關推薦

2017-07-25 16:04:31

概念應用強化學習

2024-12-09 08:45:00

模型AI

2021-04-13 16:18:30

人工智能強化學習人臉識別

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2018-09-11 14:40:07

物聯(lián)網(wǎng)應用物聯(lián)網(wǎng)IOT

2023-01-24 17:03:13

強化學習算法機器人人工智能

2022-11-02 14:02:02

強化學習訓練

2023-11-07 07:13:31

推薦系統(tǒng)多任務學習

2018-12-14 09:25:28

量化評估算法拓展強化學習

2024-03-19 00:15:00

機器學習強化學習人工智能

2020-06-05 08:09:01

Python強化學習框架

2023-07-20 15:18:42

2024-04-03 07:56:50

推薦系統(tǒng)多任務推薦

2020-05-12 07:00:00

深度學習強化學習人工智能

2022-05-31 10:45:01

深度學習防御

2024-01-26 08:31:49

2023-12-03 22:08:41

深度學習人工智能

2021-02-02 10:08:17

AI深度強化學習智能城市
點贊
收藏

51CTO技術棧公眾號