自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="mgl5w"><table id="mgl5w"></table></style>

^{<sub id="mgl5w"></sub>}

<blockquote id="mgl5w"><i id="mgl5w"><video id="mgl5w"></video></i></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

強(qiáng)化學(xué)習(xí)能否在2020年取得突破？

作者：Bill Vorhies 2020-01-23 15:33:07

新聞人工智能

強(qiáng)化學(xué)習(xí)對(duì)于實(shí)現(xiàn)我們的人工智能 / 機(jī)器學(xué)習(xí)技術(shù)的目標(biāo)來(lái)說(shuō)至關(guān)重要，但現(xiàn)在我們還有一些障礙需要克服。

強(qiáng)化學(xué)習(xí)對(duì)于實(shí)現(xiàn)我們的人工智能 / 機(jī)器學(xué)習(xí)技術(shù)的目標(biāo)來(lái)說(shuō)至關(guān)重要，但現(xiàn)在我們還有一些障礙需要克服。盡管可靠性和減少訓(xùn)練數(shù)據(jù)的目標(biāo)在一年內(nèi)就可能實(shí)現(xiàn)，但是，強(qiáng)化學(xué)習(xí)本質(zhì)上是一種“黑盒”解決方案，其缺乏透明度的特性會(huì)帶來(lái)很多質(zhì)疑。

傳統(tǒng)的機(jī)器學(xué)習(xí)乃至深度學(xué)習(xí)的監(jiān)督及非監(jiān)督學(xué)習(xí)，是企業(yè)目前在人工智能 / 機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)行大量投資并從中獲取回報(bào)的核心領(lǐng)域。但事實(shí)是，這些技術(shù)目前已經(jīng)相當(dāng)成熟，收益曲線也日趨平坦。

如果我們要在人工智能 / 機(jī)器學(xué)習(xí)領(lǐng)域?qū)ふ蚁乱粋€(gè)突破技術(shù)，那么幾乎可以肯定的是，這個(gè)突破將來(lái)自強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)領(lǐng)域需要投入大量的努力，但是平心而論，強(qiáng)化學(xué)習(xí)還沒(méi)有達(dá)到必要的標(biāo)準(zhǔn)化水平，尚不足以成為為商用化準(zhǔn)備就緒的工具。

在游戲領(lǐng)域已經(jīng)有相當(dāng)多值得報(bào)道的成功案例（如 Alpha Go），在無(wú)人駕駛領(lǐng)域也有一些成功案例。但盡管在解決涉及系列決策的問(wèn)題時(shí)，強(qiáng)化學(xué)習(xí)應(yīng)該是我們的首選技術(shù)，可它還沒(méi)有達(dá)到我們所需要的水平。

在我們的上一篇文章中，我們強(qiáng)調(diào)了兩個(gè)阻礙強(qiáng)化學(xué)習(xí)的缺點(diǎn)，這正是微軟強(qiáng)化學(xué)習(xí)領(lǐng)域的首席研究員 Romain Laroche 所描述的：

“它們基本上是不可靠的。更糟糕的是，由于強(qiáng)化學(xué)習(xí)過(guò)程中的隨機(jī)性，使用不同隨機(jī)種子的兩次運(yùn)行的結(jié)果可能非常不同。”

“它們需要數(shù)十億的樣本才能獲得結(jié)果，而在現(xiàn)實(shí)世界的應(yīng)用中提取如此天量的樣本是不可行的。”

我們專注于一些有希望的研究，這些研究用少得多的數(shù)據(jù)、有限的財(cái)務(wù)投入和實(shí)際約束解決了訓(xùn)練問(wèn)題。然而，剩下的問(wèn)題甚至更加復(fù)雜。

由于強(qiáng)化學(xué)習(xí)解決方案是用隨機(jī)種子啟動(dòng)的，因此，它們本質(zhì)上是對(duì)狀態(tài)空間的隨機(jī)搜索。設(shè)想一下，兩個(gè)啟動(dòng)算法隨機(jī)進(jìn)入這個(gè)潛在解決方案的巨大叢林，目標(biāo)是找到最快的出路。盡管這兩個(gè)解決方案可能達(dá)到相同的性能級(jí)別，但是，強(qiáng)化學(xué)習(xí)是眾所周知的黑盒，它使我們無(wú)法了解系統(tǒng)為何及如何選擇執(zhí)行這一系列步驟。

Gartner 最近的報(bào)告《2020 年 10 大戰(zhàn)略技術(shù)趨勢(shì)》中提到的兩個(gè)互相矛盾的目標(biāo)，突顯了其重要性。

引起我們注意的兩個(gè)趨勢(shì)是：

趨勢(shì) 8：智能設(shè)備（Autonomous things）

“智能設(shè)備，包括無(wú)人機(jī)、機(jī)器人、船舶和家用電器，利用人工智能代替人類完成任務(wù)。該技術(shù)在半智能到完全智能的智能范圍內(nèi)運(yùn)作，并能在包括天空、海洋和陸地等各種各樣的環(huán)境中運(yùn)作。智能設(shè)備也將從獨(dú)立的設(shè)備向協(xié)作的集群轉(zhuǎn)變，例如在 2018 年冬季奧運(yùn)會(huì)上使用的無(wú)人機(jī)群。”

該報(bào)告沒(méi)有提到的是，要實(shí)現(xiàn)這一點(diǎn)將需要強(qiáng)大而可靠的強(qiáng)化學(xué)習(xí)。盡管有一些非常震撼人的機(jī)器人（想想 Boston Dynamics 公司吧）主要依靠物理運(yùn)動(dòng)的算法，而不是人工智能 / 機(jī)器學(xué)習(xí)技術(shù)，但行業(yè)需要強(qiáng)化學(xué)習(xí)才能走進(jìn)下一個(gè)發(fā)展階段。

而第 2 個(gè)趨勢(shì)對(duì)強(qiáng)化學(xué)習(xí)來(lái)說(shuō)將更加困難。

趨勢(shì) 5：透明度和可追溯性

“技術(shù)的發(fā)展正在制造信任危機(jī)。隨著消費(fèi)者越來(lái)越關(guān)注自身信息被收集和使用的情況，各種組織也意識(shí)到存儲(chǔ)和收集這些數(shù)據(jù)時(shí)所肩負(fù)的責(zé)任越來(lái)越大。”

“此外，人工智能和機(jī)器學(xué)習(xí)越來(lái)越多地用于代替人類做出決策，從而演變出信任危機(jī)，并推動(dòng)了對(duì)可解釋的人工智能和人工智能治理等理念的需求。”

盡管我們很可能想到 GDPR 以及圍繞著電子商務(wù)的隱私問(wèn)題，但事實(shí)是，基于我們對(duì)人工智能 / 機(jī)器學(xué)習(xí)如何做出決策的理解，這些技術(shù)終將受到挑戰(zhàn)。

尤其是考慮到強(qiáng)化學(xué)習(xí)政策制定的隨機(jī)性，以及兩個(gè)成功的強(qiáng)化學(xué)習(xí)程序可以以完全不同的方式實(shí)現(xiàn)相同的目標(biāo)，這將是一個(gè)難以克服的挑戰(zhàn)。

應(yīng)對(duì)可靠性問(wèn)題

Romain Laroche 提出了兩種技術(shù)，有望解決可靠性問(wèn)題。在其論文中，一個(gè)使用集成方法（EBAS），而另一個(gè)使用調(diào)整微調(diào)參數(shù)條件風(fēng)險(xiǎn)值（Conditional value at Risk，簡(jiǎn)稱 CvaR，即最差運(yùn)行的平均值），這兩種技術(shù)都能提高性能并減少訓(xùn)練時(shí)間，同時(shí)限制強(qiáng)化學(xué)習(xí)運(yùn)行的自然趨勢(shì)，以在系統(tǒng)中找到及利用故障。如果實(shí)際投入生產(chǎn)，該系統(tǒng)可以導(dǎo)致成功的結(jié)果，但是包含某種形式的意外損害。后一種技術(shù)以 SPIBB 命名，SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的縮寫，即具有基線引導(dǎo)的安全策略改進(jìn)。

該集成方法借鑒了機(jī)器學(xué)習(xí)中的相同概念，并且與遺傳算法選擇訓(xùn)練過(guò)程中的搜索過(guò)程類似，從而得到了一些很好的結(jié)果。

å¼ºåŒ–å¦ä¹ èƒ½å¦åœ¨2020å¹´å–å¾—çªç ´ï¼Ÿ

EBAS 算法學(xué)習(xí)速度更快，而且最終性能沒(méi)有任何下降。

透明度？

我們似乎正在解決可靠性問(wèn)題以及另一個(gè)海量訓(xùn)練數(shù)據(jù)的需求問(wèn)題。這無(wú)疑將把我們引向透明度問(wèn)題。比如，無(wú)人駕駛汽車在發(fā)生人員傷亡后所受到的審查。對(duì)比人類操作人員犯錯(cuò)，我們對(duì)機(jī)器犯錯(cuò)的容忍度更低。

毫無(wú)疑問(wèn)，強(qiáng)化學(xué)習(xí)將在 2020 年做出重大貢獻(xiàn)，但是，想要實(shí)現(xiàn)一個(gè)經(jīng)過(guò)驗(yàn)證的，商業(yè)上得到接受的方案所面臨的障礙，以及由于其缺乏透明性而帶來(lái)的阻力等問(wèn)題，不太可能在一年內(nèi)完全解決。

責(zé)任編輯：張燕妮來(lái)源： AI前線

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="vddcx"></sub>