自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

量化評估、算法拓展:強(qiáng)化學(xué)習(xí)研究的10大原則

開發(fā) 算法
今年9月份舉辦的深度學(xué)習(xí)Indaba2018峰會的干貨確實(shí)不少,今天文摘菌再給大家整理一份關(guān)于強(qiáng)化學(xué)習(xí)的10個原則,不僅在強(qiáng)化學(xué)習(xí)中有用,在機(jī)器學(xué)習(xí)研究中也能夠提供一些參考。

[[252430]]

大數(shù)據(jù)文摘出品

編譯:蔣寶尚

今年9月份舉辦的深度學(xué)習(xí)Indaba2018峰會的干貨確實(shí)不少,昨天文摘菌給大家整理了27位大咖關(guān)于自然語言處理的精彩問答。今天文摘菌再給大家整理一份關(guān)于強(qiáng)化學(xué)習(xí)的10個原則,不僅在強(qiáng)化學(xué)習(xí)中有用,在機(jī)器學(xué)習(xí)研究中也能夠提供一些參考。

這10個原則是一位來自Insight數(shù)據(jù)分析研究中心的博士生Sebastian Ruder在參會期間對David Silver報告進(jìn)行的整理,除了Ruder自己的解析外,也把他自己拍的照片分享了出來。

1. 評估推動進(jìn)步

量化評估、算法拓展

量化的評估才能推動進(jìn)步。評估獎勵的選擇決定了進(jìn)步的方向,要確保評估指標(biāo)與目標(biāo)密切相關(guān),避免主觀評價(例如人類學(xué)科)。還有一點(diǎn),雙Q學(xué)習(xí)優(yōu)于單Q學(xué)習(xí),因?yàn)楹笳吣軠p少偏見。

2. 算法的可擴(kuò)展性決定成功

量化評估、算法拓展

算法如何擴(kuò)展非常重要,要避免性能上限。深度學(xué)習(xí)非常棒,因?yàn)樗梢杂行У財U(kuò)展,但是樣本效率同樣重要。

算法的可擴(kuò)展性的表現(xiàn)取決于資源,而算法的可擴(kuò)展性決定是否成功:那么給予更多資源,性能如何提高?值得一提的是,這里的資源指的是計算,內(nèi)存或數(shù)據(jù)。

3. 通用性,即算法在其他任務(wù)上的表現(xiàn)非常重要

量化評估/算法拓展

關(guān)鍵是要設(shè)計一系列具有挑戰(zhàn)性的任務(wù),即應(yīng)該對不同的新任務(wù)進(jìn)行評估。避免過度使用當(dāng)前的任務(wù)。

4. 相信Agent的經(jīng)驗(yàn)

量化評估/算法拓展

不要依賴人類的專業(yè)知識,不要依賴于工程特征。在數(shù)據(jù)有限時,領(lǐng)域?qū)I(yè)知識和歸納偏差非常重要。

一些任務(wù)可能看起來不太可能完成,但是,你確實(shí)能在其中學(xué)到很多經(jīng)驗(yàn)。這種任務(wù)或者項(xiàng)目,通常滿足這三點(diǎn):

  • 很難接受RL的核心問題。
  • 是AI的核心問題
  • 非常值得你去努力

5. 狀態(tài)應(yīng)該是主觀的

量化評估/算法拓展

應(yīng)將狀態(tài)建立為模型的狀態(tài),即RNN的隱藏狀態(tài),而不是根據(jù)環(huán)境定義。只有agent對世界的主觀看法才是重要的。不要推理外部現(xiàn)實(shí),因?yàn)檫_(dá)到的效果非常有限。

6. 控制流

量化評估/算法拓展

Agent影響數(shù)據(jù)流和體驗(yàn)。Agent應(yīng)該有能夠訪問控制環(huán)境的功能。重點(diǎn)不僅在于***化獎勵,還在于建立對流的控制。

7. 價值函數(shù)塑造世界

量化評估/算法拓展

價值函數(shù)有效地總結(jié)了當(dāng)前和未來的狀況。多值函數(shù)允許我們模擬世界的多個方面。可以幫助控制流。

8. 從想象的經(jīng)驗(yàn)(imagined experience)中學(xué)習(xí)

量化評估/算法拓展

接下來該怎樣規(guī)劃?同樣的,RL算法可以從想象的經(jīng)驗(yàn)(imagined experience)中學(xué)習(xí),如Alphago中使用MCTS和值函數(shù)。

9. 利用函數(shù)逼近器

量化評估/算法拓展

可以將算法復(fù)雜度揉進(jìn)神經(jīng)網(wǎng)絡(luò)架構(gòu),甚至MCTS,分層控制等也可以用NN建模。然后要真正理解:我們從模型學(xué)到了什么。

10. 學(xué)會學(xué)習(xí)

量化評估/算法拓展

必須精通元學(xué)習(xí),然后,你可能不再需要手工設(shè)置網(wǎng)絡(luò)架構(gòu),一切都是端到端學(xué)習(xí)??偠灾?,神經(jīng)網(wǎng)絡(luò)要通過盡可能少的人工干預(yù)來處理事情。但是,歸納偏差應(yīng)該仍然有用。

相關(guān)報道:

https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2012-03-15 11:15:13

Java設(shè)計模式

2012-03-07 10:40:19

Java設(shè)計模式

2012-03-05 13:58:34

設(shè)計模式里氏置換

2012-03-07 11:03:13

Java設(shè)計模式

2015-09-23 17:12:18

API設(shè)計原則

2020-06-09 07:00:00

面向?qū)ο?/a>編程編程原則

2012-03-08 10:57:00

Java設(shè)計模式

2010-03-31 17:26:52

SaaS

2015-09-24 08:52:53

API設(shè)計原則

2012-02-01 13:24:37

2024-10-14 09:52:39

軟件項(xiàng)目開發(fā)軟件項(xiàng)目估算

2011-09-07 09:21:01

設(shè)計模式

2011-06-29 15:44:19

SEO

2012-02-07 13:29:25

云計算HP

2022-08-07 23:37:53

測試軟件開發(fā)自動化

2012-07-25 11:14:19

經(jīng)理創(chuàng)業(yè)

2016-02-26 18:03:17

搜狐

2017-07-11 05:03:54

數(shù)據(jù)分析大數(shù)據(jù)數(shù)據(jù)

2010-09-14 13:49:38

CSS代碼

2022-05-31 21:08:41

云原生容器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號