量化評估、算法拓展:強(qiáng)化學(xué)習(xí)研究的10大原則
大數(shù)據(jù)文摘出品
編譯:蔣寶尚
今年9月份舉辦的深度學(xué)習(xí)Indaba2018峰會的干貨確實(shí)不少,昨天文摘菌給大家整理了27位大咖關(guān)于自然語言處理的精彩問答。今天文摘菌再給大家整理一份關(guān)于強(qiáng)化學(xué)習(xí)的10個原則,不僅在強(qiáng)化學(xué)習(xí)中有用,在機(jī)器學(xué)習(xí)研究中也能夠提供一些參考。
這10個原則是一位來自Insight數(shù)據(jù)分析研究中心的博士生Sebastian Ruder在參會期間對David Silver報告進(jìn)行的整理,除了Ruder自己的解析外,也把他自己拍的照片分享了出來。
1. 評估推動進(jìn)步
量化的評估才能推動進(jìn)步。評估獎勵的選擇決定了進(jìn)步的方向,要確保評估指標(biāo)與目標(biāo)密切相關(guān),避免主觀評價(例如人類學(xué)科)。還有一點(diǎn),雙Q學(xué)習(xí)優(yōu)于單Q學(xué)習(xí),因?yàn)楹笳吣軠p少偏見。
2. 算法的可擴(kuò)展性決定成功
算法如何擴(kuò)展非常重要,要避免性能上限。深度學(xué)習(xí)非常棒,因?yàn)樗梢杂行У財U(kuò)展,但是樣本效率同樣重要。
算法的可擴(kuò)展性的表現(xiàn)取決于資源,而算法的可擴(kuò)展性決定是否成功:那么給予更多資源,性能如何提高?值得一提的是,這里的資源指的是計算,內(nèi)存或數(shù)據(jù)。
3. 通用性,即算法在其他任務(wù)上的表現(xiàn)非常重要
關(guān)鍵是要設(shè)計一系列具有挑戰(zhàn)性的任務(wù),即應(yīng)該對不同的新任務(wù)進(jìn)行評估。避免過度使用當(dāng)前的任務(wù)。
4. 相信Agent的經(jīng)驗(yàn)
不要依賴人類的專業(yè)知識,不要依賴于工程特征。在數(shù)據(jù)有限時,領(lǐng)域?qū)I(yè)知識和歸納偏差非常重要。
一些任務(wù)可能看起來不太可能完成,但是,你確實(shí)能在其中學(xué)到很多經(jīng)驗(yàn)。這種任務(wù)或者項(xiàng)目,通常滿足這三點(diǎn):
- 很難接受RL的核心問題。
- 是AI的核心問題
- 非常值得你去努力
5. 狀態(tài)應(yīng)該是主觀的
應(yīng)將狀態(tài)建立為模型的狀態(tài),即RNN的隱藏狀態(tài),而不是根據(jù)環(huán)境定義。只有agent對世界的主觀看法才是重要的。不要推理外部現(xiàn)實(shí),因?yàn)檫_(dá)到的效果非常有限。
6. 控制流
Agent影響數(shù)據(jù)流和體驗(yàn)。Agent應(yīng)該有能夠訪問控制環(huán)境的功能。重點(diǎn)不僅在于***化獎勵,還在于建立對流的控制。
7. 價值函數(shù)塑造世界
價值函數(shù)有效地總結(jié)了當(dāng)前和未來的狀況。多值函數(shù)允許我們模擬世界的多個方面。可以幫助控制流。
8. 從想象的經(jīng)驗(yàn)(imagined experience)中學(xué)習(xí)
接下來該怎樣規(guī)劃?同樣的,RL算法可以從想象的經(jīng)驗(yàn)(imagined experience)中學(xué)習(xí),如Alphago中使用MCTS和值函數(shù)。
9. 利用函數(shù)逼近器
可以將算法復(fù)雜度揉進(jìn)神經(jīng)網(wǎng)絡(luò)架構(gòu),甚至MCTS,分層控制等也可以用NN建模。然后要真正理解:我們從模型學(xué)到了什么。
10. 學(xué)會學(xué)習(xí)
必須精通元學(xué)習(xí),然后,你可能不再需要手工設(shè)置網(wǎng)絡(luò)架構(gòu),一切都是端到端學(xué)習(xí)??偠灾?,神經(jīng)網(wǎng)絡(luò)要通過盡可能少的人工干預(yù)來處理事情。但是,歸納偏差應(yīng)該仍然有用。
相關(guān)報道:
https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】