自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="imfrf"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

谷歌AI為達(dá)目的，把自己的身體改造成了這樣……

作者：強(qiáng)化栗 2018-10-16 09:45:36

新聞人工智能

智能體在虛擬世界里死去活來(lái)，慢慢了解怎樣的策略能讓自己活得更長(zhǎng)，得到更多的獎(jiǎng)勵(lì)。但 AI 可能不知道，游戲打不好，也可能是智能體的身體結(jié)構(gòu)有問(wèn)題。

[[246219]]

　　強(qiáng)化學(xué)習(xí) AI 打游戲，早就不稀奇了。

　　智能體在虛擬世界里死去活來(lái)，慢慢了解怎樣的策略能讓自己活得更長(zhǎng)，得到更多的獎(jiǎng)勵(lì)。

　　但 AI 可能不知道，游戲打不好，也可能是智能體的身體結(jié)構(gòu)有問(wèn)題。

　　如果可以一邊學(xué)策略，一邊改身材，或許能成就更偉大的強(qiáng)化學(xué)習(xí) AI。

　　于是，來(lái)自谷歌大腦的 David Ha，為自家 AI 制定了雙管齊下的特殊訓(xùn)練計(jì)劃：

　　智能體不斷調(diào)整自己的身材，比如腿的長(zhǎng)度，找到最適合當(dāng)前任務(wù)的結(jié)構(gòu)；同時(shí)進(jìn)行策略訓(xùn)練。

△身材修煉前 (左) vs 身材修煉后 (右)：速度明顯不一樣

　　你看，智能體把腿跑細(xì)了，速度也快了許多。

　　除此之外，還可以培養(yǎng)越野能力。

　　在溝壑縱橫的旅途中，原始身材的智能體時(shí)常翻車(chē)。

△ 改造前，翻車(chē)日常
△ 改造前，翻車(chē)日常

　　但煉成優(yōu)雅身型之后，翻車(chē)事件幾乎不存在了，策略訓(xùn)練時(shí)間也縮減到原來(lái)的 30%。

　　身材科學(xué)了，策略也就好學(xué)了。

　　那么，是怎樣的婀娜身段，能在降低時(shí)間成本的同時(shí)提升性能？再看一會(huì)兒你就知道了。

　　秀外慧中，有何密方？

　　從前的智能體，形狀結(jié)構(gòu)大都是固定的，只關(guān)注策略訓(xùn)練?？墒?，系統(tǒng)預(yù)先設(shè)定的身材，通常都不是 (針對(duì)特定任務(wù)) 最理想的結(jié)構(gòu)。

　　因此，如同上文所說(shuō)，策略要學(xué)，身材優(yōu)化也要一起學(xué)。

[[246222]]

　　這樣一來(lái)，只用策略網(wǎng)絡(luò)的權(quán)重參數(shù) (Weight Parameters) 來(lái)訓(xùn)練就不夠了，環(huán)境也要參數(shù)化。

　　身體結(jié)構(gòu)特征，比如大腿或小腿的長(zhǎng)度、寬度、質(zhì)量、朝向等等，都是這環(huán)境的組成部分。

　　這里的權(quán)重參數(shù)w，把策略網(wǎng)絡(luò)參數(shù)和環(huán)境參數(shù)向量結(jié)合起來(lái)，便可以同時(shí)培養(yǎng)身材和技巧。

　　隨著權(quán)重w的不斷更新，智能體會(huì)越來(lái)越強(qiáng)。

[[246223]]

　　身材改造有沒(méi)有用？只要和僅學(xué)策略、不改結(jié)構(gòu)的智能體比一場(chǎng)，如果獎(jiǎng)勵(lì)分有提升，就表示 AI 找到了更適合這個(gè)環(huán)境的身型。

　　注意，為了修煉 AI 的冒險(xiǎn)精神，研究人員把高難度動(dòng)作的獎(jiǎng)勵(lì)擴(kuò)大，引導(dǎo)智能體挑戰(zhàn)自我。

　　身材改造，療效甚好

　　比賽場(chǎng)地分兩大塊，一是基于 Bullet 物理引擎的機(jī)器人模擬庫(kù) Roboschool，二是基于 Box2D 物理引擎的 OpenAI Gym。

　　兩類(lèi)環(huán)境都經(jīng)過(guò)了參數(shù)化，AI 可以學(xué)著調(diào)整里面的參數(shù)。

　　解鎖高分姿勢(shì)

　　首先，來(lái)到足球場(chǎng) (RoboschoolAnt-v1) ，這里的智能體 Ant 是只四腳怪，每條腿分三截，由兩個(gè)關(guān)節(jié)控制。腿是留給 AI 調(diào)節(jié)的，球狀身軀是不可調(diào)節(jié)的。

△ 三截腿，最內(nèi)側(cè)的一截比較不明顯
△ 三截腿，最內(nèi)側(cè)的一截比較不明顯

　　任務(wù)很簡(jiǎn)單，跑得越遠(yuǎn)越好。

　　經(jīng)過(guò)訓(xùn)練 (上圖右) ，智能體最明顯的變化是腿部更加細(xì)長(zhǎng)了，且四條腿長(zhǎng)短不一，打破了對(duì)稱(chēng)性。身材改變之后，步頻也加快了許多，長(zhǎng)腿怪更早穿過(guò)了棕色跑道。

　　看一下獎(jiǎng)勵(lì)分：在 100 次測(cè)試?yán)铮冀Y(jié)構(gòu)的得分是 3447 ± 251，而新結(jié)構(gòu)的得分為 5789 ± 479，療效顯著。

△ 左為原始，右為身材訓(xùn)練后 (紅線(xiàn)代表激光雷達(dá))
△ 左為原始，右為身材訓(xùn)練后 (紅線(xiàn)代表激光雷達(dá))

　　然后，進(jìn)入綠地場(chǎng)景 (BipedalWalker-v2，基于 Box2D，屬于 Gym) 。這里的智能體是兩足的，在“激光雷達(dá)”的指引下往前走。

　　任務(wù)是在規(guī)定時(shí)間內(nèi)，穿越一片和平的地形 (這是簡(jiǎn)單版，充滿(mǎn)障礙物的復(fù)雜版見(jiàn)下文) 。用分?jǐn)?shù)來(lái)看，100 次 Rollout 超過(guò) 300 分就算任務(wù)成功。

　　原始身材獲得了 347 分，優(yōu)化后的身材則有 359 分。

[[246226]]

　　兩邊任務(wù)都成功了，但改造過(guò)結(jié)構(gòu)的智能體除了瘦腿之外，兩腿四截的長(zhǎng)度都有變化，給了 AI 彈跳前進(jìn)的新姿勢(shì)。動(dòng)作看上去更加輕松，分?jǐn)?shù)也高過(guò)從前。

　　好身材，能加速策略學(xué)習(xí)

　　上文綠地的硬核版 (BipedalWalkerHardcore-v2) 在此：路途崎嶇，千山萬(wàn)壑，一不小心就會(huì)墮入深淵。

　　David Ha 要在此證明，強(qiáng)健的身材能為智能體的策略學(xué)習(xí)帶來(lái)加成，而不只是“兩門(mén)功課同步學(xué)”那樣粗暴的合體。

　　與之前的全面瘦腿不同，這次智能體的后腿，進(jìn)化出了厚實(shí)的小腿，且長(zhǎng)度和溝壑的寬度相近。

△ 紅線(xiàn)代表激光雷達(dá)
△ 紅線(xiàn)代表激光雷達(dá)

　　這樣一來(lái)，在跨越鴻溝的時(shí)候，后腿就能架起一座橋，保護(hù)智能體平穩(wěn)通過(guò)，不翻車(chē)。

　　與此同時(shí)，前腿承擔(dān)了“危險(xiǎn)探測(cè)器”的責(zé)任，偵查前方有怎樣的障礙物，作為“激光雷達(dá)”的輔助，可以給后腿的下一步動(dòng)作提供依據(jù)。

　　重點(diǎn)是，在這副新身材誕生的過(guò)程中，AI 已學(xué)會(huì)了通關(guān)策略，耗時(shí)僅 12 小時(shí)。對(duì)比一下，不做身材優(yōu)化的原始訓(xùn)練方法，用時(shí)長(zhǎng)達(dá) 40 小時(shí) (前饋策略網(wǎng)絡(luò)，96 個(gè) GPU) 。

　　這就是說(shuō)，優(yōu)雅的結(jié)構(gòu)加速了智能體的學(xué)習(xí)過(guò)程。

△ 加入身材優(yōu)化(橙色) ，訓(xùn)練效率明顯提升，約 1000 代達(dá)成目標(biāo)
△ 加入身材優(yōu)化(橙色) ，訓(xùn)練效率明顯提升，約 1000 代達(dá)成目標(biāo)

　　腦洞，并非從天而降

　　***，David Ha 如何能預(yù)感到，改善智能體的結(jié)構(gòu)就可以提升訓(xùn)練效率？

　　他說(shuō)，是從大自然得到了啟發(fā)。

[[246228]]
△ 錯(cuò)誤示范

　　有些動(dòng)物在腦死亡之后，依然可以蹦跳，依然可以游泳。

　　也就是說(shuō)，生物體的許多行為，并不依賴(lài)大腦。

　　有種叫做體驗(yàn)認(rèn)知 (Embodied Cognition) 的理論認(rèn)為，認(rèn)知的許多特征，都不是大腦獨(dú)自決定：生物體的方方面面，如運(yùn)動(dòng)系統(tǒng)、感知系統(tǒng)、生物體與環(huán)境的相互作用等等，都會(huì)對(duì)認(rèn)知產(chǎn)生影響。

　　比如，運(yùn)動(dòng)員在長(zhǎng)期訓(xùn)練的過(guò)程中，除了身體得到鍛煉，某些特定的心理素質(zhì)也會(huì)隨之生成。

　　David Ha 覺(jué)得，這樣的現(xiàn)象在 AI 身上也有可能發(fā)生：對(duì)軀體進(jìn)行訓(xùn)練，從而影響認(rèn)知。

　　第二，通過(guò)訓(xùn)練來(lái)改變智能體結(jié)構(gòu)的想法，也是來(lái)源于自然。

[[246229]]
△ 火烈鳥(niǎo)本不是紅色，吃了小魚(yú)小蝦之類(lèi)的食物，羽毛才變紅

　　中學(xué)生物告訴我們，表現(xiàn)型是基因型與環(huán)境共同作用的結(jié)果。

　　那么，各式各樣的虛擬場(chǎng)景，也會(huì)讓更適應(yīng)環(huán)境的智能體結(jié)構(gòu)脫穎而出。這樣，AI 便可以借助環(huán)境的選擇，煉成更加精湛的技能。

　　緣，妙不可言。

　　論文傳送門(mén)：https://designrl.github.io/

[[246230]]

責(zé)任編輯：張燕妮來(lái)源：量子位

谷歌 AI 游戲

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)