自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

四分鐘對(duì)打300多次，谷歌教會(huì)機(jī)器人打乒乓球

作者：機(jī)器之心 2022-10-26 13:52:00

人工智能新聞

想打乒乓球，可以找機(jī)器人陪練了。

讓一位乒乓球愛(ài)好者和機(jī)器人對(duì)打，按照機(jī)器人的發(fā)展趨勢(shì)來(lái)看，誰(shuí)輸誰(shuí)贏還真說(shuō)不準(zhǔn)。?

機(jī)器人擁有靈巧的可操作性、腿部運(yùn)動(dòng)靈活、抓握能力出色…… 已被廣泛應(yīng)用于各種挑戰(zhàn)任務(wù)。但在與人類(lèi)互動(dòng)緊密的任務(wù)中，機(jī)器人的表現(xiàn)又如何呢？就拿乒乓球來(lái)說(shuō)，這需要雙方高度配合，并且球的運(yùn)動(dòng)非?？焖?，這對(duì)算法提出了重大挑戰(zhàn)。

在乒乓球比賽中，首要的就是速度和精度，這對(duì)學(xué)習(xí)算法提出了很高的要求。同時(shí)，這項(xiàng)運(yùn)動(dòng)具有高度結(jié)構(gòu)化（具有固定的、可預(yù)測(cè)的環(huán)境）和多智能體協(xié)作（機(jī)器人可以與人類(lèi)或其他機(jī)器人一起對(duì)打）兩大特點(diǎn)，使其成為研究人機(jī)交互和強(qiáng)化學(xué)習(xí)問(wèn)題的理想實(shí)驗(yàn)平臺(tái)。

來(lái)自谷歌的機(jī)器人研究團(tuán)隊(duì)已經(jīng)建立了這樣一個(gè)平臺(tái)來(lái)研究機(jī)器人在多人、動(dòng)態(tài)和交互環(huán)境中學(xué)習(xí)所面臨的問(wèn)題。谷歌為此還專門(mén)寫(xiě)了一篇博客，來(lái)介紹他們一直在研究的兩個(gè)項(xiàng)目 Iterative-Sim2Real（i-S2R）和 GoalsEye。i-S2R 讓機(jī)器人能夠與人類(lèi)玩家進(jìn)行超過(guò) 300 次的對(duì)打，而 GoalsEye 則使機(jī)器人能夠從業(yè)余愛(ài)好者那里學(xué)習(xí)到一些有用的策略（目標(biāo)條件策略）。

i-S2R 策略讓機(jī)器人和人類(lèi)對(duì)打，雖然機(jī)器人的握拍姿勢(shì)看起來(lái)不太專業(yè)，但也不會(huì)漏掉一個(gè)球：

你來(lái)我往，還挺像那么回事，妥妥打出了高質(zhì)量球的感覺(jué)。

而 GoalsEye 策略則能將球返回到桌面指定位置，就和指哪打哪差不多：

i-S2R：利用模擬器與人類(lèi)合作進(jìn)行游戲

在這個(gè)項(xiàng)目中，機(jī)器人旨在學(xué)會(huì)與人類(lèi)合作，即盡可能長(zhǎng)時(shí)間地與人類(lèi)進(jìn)行對(duì)打。由于直接針對(duì)人類(lèi)玩家進(jìn)行訓(xùn)練既乏味又耗時(shí)，因此谷歌采用了基于模擬的方法。然而，這又面臨一個(gè)新的問(wèn)題，基于模擬的方法很難準(zhǔn)確地模擬人類(lèi)行為、閉環(huán)交互任務(wù)等。

在 i-S2R 中，谷歌提出了一種在人機(jī)交互任務(wù)中可以學(xué)習(xí)人類(lèi)行為的模型，并在機(jī)器人乒乓球平臺(tái)上對(duì)其進(jìn)行實(shí)例化。谷歌已經(jīng)建立了一個(gè)系統(tǒng)，該系統(tǒng)可以與業(yè)余人類(lèi)玩家一起實(shí)現(xiàn)高達(dá) 340 次擊球?qū)Υ颍ㄈ缦滤荆?/span>

人與機(jī)器人對(duì)打 4 分鐘，來(lái)回多達(dá) 340 次

學(xué)習(xí)人類(lèi)行為模型

讓機(jī)器人準(zhǔn)確的學(xué)習(xí)人類(lèi)行為還面臨以下問(wèn)題：如果一開(kāi)始就沒(méi)有足夠好的機(jī)器人策略，就無(wú)法收集關(guān)于人類(lèi)如何與機(jī)器人交互的高質(zhì)量數(shù)據(jù)。但是如果沒(méi)有人類(lèi)行為模型，從一開(kāi)始就無(wú)法獲得機(jī)器人策略，這個(gè)問(wèn)題有點(diǎn)繞，就像先有雞還是先有蛋的問(wèn)題。一種方法是直接在現(xiàn)實(shí)世界中訓(xùn)練機(jī)器人策略，但這通常很慢，成本高昂，并且會(huì)帶來(lái)與安全相關(guān)的挑戰(zhàn)，當(dāng)人參與其中時(shí)，這些挑戰(zhàn)會(huì)進(jìn)一步加劇。

如下圖所示，i-S2R 使用一個(gè)簡(jiǎn)單的人類(lèi)行為模型作為近似起點(diǎn)，并在模擬訓(xùn)練和現(xiàn)實(shí)世界部署之間交替進(jìn)行。每次迭代中，人類(lèi)行為模型和策略都會(huì)被調(diào)整。

i-S2R 方法

谷歌根據(jù)玩家類(lèi)型對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了細(xì)分：初學(xué)者（占 40% 的玩家）、中級(jí)（占 40% 的玩家）和高級(jí)（占 20% 的玩家）。由實(shí)驗(yàn)結(jié)果可得，對(duì)于初學(xué)者和中級(jí)玩家（占 80% 的玩家），i-S2R 的表現(xiàn)都明顯優(yōu)于 S2R+FT（sim-to-real plus fine-tuning）。

按玩家類(lèi)型劃分的 i-S2R 結(jié)果?

GoalsEye：可精確擊中指定位置

在 GoalsEye 中，谷歌還展示了一種方法，該方法結(jié)合了行為克隆技術(shù)（behavior cloning techniques）來(lái)學(xué)習(xí)精確的目標(biāo)定位策略。?

這里谷歌重點(diǎn)關(guān)注乒乓球的精度，他們希望機(jī)器人可以將小球精確返回到球臺(tái)上的任意指定位置，就如下圖所展示的指哪打哪。為實(shí)現(xiàn)如下效果，他們還采用了 LFP（Learning from Play）、GCSL（Goal-Conditioned Supervised Learning）。

GoalsEye 策略瞄準(zhǔn)直徑為 20cm 的圓圈（左）。人類(lèi)玩家可以瞄準(zhǔn)同樣的目標(biāo)（右）?

在最初的 2480 次演示中，谷歌的訓(xùn)練策略僅在 9% 的時(shí)間內(nèi)準(zhǔn)確地?fù)糁邪霃綖?30 厘米的圓形目標(biāo)。在經(jīng)過(guò)了大約 13500 次演示后，小球達(dá)到目標(biāo)的準(zhǔn)確率上升到 43%（右下圖）。

?

關(guān)于這兩個(gè)項(xiàng)目的更多介紹，請(qǐng)參考以下鏈接：

Iterative-Sim2Real 主頁(yè)：https://sites.google.com/view/is2r
GoalsEye 主頁(yè)：https://sites.google.com/view/goals-eye

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

機(jī)器人谷歌

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="dm72k"><rt id="dm72k"></rt></thead>