自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

疊衣服、擦案板、沖果汁,能做家務(wù)的國產(chǎn)機(jī)器人終于要來了

人工智能
還記得會炒菜的斯坦福 ALOHA 機(jī)器人嗎?現(xiàn)在,中國的初創(chuàng)公司自變量機(jī)器人(X Square)展示了同樣令人驚艷的能力,甚至更進(jìn)一步。

將家務(wù)全部交給機(jī)器人的那一天,或許會比想象中更快到來。

還記得會炒菜的斯坦福 ALOHA 機(jī)器人嗎?現(xiàn)在,中國的初創(chuàng)公司自變量機(jī)器人(X Square)展示了同樣令人驚艷的能力,甚至更進(jìn)一步。

在該公司最新展示的 Demo 中,完全基于大模型自主推理的雙臂機(jī)器人,利用低成本硬件即實(shí)現(xiàn)對不規(guī)則物體的精細(xì)操作(如抓握、拾取、切割等),以及折疊衣服、沖泡飲料等復(fù)雜任務(wù),展現(xiàn)出相當(dāng)程度的泛化性能。

圖片

折疊衣物(3 倍速播放):對柔性物體的操作長久以來都是困擾整個 manipulation 領(lǐng)域的難題,需要高度靈活的操作和精細(xì)的動作協(xié)調(diào)。

圖片

切火腿(2 倍速播放):復(fù)雜的摩擦和阻力,難以用傳統(tǒng)方法快速建模,需要精確的力度控制與物體定位。

圖片

切黃瓜,2 倍速播放:在一種物體上習(xí)得的能力直接泛化到不同物體的操作上。

圖片

用海綿擦掉案板上的污漬(2 倍速播放):自修正的 close loop 控制能力,在不同壓力和表面條件下的精細(xì)力度控制,實(shí)時檢測并調(diào)整擦拭動作,確保徹底清潔污漬。

圖片

用勺子從罐子里取出適量的果汁粉(3 倍速播放):使用工具的過程中,處理復(fù)雜的摩擦一直以來都是極大難點(diǎn)。

圖片

沖果汁,舉起水壺往杯中倒入適量的水(3 倍速播放):流體引入大量的隨機(jī)性,準(zhǔn)確操作非常困難。

這家去年底成立的公司,匯聚了來自世界著名人工智能 / 機(jī)器人學(xué)實(shí)驗(yàn)室以及國內(nèi)外頂尖高校的優(yōu)秀人才,擁有雄厚的科研背景。公司的目標(biāo)是「將人類從無意義的體力勞動中解放出來」,專注于機(jī)器人領(lǐng)域的基礎(chǔ)模型(foundation model)研發(fā)。

目前,團(tuán)隊(duì)正在構(gòu)建一個具備從感知到行動的端到端能力的通用機(jī)器人大模型(“中樞神經(jīng)”),目標(biāo)是能夠控制低成本硬件(如數(shù)千元的機(jī)械臂),完成包括烹飪、打掃衛(wèi)生在內(nèi)的日常家務(wù),并在未來擴(kuò)展到照顧老人和小孩等更復(fù)雜的家庭護(hù)理工作,以及完成其他達(dá)到人類水平的通用操作任務(wù)。

基于具身智能大模型,開發(fā)通用機(jī)器人平臺

盡管機(jī)器人管家是人類對智能未來最具代表性的暢想,但在現(xiàn)實(shí)生活中,能夠勝任家務(wù)勞動的通用服務(wù)機(jī)器人幾十年來的發(fā)展一直困難重重。家庭環(huán)境的多樣性和不可預(yù)測性要求機(jī)器人具備高度復(fù)雜的感知能力、靈活精確的機(jī)械操作、智能的決策和規(guī)劃,以及有效的人機(jī)交互能力。此外,技術(shù)的集成、機(jī)器人的安全性、續(xù)航能力、成本等,也是必須克服的重要障礙。

傳統(tǒng)的機(jī)器人通常采用基于規(guī)則和單一任務(wù)環(huán)境的方式,很難根據(jù)環(huán)境變化自主調(diào)整策略,從長遠(yuǎn)看也幾乎不可能規(guī)?;?。大語言模型(LLM)等人工智能技術(shù)的突破,為機(jī)器人領(lǐng)域帶來了新的曙光。谷歌的 RT-2 系統(tǒng)將視覺-語言-動作模型與機(jī)器人技術(shù)相結(jié)合,使機(jī)器人能夠處理復(fù)雜場景,并響應(yīng)人類的指令。DeepMind 的 AutoRT 系統(tǒng)則使用視覺-語言模型(VLM),幫助機(jī)器人適應(yīng)未知環(huán)境,并利用 LLM 來為機(jī)器人提供指令。大模型在知識遷移和泛化方面的這些優(yōu)勢,有望幫助機(jī)器人逼近甚至超越人類的水平。

X Square 認(rèn)為,目前機(jī)器人領(lǐng)域正處于技術(shù)的代際更迭之際。斯坦福 ALOHA 等項(xiàng)目表明,通用機(jī)器人發(fā)展的瓶頸在于智能而非硬件。事實(shí)上,機(jī)器人領(lǐng)域長期以來面臨的兩大困難,一是如何在復(fù)雜環(huán)境中精確感知并做出精細(xì)的操作(low level 智能),二是缺乏類似人類的推理、規(guī)劃、交互等高級認(rèn)知能力(high level 智能)。從感知到行動,機(jī)器人的智能可以被視為一個從 high level 逐步到 low level 的決策過程。

大模型的出現(xiàn)為解決上述難題帶來了新思路。運(yùn)用 LLM 或 VLM 來進(jìn)行高階推理與規(guī)劃、與人交互,已經(jīng)成為業(yè)界公認(rèn)的發(fā)展方向。

但是,直接用單一的大模型來驅(qū)動端到端的機(jī)器人 manipulation,目前嘗試的團(tuán)隊(duì)還不多。

X Square 的獨(dú)特之處便在于此,團(tuán)隊(duì)基于過往在模型、算法、系統(tǒng)、硬件等方面的科研成果積累,集合所有技能訓(xùn)練「機(jī)器人 Large Manipulation Model」,從手部操作切入,基于具身大模型來構(gòu)建可以精細(xì)操作的通用機(jī)器人。

團(tuán)隊(duì)希望結(jié)合 high-level 的推理規(guī)劃模型與 low-level 的操作控制模型,打造一個類似「機(jī)器人大腦-小腦」的通用操作系統(tǒng)。

「我們公司名為 X Square,寓意要同時在 high level 推理和 low level 控制這兩個維度做大模型,并把兩者有機(jī)結(jié)合。目前我們在兩個方向都已有不錯的基礎(chǔ),有信心在一年內(nèi)從追趕到超越目前的世界領(lǐng)先水平。」

圖片

X Square 指出:「與腿的移動能力相比,手的操作能力包含了更豐富和復(fù)雜的動作,要求更高級別的控制精度。人類手部的精細(xì)操作是我們智能的根本表現(xiàn)。」

不同于很多人形機(jī)器人公司關(guān)注對人體形態(tài)的模仿,X Square 更關(guān)注實(shí)現(xiàn)接近人類的功能?!覆捎幂喪揭苿拥妆P搭配雙臂,可以大幅降低成本,2-3 年內(nèi)整體硬件成本有望降至 1 萬美元以下,我們認(rèn)為放棄 5% 的人形功能來換取數(shù)量級的成本優(yōu)勢是值得的?!?/span>

軟硬件一體,驅(qū)動數(shù)據(jù)飛輪

「我們希望模型擁有怎樣的能力,就需要提供給模型什么樣的數(shù)據(jù)。是數(shù)據(jù),而非算法或結(jié)構(gòu)決定了模型的能力,這是當(dāng)今時代的核心方法論?!?/span>

機(jī)器人的特殊性在于,它是一個具有前所未有復(fù)合性的綜合系統(tǒng)。相比純軟件的 LLM 和多模態(tài)大模型,具身智能大模型雖然在規(guī)模上暫時無法與之相比,但在工程上難度要高出許多,它必須在海量的真實(shí)和模擬場景中不斷實(shí)踐、學(xué)習(xí)。因此,能否找準(zhǔn)技術(shù)方向,在降低開發(fā)成本和提高迭代效率的同時,打造高質(zhì)量的數(shù)據(jù)采集能力,控制試錯成本,最終實(shí)現(xiàn)規(guī)?;?,是決定成敗的關(guān)鍵因素。

這對團(tuán)隊(duì)軟硬一體的能力提出了很高的要求,因?yàn)槭欠窬哂凶銐虻能浻步Y(jié)合能力,在機(jī)器人這一多模態(tài)集中融合的領(lǐng)域直接關(guān)系到迭代速度與數(shù)據(jù)質(zhì)量。軟硬件一體發(fā)展,是 X Square 的核心理念。無論是機(jī)器人本體的形態(tài)設(shè)計(jì),還是數(shù)據(jù)采集系統(tǒng),都是為機(jī)器人「中樞神經(jīng)系統(tǒng)」的開發(fā)在服務(wù)。

在模型算法設(shè)計(jì)上,X square 也有自己獨(dú)特的理解和創(chuàng)新?!赋诵枰袑iT的數(shù)據(jù),還需要針對性的結(jié)構(gòu)設(shè)計(jì)和訓(xùn)練方法,不能單純套用其他領(lǐng)域的大模型經(jīng)驗(yàn),因?yàn)樗仨氈苯用鎸?fù)雜的真實(shí)世界,要在真實(shí)世界中不斷實(shí)踐、迭代?!?/span>

同時,由于大模型與傳統(tǒng) deep learning for robotics 具有相當(dāng)?shù)?gap,是否真正具備足夠的大模型訓(xùn)練落地經(jīng)驗(yàn),決定了能否快速構(gòu)建通用具身智能大模型。這也正是 X Square 的優(yōu)勢所在。

「目前語言大模型的訓(xùn)練預(yù)測架構(gòu)在機(jī)器人上不完全work,以 Transformer 為底座算法模型不能很好地支持因果關(guān)系的推理,而因果性在機(jī)器人所在的物理世界中大量出現(xiàn),并在機(jī)器人操作中起關(guān)鍵作用。為了處理因果性,目前有很多 world model 的嘗試。但當(dāng)前的世界模型要么完全集中在圖像 / 視頻重建上(如 Sora),要么完全集中在高層語義理解上,缺乏適合機(jī)器人的形態(tài)?!?/span>

X Square 篤定機(jī)器人大模型這個方向,一方面是基于團(tuán)隊(duì)成員親歷深度學(xué)習(xí)從被質(zhì)疑到一統(tǒng)江湖,以及 LLM 從默默無聞到大放異彩的技術(shù)浪潮,另一方面,也是看好中國作為全球硬件中心,擁有得天獨(dú)厚的產(chǎn)業(yè)鏈優(yōu)勢,也有利于快速縮短機(jī)器人的研發(fā)周期。

團(tuán)隊(duì)在不到 3 個月的時間里,就完成了技術(shù)架構(gòu)的搭建和早期模型的訓(xùn)練,展現(xiàn)出驚人的成長速度和卓越的工程能力。

「在現(xiàn)階段,我們也積極尋求與上下游合作伙伴的協(xié)作,實(shí)現(xiàn)智能的迭代升級。未來,隨著具身智能大模型技術(shù)的日益成熟,我們會更聚焦于特定應(yīng)用場景,推出自己的機(jī)器人產(chǎn)品,例如能完成做飯、打掃等復(fù)雜家務(wù)的機(jī)器人保姆,甚至進(jìn)行老年人康養(yǎng)護(hù)理等服務(wù)?!筙 Square 表示。

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2018-12-20 11:12:44

機(jī)器人算法伯克利

2024-09-02 10:00:00

機(jī)器人開源

2021-04-21 14:15:08

機(jī)器人AI人工智能

2017-04-17 09:01:39

科技新聞早報

2023-05-29 08:38:56

popover控制懸浮層

2024-11-04 08:00:00

2020-03-05 20:37:08

工業(yè)4.0機(jī)器人工業(yè)物聯(lián)網(wǎng)

2024-01-16 08:34:38

擎天柱機(jī)器人人工智能

2020-04-09 09:56:55

機(jī)器人導(dǎo)航框架

2022-09-26 12:17:56

SIMeSIMiPhone

2020-08-24 09:08:17

機(jī)器人自主研發(fā)技術(shù)

2023-05-23 09:56:14

機(jī)器人谷歌

2024-01-05 13:24:29

谷歌家務(wù)機(jī)器人AI

2020-07-20 17:05:03

機(jī)器人工業(yè)機(jī)器人國產(chǎn)

2020-10-15 15:42:00

人工智能

2023-05-14 23:39:51

機(jī)器人深度學(xué)習(xí)

2015-12-10 21:49:32

IM機(jī)器人

2021-04-08 12:33:06

數(shù)字人民幣數(shù)字貨幣區(qū)塊鏈
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號