自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華團(tuán)隊(duì)破解具身智能Scaling Law,GPT時(shí)刻在即!寧德時(shí)代聯(lián)創(chuàng)終于出手

人工智能 新聞
半年兩次大融資后,這家具身智能黑馬再次獲得融資!作為柏睿資本首次投資的具身智能企業(yè),千尋智能不僅擁有出身自伯克利系聯(lián)創(chuàng),在技術(shù)、硬件、商業(yè)化上,也讓人極有信心。

最近,我們意外發(fā)現(xiàn),具身智能領(lǐng)域的明星初創(chuàng)公司千尋智能,悄悄完成了工商變更。

根據(jù)工商信息顯示,本輪融資由柏睿資本獨(dú)家投資。至此,千尋智已經(jīng)在半年多時(shí)間里獲得了三次大額融資,一躍成為具身智能領(lǐng)域明星公司之一。

值得一提的是,柏睿資本是寧德時(shí)代聯(lián)合創(chuàng)始人,副董事長李平創(chuàng)立的產(chǎn)業(yè)投資基金。

全國具身智能領(lǐng)域多家明星,為何首次下場便獨(dú)獨(dú)選中了千尋智能?

從下面這些demo中,便可窺見一斑。

仔細(xì)看,桌面上撒滿了五顏六色形狀各異的糖豆。如何將這些不同顏色和大小的物體進(jìn)行分類,可不是件容易的事。

只見,在極其強(qiáng)大的識(shí)別和精準(zhǔn)操作能力的加持下,千尋智能的機(jī)器人用靈巧的手指輕松地將糖豆捏起,并準(zhǔn)確地放入指定的碗里。

圖片

(實(shí)拍原速)

不僅如此,它還可以一手拿起桌上透明的玻璃杯,一手從滿滿一筐雞蛋中抓出一個(gè)并準(zhǔn)確無誤地放進(jìn)杯中。

圖片

(實(shí)拍原速)

甚至,它還能接過手中的文件并進(jìn)行裝訂,然后再交還給人類。

在這個(gè)過程中,AI基于視覺大模型的任務(wù)理解與規(guī)劃,實(shí)現(xiàn)了人機(jī)交互及協(xié)同作業(yè)。

(實(shí)拍原速)

具身智能行業(yè),到底在卷什么

其實(shí),如今的具身智能領(lǐng)域可謂是百花齊放,各種酷炫的演示demo層出不窮。但對(duì)于不懂的外行人來說,只能看個(gè)熱鬧,很難理解背后真正的技術(shù)邊界是怎么樣的。

同一個(gè)動(dòng)作,是提前編程好的,還是機(jī)器人自主完成的?機(jī)器人只能在特定的某個(gè)位置、某個(gè)光照做一件事,還是能夠真正泛化到各個(gè)條件、各個(gè)場景?

看似相差不多的demo下,背后的技術(shù)能力實(shí)則相差甚遠(yuǎn)。

不過,對(duì)于未來的技術(shù)走向,業(yè)界的認(rèn)知正在逐漸清晰——最核心的還是大腦的能力。

隨著時(shí)間的發(fā)展,可能再過一兩年,競爭就會(huì)回到這個(gè)本質(zhì),因?yàn)槲ㄓ写竽X,才能決定具身智能能在什么場景落地。

目前,大語言模型賽道已經(jīng)接近后期,投資人開始關(guān)注回報(bào)的問題,但相比之下,機(jī)器人賽道可以說才剛剛開始。尤其涉及到軟硬結(jié)合,以及整套系統(tǒng)的復(fù)雜度,賽道周期顯然會(huì)更長。

在這樣的背景下,柏睿資本的此次下場,顯然是經(jīng)過了深思熟慮。

寧德時(shí)代聯(lián)創(chuàng)首次出手

自創(chuàng)立之初,柏睿資本就專注于人工智能、具身智能領(lǐng)域的發(fā)展,且一直非??春眠@一技術(shù)將帶來的一系列變革。

具體到千尋智能,柏睿資本看重的正是其團(tuán)隊(duì)在AI、硬件、商業(yè)化三個(gè)方面的綜合優(yōu)勢。

首先,針對(duì)高陽在算法和模型方面的持續(xù)創(chuàng)新和產(chǎn)出能力,柏睿資本抱有極大的信心;其次,千尋智能的創(chuàng)始團(tuán)隊(duì)在硬件領(lǐng)域有著扎實(shí)的背景和積累;第三則是多達(dá)上百個(gè)場景、數(shù)萬臺(tái)機(jī)器人的商業(yè)化落地經(jīng)驗(yàn)。

作為柏睿資本投資的首家具身智能企業(yè),千尋智能將借助柏睿資本和背后的產(chǎn)投資源,快速切入市場化落地并進(jìn)行具身智能泛化性作業(yè)驗(yàn)證,成為國內(nèi)首家實(shí)現(xiàn)具身智能商業(yè)化的公司。

圖片

把水壺里的水倒進(jìn)玻璃杯,并讓水位達(dá)到指定的刻度(實(shí)拍原速)

縱觀當(dāng)下機(jī)器人領(lǐng)域的現(xiàn)狀,各種技術(shù)的理論驗(yàn)證基本都已完成,但工程化卻還在起步階段。

怎樣一條途徑是最優(yōu)方案,率先做到在工程上可行?

從Physical Intelligence、Skild AI等優(yōu)秀的國外先行者身上,我們可以隱約窺見一條逼近真理的技術(shù)路徑。

端到端就是下一個(gè)前沿

最近,成立僅8個(gè)月的初創(chuàng)Physical Intelligence(Pi)發(fā)布了一款通用機(jī)器人基礎(chǔ)模型π0

這個(gè)在8個(gè)機(jī)器人平臺(tái)上,完成訓(xùn)練的3B模型,能夠執(zhí)行各種靈巧的任務(wù),包括洗衣服、收納整理......

圖片

與LLM不同的是,π0跨越了視覺、語言、動(dòng)作(VLA),并通過訓(xùn)練機(jī)器人的具身經(jīng)驗(yàn)中,獲得物理智能。

它基于3B VLM完成的預(yù)訓(xùn)練,隨后又根據(jù)靈巧任務(wù)(洗衣服、組裝盒子、桌面任務(wù))進(jìn)行了微調(diào)。

圖片

VLM的優(yōu)勢在于能夠集成互聯(lián)網(wǎng)規(guī)模的語義知識(shí)和視覺理解,有助于動(dòng)作預(yù)測

Pi聯(lián)創(chuàng)之一,也是UC伯克利副教授Sergey Levine看到,如今的機(jī)器人是一種狹隘的專家系統(tǒng)。比如,工業(yè)機(jī)器人通過編程,在裝配線上同個(gè)地點(diǎn)進(jìn)行重復(fù)的工作。

即便是這樣簡單的行為,也需要耗費(fèi)大量的人工編程,更不用提在復(fù)雜環(huán)境(家庭等)中的應(yīng)用了。

有了大模型,就很容易讓機(jī)器人做到這點(diǎn)。然而這一切實(shí)現(xiàn)的前提是——數(shù)據(jù)。

就像人類可以憑借經(jīng)驗(yàn)快速學(xué)習(xí)新技能一樣,模型也僅需少量數(shù)據(jù),就能適應(yīng)新的任務(wù)。

這便是π0的核心思想。

圖片

另一家由CMU大牛Deepak Pathak(博士出身是UC伯克利)創(chuàng)立的Skild AI,也遵循了同樣的技術(shù)路線。

他們打造出了一款能夠泛化的機(jī)器人基礎(chǔ)模型「Skild Brain」,背后用到的訓(xùn)練數(shù)據(jù)是競爭對(duì)手的1000倍,可以適用到任何機(jī)器人本體和任務(wù)中。

圖片

從以上伯克利系大牛們所做的研究來看,端到端架構(gòu)已成為具身智能的主要技術(shù)路線。

無獨(dú)有偶,國內(nèi)的千尋智能也在技術(shù)路線上與這兩家美國的具身智能頂尖初創(chuàng),不謀而合。

在讀博士、博士后期間,千尋智能團(tuán)隊(duì)的首席科學(xué)家高陽,還曾與Sergey Levine和Pieter Abbeel教授展開深入合作。

尤其是,他們的模型可以在訓(xùn)練過程中,同時(shí)利用監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)、模擬學(xué)習(xí)等技術(shù),并將Sim2Real數(shù)據(jù)作為補(bǔ)充。

結(jié)果就是,剛成立半年多的千尋智能,就已經(jīng)能實(shí)現(xiàn)業(yè)內(nèi)Top的靈巧手操作了。

圖片

(實(shí)拍原速)

伯克利系稱霸具身智能

毫不夸張地說,UC伯克利已被公認(rèn)為是最近這波具身智能浪潮的主要發(fā)源地。而Sergey、Pieter這些教授,是當(dāng)之無愧的機(jī)器人學(xué)習(xí)領(lǐng)域最近十年的領(lǐng)頭人。

同時(shí),出身伯克利系的高徒們,如今已經(jīng)在各個(gè)相關(guān)領(lǐng)域散作滿天星,不斷推高業(yè)界前沿的技術(shù)水平。

比如,千尋智能聯(lián)合創(chuàng)始人高陽在攻讀計(jì)算機(jī)視覺博士學(xué)位期間,便是師從Trevor Darrell教授,和Deepak Pathak同組。

圖片

最近,高陽帶領(lǐng)團(tuán)隊(duì)發(fā)現(xiàn)了具身智能領(lǐng)域的「圣杯」——Data Scaling Laws,堪稱機(jī)器人的ChatGPT時(shí)刻。

而且,在CoRL 2024上,這項(xiàng)研究榮獲X-Embodiment workshop最佳論文獎(jiǎng)!

圖片

這一方法讓機(jī)器人實(shí)現(xiàn)了真正的零樣本泛化,也就意味著無需任何微調(diào),就能泛化到全新場景中,徹底改變了開發(fā)通用機(jī)器人的方式。

圖片

論文地址:https://arxiv.org/abs/2410.18647

圖片

就連谷歌DeepMind大牛Ted Xiao也對(duì)這項(xiàng)研究贊賞有加,稱其對(duì)機(jī)器人大模型時(shí)代具有里程碑意義。

圖片

這位具身智能領(lǐng)域大咖,有著怎樣的學(xué)術(shù)背景?

2014年,高陽獲得了清華計(jì)算機(jī)科學(xué)本科學(xué)位,師從國內(nèi)ML領(lǐng)域享有盛譽(yù)的著名學(xué)者朱軍教授。

在大二的時(shí)候,也正是深度學(xué)習(xí)(2012年)爆發(fā)之際,高陽做的了很多關(guān)于傳統(tǒng)ML的研究。

憑借出色的成績,他成為了計(jì)算機(jī)系的第二位大神。

到了大三,高陽拿到了去斯坦福做交換的暑期學(xué)習(xí)資格,導(dǎo)師是David L. Dill教授。

圖片

本科畢業(yè)前,得益于老師的推薦信,以及自身各方面優(yōu)異表現(xiàn),高陽最終收獲了美國多所頂尖高校的offer。

面對(duì)這些同樣優(yōu)秀的學(xué)府,他決定親赴美國實(shí)地考察,做出最適合自己的選擇。

在走訪過程中,UC伯克利給他留下了深刻的印象。作為四大名校之一,這所學(xué)校具備了濃厚的學(xué)術(shù)氛圍。

再加上,自身專攻機(jī)器學(xué)習(xí)領(lǐng)域的原因,UC伯克利最適合不過了。

作為一名機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)生,他對(duì)UC伯克利格外青睞,很大程度上還因?yàn)橐I(lǐng)ML時(shí)代技術(shù)的Michael Jordan教授的存在。

圖片

原本初到伯克利時(shí),高陽計(jì)劃跟隨Michael Jordan開展研究。然而,再參加了幾次他的組會(huì),并與其學(xué)生交流后,他發(fā)現(xiàn)Michael研究方向與自己的與其有所差異。

因?yàn)?,Michael Jordan的工作更加偏重?cái)?shù)學(xué)理論,組會(huì)多圍繞數(shù)學(xué)公式推導(dǎo),這與高陽所期待的實(shí)踐導(dǎo)向研究路徑不盡相同。

在探索其他可能性過程中,他意外接觸到了Trevor Darrell教授的研究組。

Trevor專注于計(jì)算機(jī)視覺領(lǐng)域,其魅力在于直觀性——可以清晰看到輸入的圖片,觀察神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,并得到可視化結(jié)果。

圖片

值得一提的是,當(dāng)時(shí)深度學(xué)習(xí)的浪潮已經(jīng)持續(xù)了大約2年的時(shí)間,業(yè)界也普遍認(rèn)可了這項(xiàng)技術(shù)的卓越性。

也是基于這些原因,更加堅(jiān)定了高陽在這一方向上深耕的原因。

在他的博士生涯初期,跟隨Trevor教授做了很多在純視覺領(lǐng)域的研究。

直到博士二年級(jí)下學(xué)期開始,高陽的研究興趣發(fā)生了微妙的轉(zhuǎn)變。

這一轉(zhuǎn)變?cè)从?,?shí)驗(yàn)室內(nèi)部一系列關(guān)于人類智能起源的深度探討。

而令他印象深刻的是CV圈里另一位大咖Jitendra Malik觀點(diǎn):他從進(jìn)化角度提出,人類智能本質(zhì)與靈巧的雙手密不可分。

圖片

正是因?yàn)閾碛辛司?xì)的手部動(dòng)作能力,人類才得以完成更為復(fù)雜的任務(wù),反過來推動(dòng)了大腦的進(jìn)化,使得智力水平得以適應(yīng)更復(fù)雜的活動(dòng)需求。

再到貓狗之間對(duì)于人類指令理解力的差別,說明了狗的群居特性,使得它們溝通協(xié)調(diào)力強(qiáng)于貓。

最終,他們?cè)谥悄鼙举|(zhì)討論中,逐漸達(dá)成共識(shí):機(jī)器視覺的終極發(fā)展方向,應(yīng)該由具身智能體驅(qū)動(dòng)。

自然而然地,高陽開始將研究中心轉(zhuǎn)向了具身智能領(lǐng)域。

他認(rèn)為,具身智能與視覺、強(qiáng)化學(xué)習(xí)有著密切的聯(lián)系,這種聯(lián)系可以類比人類的認(rèn)知過程。

即通過視覺感知環(huán)境,理解周圍狀況,繼而做出相應(yīng)的行為。

基于這種認(rèn)識(shí),高陽開始與Sergey Levine教授展開合作,深入去研究具身智能的形成機(jī)制。

得益于前期在計(jì)算機(jī)視覺領(lǐng)域的積累,在實(shí)際研究中,高陽能夠很好地將CV技術(shù)與RL結(jié)合起來,并交出了碩果累累的成績單。

在機(jī)器人研究領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議CoRL 2024中,團(tuán)隊(duì)更是連中了4篇論文。

圖片

論文地址:https://arxiv.org/abs/2310.02635

圖片

論文地址:https://arxiv.org/abs/2310.08809

圖片

論文地址:https://arxiv.org/abs/2401.11439

圖片

論文地址:https://arxiv.org/abs/2406.10615

回到北美,如今頭部的具身智能創(chuàng)業(yè)公司,除了Figure AI之外,創(chuàng)始人都屬于伯克利系。

比如,Physical Intelligence的聯(lián)創(chuàng)Sergey Levine,便是UC伯克利電氣工程與計(jì)算機(jī)科學(xué)系的副教授。

圖片

圖片

Pi的另一位聯(lián)創(chuàng)Chelsea Finn,也是UC伯克利的博士。

Skild AI的聯(lián)創(chuàng)Deepak Pathak,同樣是在UC伯克利獲得的博士學(xué)位,師從國際計(jì)算機(jī)視覺大師Trevor Darrell教授(曾培養(yǎng)了包括賈揚(yáng)清在內(nèi)的多位視覺領(lǐng)域知名學(xué)者)。

圖片

圖片

隨后,Pathak繼續(xù)在UC伯克利做博士后研究,導(dǎo)師是機(jī)器人學(xué)習(xí)領(lǐng)域的頂尖學(xué)者Pieter Abbeel——擴(kuò)散模型(Sora、SD背后核心技術(shù))的提出者之一。

爆火AI搜索初創(chuàng)Perplexity AI的創(chuàng)始人Aravind Srinivas,以及前OpenAI聯(lián)創(chuàng)John Schulman,皆是他的學(xué)生。

博士研究期間,Pathak開發(fā)了一種向機(jī)器人灌輸「好奇心」方法。具體做法是,當(dāng)系統(tǒng)無法預(yù)測其行動(dòng)結(jié)果時(shí),系統(tǒng)反而會(huì)因未知結(jié)果而獲得獎(jiǎng)勵(lì)。

這種方法驅(qū)使AI去探索更多場景,并收集更多數(shù)據(jù)。

圖片

論文地址:https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf

其實(shí)回看2014到2016年這段時(shí)間,無論機(jī)器狗還是雙足機(jī)器人,在業(yè)內(nèi)的進(jìn)展都比較緩慢。

雖然當(dāng)時(shí)的人形機(jī)器人已經(jīng)可以跑酷、跳樁,但其中使用的技術(shù)棧其實(shí)非常傳統(tǒng),是基于傳統(tǒng)的MPC、WPC這類手工控制器去做的。

也就是說,并不是基于機(jī)器學(xué)習(xí)這條路線。

在2017年左右,Pieter Abbeel和三個(gè)學(xué)生一起創(chuàng)立了Covariant(原名Embodied Intelligence),可以說是體現(xiàn)了具身智能的縮影。

在當(dāng)年,大語言模型并沒有出現(xiàn),因此即使這個(gè)公司早于時(shí)代,也依然像今天的非端到端自動(dòng)駕駛一樣,技術(shù)棧并沒有特別大的進(jìn)步。

而隨后大模型的出現(xiàn),才終于讓具身智能的推理能力、多模態(tài)感知融合、自主學(xué)習(xí)和知識(shí)遷移能力等得到了顯著提升,翻開了全新的篇章。

如今,具身智能技術(shù)已經(jīng)走向了深度融合和迭代優(yōu)化的新階段。擁有技術(shù)領(lǐng)先性和應(yīng)用場景積累的企業(yè),將迎來大展拳腳的機(jī)會(huì)。

而千尋智能,恰恰有著清晰的端到端技術(shù)路線,有頂尖人才、有應(yīng)用場景。

具身智能這盤大棋,接下來就看千尋智能如何交卷了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-11-01 09:45:08

2024-11-07 14:35:45

2024-09-20 16:20:00

2024-12-02 07:10:00

DeeR-VLALLM多模態(tài)模型

2024-12-26 15:00:09

2024-06-04 09:25:51

2024-11-14 18:40:57

2024-08-02 10:00:00

2024-11-22 14:10:00

AI智能體

2024-08-29 14:05:00

數(shù)據(jù)模型

2025-03-07 10:24:43

2024-12-10 07:00:00

大模型密度定律人工智能

2024-10-12 14:10:00

智能應(yīng)用

2024-04-28 00:00:00

GPT-5GPT-6GPT-4

2024-12-19 14:44:22

2025-03-20 10:19:52

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)