具身智能占領中國硅谷?1.23萬AI學者集結海淀,填補全球百億人形機器人空缺
這幾天的中關村,已經(jīng)被機器人占領了!
在2024中關村論壇年會的會場前臺,這兩位美女機器人的出現(xiàn),把央視主持人都驚到了。
圖片
逼真的動作,靈活的手指,連口型都是搭配的,兩位美女機器人給到來的游客們耐心介紹著AI主題日的相關信息,在人群中分外吸睛。
往里走,還能喝到服務機器人為我們貼心制作的精致咖啡。
往這兒看,這個家伙在給我們表演摘果子。
展會之外的廣場上,一只機器狗在圍觀群眾的眾目睽睽之下現(xiàn)場炫技。作揖、雙腿站立、打滾撒嬌,這套動作一氣呵成,可謂是相當熟練。
給你比個小心心
四腳朝天撒嬌
當然,開幕式上更是少不了它們的同臺演出,引得在場觀眾一陣歡呼。
機器狗dancer們,隨著音樂節(jié)奏靈活扭動。
給觀眾們作個揖,動作整齊劃一。
全體都有:臥倒——四腳朝天——賣萌!
機器人大爆發(fā),大佬們爐邊對談
要說2024年最爆火的科技現(xiàn)象,人形機器人敢說第二,沒人敢說第一。
Sam Altman力推的人形機器人Figure 01,馬斯克的疊襯衫擎天柱,波士頓動力劃時代登場的電動機器人Atlas紛紛登場,視頻一出即成全網(wǎng)爆款。
國內這邊,優(yōu)必選去年年底上市,已成人形機器人第一股;工業(yè)版人形機器人Walker S,已經(jīng)進廠打工了;宇樹H1,直接火到了國外,讓OpenAI聯(lián)創(chuàng)Karpathy大呼想要。
諸位「明星」機器人的登場,大有寒武紀大爆發(fā)之勢。
最近,醫(yī)學博士、人類免疫學家Derya Unutmaz表示,當前AI技術產(chǎn)生最大影響三個領域,是生物技術、機器人技術和教育
外國網(wǎng)友們也紛紛感嘆:我們正處于AI和機器人奇跡的風口浪尖,然而大多數(shù)人甚至還沒注意到。
在中國,已經(jīng)有數(shù)以千計的人形生物誕生!
如今業(yè)內已公認,造完大模型后,AI的下一個浪潮就是具身智能。
2023 ITF World半導體大會上,老黃就表達了這個觀點
在特斯拉2023年年度股東大會上,馬斯克也表示,人形機器人將是今后特斯拉主要的長期價值來源。
大模型與機器人的融合,直接讓后者長出了「腦子」。這種超能進化,帶來的是能理解、推理、與物理世界互動的智能系統(tǒng),給我們以無限的想象空間。
國內的大咖們,對此是如何看待的?
就在幾天前的2024中關村論壇年會「人工智能主題日」未來人工智能先鋒論壇上,來自星動紀元、傅里葉智能、智元機器人、銀河通用機器人、宇樹科技、小米等業(yè)界大佬開啟了具身智能的爐邊談話,分享了眾多令人受益匪淺的精彩觀點。
「具身智能十問」
瞅一瞅近期圈內的技術發(fā)展,只能用「震撼」二字形容了。如此之震撼,以至于不少大佬已經(jīng)公認,在未來的5到20年內,AGI一定會到來。
不過,在數(shù)字世界里,我們有可能實現(xiàn)AGI嗎?或者說,AGI必須通過具身智能才能實現(xiàn)嗎?
「人工智能主題日」未來人工智能先鋒論壇組織了具身智能圓桌對話,業(yè)界的諸位大咖,分享了自己對此的觀點。
AGI必須通過具身智能來實現(xiàn)嗎?
回答這個問題的第一位嘉賓,是ACM會士李航老師。
李航老師介紹說,我們現(xiàn)在看到GPT大模型,其中一個重要的特點就是通用性。盡管以LeCun為代表的專家,對這條技術路線并不看好,但在李航老師看來,通用的人工智能一定會實現(xiàn)。
因為沿著應用層發(fā)展,所有任務和評測標準都很清楚,在這種層面下,就一定能開發(fā)出這樣的AI。然而,并不是說所有這些和人的智能相關的特點或能力,我們就一定能實現(xiàn)。
人智能的三個特點——情感、創(chuàng)造力和自由意志,AGI不一定能去覆蓋。AGI的定義標準,往往是從功能的角度去定義的。
人最本質的智能,是一個生命現(xiàn)象,這個未必在未來能靠AI技術去實現(xiàn)。
而具身智能,更跟機器人相關,包括硬件、軟件的結合。屆時,它們不僅會完成數(shù)字空間里的任務,還會完成物理世界里的任務,相信在未來,它們將達到或超過人的能力。
李航老師認為,具身智能的兩大重要特點,一個是有自主性;二是依靠與環(huán)境交互積累經(jīng)驗,得到不同的訓練數(shù)據(jù)構建的模型,在機器人身上涌現(xiàn)出不同的智能;三是具備多模態(tài)能力,擁有五感的具身智能可以完成更加智能的任務。
每個機器人智能體的數(shù)據(jù)實際上是不同的,基于不同的數(shù)據(jù),就能構建不同的模型,產(chǎn)生不同的智能。
如果要進入物理世界,最重要的就是視覺聽覺嗅覺。未來的具身智能,應該是結合多模態(tài)技術,從而完成智能性的任務。
在銀河通用機器人創(chuàng)始人、智源具身智能研究中心負責人王鶴老師看來,具身智能與非具身智能非?;パa,他們的全集才是AGI。
中國有一句老話,讀萬卷書,行萬里路。如今的互聯(lián)網(wǎng)上的信息對具身智能來說,就是讀萬卷書,讓它了解了人類的思維和對圖片的感知,但它無法代替行萬里路。
而人類的身體力行、在真實世界里的勞作,都不可能通過讀書、看圖、看視頻來替代。即使看10個小時視頻,也無法學會怎么騎自行車。
而具身智能,就賦予了智能體與物理世界交互和在交互中學習的能力。這種能力,是無法通過看圖/看文這樣的數(shù)字世界和典型的數(shù)據(jù)模態(tài)及經(jīng)驗而獲得的。
非得是人形嗎?
還有一個有趣的問題就是:具身智能必須是人形嗎,必須是雙足嗎?靠機器狗,可不可以實現(xiàn)具身智能呢?
對此,傅利葉智能創(chuàng)始人兼CEO顧捷表示,具身智能的最終形態(tài),一定是人形的。對此,整個硅谷都達到了共識。英偉達GTC大會上,出現(xiàn)的也全是人形形態(tài)的機器人。
不過,高矮胖瘦、用什么驅動這樣的細節(jié),目前還很難統(tǒng)一,但大家都在朝人的形態(tài)開始做收斂,朝這個方向努力。
宇樹科技創(chuàng)始人兼CEO王興興也表示,如今人形機器人是大家公認的機器人形態(tài)。
雖然他也認為,對于具身智能或AGI,機器人形態(tài)不是特別重要,但大家都比較喜歡這種心態(tài),受到整個社會的公認。
做數(shù)據(jù)采集的時候,人形機器人就可以去人生活的各個地方,做跟人一樣的動作,比如開車、散步、跟人或機器人交互等等,這些都更加接近跟真實人類的交流。
所以,當下具身智能人形機器人,可能是相對最合適的路徑,它雖不是唯一路徑,但確實是效率比較高的方法。
先有雞,還是先有蛋?
智源研究院院長王仲遠又提出一個有趣的問題。
我們都知道,具身智能是系統(tǒng)的工程,既涉及硬件也涉及軟件,但硬件和軟件的發(fā)展速度是不匹配的。
如今,大模型雖能思考,但指揮不動本體。所以,我們是該先讓硬件達到一定水平,迎來具身智能蓬勃發(fā)展,還是該脫離本體,獨立分開發(fā)展具身智能呢?
顧捷表示,這個問題,可以參考是先有APP還是先有智能手機。
我們需要先讓智能手機打電話,有了開放平臺和接口,先收集數(shù)據(jù),然后才能做AI。
具身智能的本體還不夠結實時,能干的活很少,在此基礎上開發(fā)具身智能是難度較大的。當然,如果本體開發(fā)得很好,大腦卻沒有跟上,應用場景也會受到制約。
正確的做法是,先從本體迭代切入點,再加入基本應用,達到一定程度后,再將本體做比較大的收斂,然后就會出現(xiàn)應用的蓬勃發(fā)展。智能手機發(fā)展到現(xiàn)在的形態(tài),也是如此。
同樣,王興興也認為,有實體的具身智能是實現(xiàn)AGI的唯一途徑。
如果脫離實體,目前的大語言模型與物理世界的理解是遠遠不夠的,這也就是為什么,如今很多頂尖AI學者提出要做世界模型。
特斯拉的無人駕駛,也是采集的真實數(shù)據(jù)訓練,而非虛擬數(shù)據(jù)。因為虛擬數(shù)據(jù)中,實時與物理世界交互的數(shù)據(jù)太少。
他做出這樣的預言——
我覺得本體反而是實現(xiàn)AGI非常重要的渠道,個人覺得,AGI很可能誕生在機器人公司。
可以先從進廠打工開始
王仲遠還提出,自己通過調研發(fā)現(xiàn),不少具身智能的專家,是從自動駕駛領域轉過來的。
從現(xiàn)有的功能模塊來看,二者確實非常相似,包含環(huán)境感知、規(guī)劃決策以及最終控制這幾個模塊。
特斯拉通過電動車收集了海量數(shù)據(jù)之后,開始了訓練端到端的自動駕駛大模型,甚至可能實現(xiàn)真正意義上的L4,甚至更高層級的無人駕駛。
這條路徑有可能實現(xiàn)嗎?
星動紀元創(chuàng)始人陳建宇表示,如今的自動駕駛特斯拉,應該是最好的一個標桿。
自己是從2015年開始做自動駕駛的,上一波熱潮來臨時,其實有兩個問題非常嚴重。
第一,就是大家一窩蜂上來就要做L4,做Robotaxi,都以為兩三年內能搞定,但實際上要困難得多。
第二是,當時AI還并未發(fā)展到如今這個階段,ChatGPT之類的大模型還沒誕生,做決策、執(zhí)行和控制時,完全沒有AI的辦法。
兩者疊加,導致這段時間自動駕駛的發(fā)展曲折。
但特斯拉就成功避開了這兩個問題,做到了L2、L3、L4的漸進式發(fā)展。
因此,具身智能也不需要一上來就做走進千家萬戶的家用機器人,可以先進工廠,從容易的場景開始。
而且,我們要堅定地擁抱AI。一些短期工程做Demo的方法,未來可能很難長遠。
數(shù)據(jù)怎么辦?
不過,具身智能和無人駕駛不太一樣的地方在于,無人駕駛面臨的基本是特定的場景,但具身機器人要解決的場景極多,包括家庭場景、流水線場景等。
如此多的場景,就導致數(shù)據(jù)采集很不容易,因此現(xiàn)在許多模型都在基于仿真數(shù)據(jù)。
仿真數(shù)據(jù)是否可以代替真實數(shù)據(jù)呢?
王鶴表示,當前具身智能最大的瓶頸,就是缺乏數(shù)據(jù)。特斯拉FSD,就是利用了百萬車主上億小時的駕駛數(shù)據(jù),進行模仿學習的。
然而很可惜,人形機器人并不存在這樣的數(shù)據(jù)。并沒有上百萬群眾會自發(fā)地買一個機器人,用遙控器指揮它做事。這種數(shù)據(jù)集在地球上還不存在。
所以要實現(xiàn)具身智能數(shù)據(jù)0到1的突破,最實際的方法就是通過物理仿真,把現(xiàn)實世界的物理規(guī)律通過圖形學的引擎,真實仿真摩擦力、接觸力、光線追蹤渲染等,制造一個模擬真實世界訓練的數(shù)字訓練世界,這也是英偉達系列工作背后的初衷。
當未來,機器人在我們的世界充分存在的時候,也就有了在真實世界交互的數(shù)據(jù)閉環(huán),成為具身智能的源頭活水。
陳建宇表示贊同,并且表示,仿真的優(yōu)勢非???,靠英偉達的GPU,可能一天就能采集到相當于真實世界上百萬年的數(shù)據(jù)。
仿真的一個劣勢是,很難準確搭建很復雜的場景,這時只能靠真實世界采集,但這樣速度就會受限。
所以,在前期,我們只能從仿真里拿出稍微簡單一點的場景,讓機器人快速學習。當它們能做復雜場景時,我們就需要在真實世界里采集數(shù)據(jù)了。
海淀重磅押注具身智能
作為AI發(fā)展的下一個浪潮,具身智能深度融合了LLM、機器人等多學科技術,正加速推動智能經(jīng)濟到來。
最關鍵的是,具身智能甚至關乎著,實現(xiàn)AGI的終極目標。
為了抓住這一機遇,海淀區(qū)在27日發(fā)布了《打造全國具身智能創(chuàng)新高地三年行動方案》(以下簡稱《行動方案》)。
這是全國首個最全面、最細化,且僅針對「具身智能」單一領域,而發(fā)布的《行動方案》。
由此可見,海淀全力押注具身智能的重要性,不言而喻。
《行動方案》明確指出,到2026年,將初步建成全國具身智能原始創(chuàng)新策源地、應用示范新高地和產(chǎn)業(yè)加速集聚地。
也就是說,力爭在2年多的時間里,海淀要成為我國參與全球具身智能競爭的核心力量!
《行動方案》將重點聚焦LLM和機器人整機,具體從以下六大方面展開。
一是,源頭創(chuàng)新突破行動。
具身智能的最終目標是,通過LLM的賦能,讓AI機器人可以在物理世界中,形成交互、自主學習的能力。
而構建一個完整的機器人,需要具備以下三大要素:本體、大腦,以及小腦。
其中「本體」就是機器人身體的物理呈現(xiàn),而注入LLM的「大腦」能讓其聽懂人類語言、交流,「小腦」則負責控制身體運動。
AI機器人的設計從人腦運作方式得到啟發(fā)
因此,AI具身智能的發(fā)展,先要從這些技術源頭上,取得創(chuàng)新突破。
關于「大腦」的訓練,多模態(tài)LLM是讓機器人聽懂、看清、并理解、分解執(zhí)行任務的關鍵。
當前,國內諸如文心4.0、商量5.0、Step-1V等多模態(tài)LLM已取得了重大突破,未來還需進一步追趕世界技術前沿。
另外,面向工業(yè)、金融等垂直領域,更需要開發(fā)專用的LLM系統(tǒng)。
在「大腦」將語義信息轉化為動作之后,就需要「小腦」控制身體,去完成高難度、高精度的任務。
這主要取決于控制算法的進化,其中便涉及到步態(tài)平衡、動力學模型、控制框架等等,與此同時,還要實現(xiàn)「大小腦」協(xié)同。
除此以外,推進機器人的「腦身系統(tǒng)協(xié)同」,也至關重要。
簡單來說,「腦身協(xié)同」就需要提升機器人在物理世界的模擬能力,以及從數(shù)字世界遷移到物理世界的能力。
舉個栗子,機器人看到桌子上的蘋果,并將其遞到你的手中。
這個過程,就需要大腦識別桌子上的物體,然后將信息傳遞給小腦,以控制身體在物理世界中的移動。
所以,未來企業(yè)還需要加強在數(shù)字世界模擬能力、數(shù)字到物理世界遷移技術的研發(fā),并優(yōu)化其在不同領域中的應用。
二是,本體產(chǎn)品領跑行動。
接下來,就是機器人本體,即「身體」的綜合性能的全面提升,還有很長的一段路要走。
市面上,人形機器人已然占據(jù)了一大份額。
正如前面所述,當機器人走向落地時,人形不一定是最好的形態(tài)。
比如,四足機器人的典型代表——機器狗、還有工業(yè)機械臂、餐飲酒店中輪式送餐機器人等「多元形態(tài)的機器人」,更加適合自身的場景應用。
也就是說,需要根據(jù)實際的應用場景,去研發(fā)多元的機器人「本體」。
而若是提升「本體」整機性能,還需要從機器人的每個部件,去攻關。
包括伺服電機、傳感器、關節(jié)、機器視覺、靈巧手等一系列關鍵模塊化組件。
最重要的是,芯片、操作系統(tǒng)等底層技術,也需要逐一破解,以打造國際先進的多形態(tài)機器人。
三是,創(chuàng)新平臺賦能行動。
具身智能的發(fā)展還需要多方位的平臺提供技術支撐,以及產(chǎn)業(yè)孵化地。
當前,可以看到許多科研機構,包括企業(yè)都在做機器人開發(fā),卻有時難以將其應用,創(chuàng)造出的成果只能停留在研發(fā)階段。
這就非常需要,一個能夠提供「共性技術」支撐的平臺,降低社會的研發(fā)成本。
不可否認,讓機器人能夠以人類的思維方式,與物理環(huán)境互動,并自主完成任務,還是比較困難的。
而我們所見的各種炫酷的demo,其實很多都是,機器人在特定場景中完成目標,而遇到未見過的場景時,就無能為力了。
之所以出現(xiàn)這一問題,關鍵還是「數(shù)據(jù)樣本不夠大」,它們無法涌現(xiàn)出真正的智能。
一般來說,訓練機器人完成任務的通常做法是,在一個虛擬環(huán)境中,不斷優(yōu)化算法,再將其投入現(xiàn)實世界。
就像ChatGPT等大模型在喂了足夠體量的數(shù)據(jù)之后,才能展現(xiàn)出強大的涌現(xiàn)能力。
機器人同樣如此,沒有足夠的「數(shù)據(jù)樣本」,很難獲得真正的智能。
不排除,機器人已經(jīng)有了一些智能的體現(xiàn),比如踹倒后的機器人能夠自主站起來,并非依靠編程而是訓練所產(chǎn)生的「應激反應」。
但是,在「大腦」智力這方面的涌現(xiàn),還未真正見到。因為,它涉及了很多維度,諸如語言、圖片、視頻等。
另外,數(shù)據(jù)的收集,還與機器人本體也有關聯(lián)。
有的機器人手是三指、四指,甚至五指的都有,因此傳感器數(shù)量多少,也就決定了數(shù)據(jù)維度獲取的不同。
由此,不同數(shù)據(jù)樣本訓出的模型,最后機器人涌現(xiàn)的能力、方式都存在差異。
所以說,機器人真正智能的實現(xiàn),需要有數(shù)據(jù)。而如何去創(chuàng)造數(shù)據(jù),成為一個難題。
對此,海淀打造了一系列平臺,比如「具身智能創(chuàng)新中心」,為企業(yè)提供訓練環(huán)境,以便獲取實時數(shù)據(jù)。
此外,還有端到端的仿真平臺、實測驗證場景等平臺、實測驗證場景等,破解了企業(yè)數(shù)據(jù)獲取難題。
同時,海淀還將打造一系列產(chǎn)業(yè)創(chuàng)新孵化平臺,以加快提升樣機研發(fā)、檢驗測試、中試服務、生產(chǎn)制造等產(chǎn)業(yè)公共服務能力。
四是,應用場景示范行動。
面向科研、工業(yè)、消費、巡檢等場景,讓具身智能走向開放應用。
并且,未來還將打造一批可復制、可推廣的具身智能應用示范工程。
五是,產(chǎn)業(yè)集群建設行動。
現(xiàn)在,海淀在區(qū)域北部溫泉科技園三期,將打造一個機器人小鎮(zhèn),為企業(yè)提供了辦公、以及開放測試環(huán)境。
由此,企業(yè)的聚集,能夠有更多交流,進而形成競爭力的產(chǎn)業(yè)集群。
六是,生態(tài)雨林打造行動。
最后一個行動,將從四個方向開展。
首先是,培育一批具身智能改高端人才,打造具身智能人才社區(qū)。
其次,強化金融賦能效應,加大市級基金對具身智能投資力度。
然后,還要探索制定標準規(guī)范,鼓勵優(yōu)勢企業(yè)參與國際/國家標準、行業(yè)標準制定,提升具身智能科技倫理治理能力。
最后,還要加強開放合作交流,支持建設具身智能開源社區(qū),舉辦具身智能論壇、峰會、大賽等活動,形成開放合作的產(chǎn)業(yè)生態(tài)。
當然,除了親自牽頭之外,海淀區(qū)還通過首次「人工智能主題日」,把從事具身智能領域研究和生產(chǎn)的高校和企業(yè)匯聚到了一起。
在這里,突破性的成果展示,以及前沿性的演講討論,不僅可以激發(fā)一波又一波的討論,讓更多的人了解到具身智能的進展。
而且,還能讓校企們藉此發(fā)現(xiàn)與自己志同道合,或者細分方向正好互補的伙伴,進而展開一輪全新的合作。
海淀AI學者1.23萬,占北京八成
那么,為什么最新的《行動方案》,最先由海淀區(qū)提出并發(fā)布?
這是因為,這里不僅有硬核的科技力量、豐富的AI人才,還有完善的應用場景,專業(yè)的平臺支持,具備了發(fā)展具身智能產(chǎn)業(yè)得天獨厚的優(yōu)勢。
而且,海淀區(qū)是北京國際科技創(chuàng)新中心核心區(qū),更是北京市AI和機器人產(chǎn)業(yè)的創(chuàng)新高地。
就人工智能發(fā)展方面,海淀聚集了14家全國重點實驗室、3家新型研發(fā)機構,21所AI本科高校。
而且,擁有89位AI TOP2000全球頂尖科學家和產(chǎn)業(yè)領軍人才,還有1.23萬AI學者,占北京市八成。
海淀的大模型企業(yè)超過了90家,且數(shù)量持續(xù)增長,其中有36款LLM通過備案,占全市七成,在全國率先形成AI大模型產(chǎn)業(yè)集聚區(qū)。
還有,1300家集聚企業(yè)占全市七成,提供了全產(chǎn)業(yè)鏈部署芯片、框架、大模型、數(shù)據(jù)技術與處理服務。
與此同時,海淀在算力、數(shù)據(jù)、算法等基礎設施方面,完成了全面的布局。
新增3500P算力已部署就位,為LLM場景應用落地提供充足的「燃料」。
而在機器人領域,海淀更是具備了超前沿的科研、產(chǎn)業(yè)優(yōu)勢。
一方面,清北、北航、北理、中科院等一批高校院所和專家人才,已經(jīng)在機器人領域做出的諸多的研究。
另一方面,近200家機器人企業(yè)占全市40%,包括10+家人形機器人本體企業(yè),占全市50%還要多。
下一步,海淀將凝聚各方力量全力保障方案的落地實施,在具身智能共性技術服務平臺建設、重點企業(yè)培育與引進、推進應用場景落地、打造具身智能特色園區(qū)等方面持續(xù)發(fā)力,加快形成具身智能創(chuàng)新發(fā)展的良好格局。
可見,海淀區(qū)在推動具身智能的產(chǎn)業(yè)集群發(fā)展和創(chuàng)新升級,已萬事俱備。東風已至,蓄勢待發(fā)。
智元機器人聯(lián)合創(chuàng)始人、上海人工智能研究院院長宋海濤表示,如今全球80億人口,核心的生產(chǎn)力創(chuàng)造,還是來自于我們的智慧群體。僅僅是完成全球的生產(chǎn)力創(chuàng)造,我們就至少需要100億臺人形機器人。
誠如馬斯克所言,征服浩瀚宇宙,一千億臺人形機器人在等著我們。