黃仁勛提到的機(jī)器人世界,還需要AI數(shù)據(jù)來“調(diào)教” | CVPR 2024
本周,CVPR 2024正在美國西雅圖拉開序幕。今年CVPR論文投稿數(shù)再次創(chuàng)下新紀(jì)錄,可想而知本屆會議的火熱。
從研究主題來看,具身智能這一大熱點值得關(guān)注。
黃仁勛在COMPUTEX大會開幕前夕的演講中預(yù)言:AI的下一個浪潮將是物理AI。
即那些理解物理定律的AI機(jī)器人,尤其是人形機(jī)器人最有可能適應(yīng)人類所構(gòu)建的世界。
但隨之而來的問題是,這背后需要海量的數(shù)據(jù)支持,尤其是人形機(jī)器人更為明顯。因為人形機(jī)器人面臨的場景多樣,而且這些場景的數(shù)據(jù)采集不容易。
甚至有業(yè)界人士認(rèn)為,當(dāng)前具身智能最大的瓶頸就是缺乏數(shù)據(jù)。
其實不止于機(jī)器人場景,無論是構(gòu)建具有強(qiáng)邏輯的AI模型,還是訓(xùn)練像GPT-4這樣的大語言模型,都離不開大規(guī)模、高質(zhì)量的數(shù)據(jù)集。
例如,GPT-4的模型訓(xùn)練就動用了大約13萬億個tokens的數(shù)據(jù)集,這無疑是一個天文數(shù)字。
在這樣的數(shù)據(jù)需求下,我們自然會思考:
如此龐大的訓(xùn)練數(shù)據(jù)究竟從何而來?
AI行業(yè)數(shù)據(jù)的瓶頸,何解?
基于龐大數(shù)據(jù)和超高算力的“暴力美學(xué)”,是當(dāng)前生成式人工智能的核心打法,也是以O(shè)penAI為代表的一眾企業(yè)的發(fā)展關(guān)鍵。
簡單來說,在同等條件下,喂的數(shù)據(jù)越多,人工智能就越強(qiáng)。
海量、優(yōu)質(zhì)的數(shù)據(jù)爭奪已經(jīng)成為國家和企業(yè)間的無聲戰(zhàn)場。基于數(shù)字技術(shù)形成的通用數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)壟斷,可能將成為這場數(shù)字拓荒當(dāng)中,后發(fā)者無法逾越的天塹。在一定程度上可以說,掌握數(shù)據(jù),就掌握了包括人工智能等眾多未來產(chǎn)業(yè)的主導(dǎo)權(quán)。
但是從真實世界獲取數(shù)據(jù)是一件困難重重的事。
Google在RT-1項目中的經(jīng)歷就是一個例證,在雄厚的資金和科研資源支持下,Google團(tuán)隊歷時17個月,僅收集到13萬條覆蓋700多個任務(wù)的機(jī)器人數(shù)據(jù),這些數(shù)據(jù)的泛化能力遠(yuǎn)未達(dá)到預(yù)期。
由此可見,獲取真實數(shù)據(jù)難度大、耗時長、成本高,同時還存在現(xiàn)實世界數(shù)據(jù)采集在隱私合規(guī)和數(shù)據(jù)安全方面的挑戰(zhàn),難以滿足人工智能大模型訓(xùn)練的需求,當(dāng)前,“百模大戰(zhàn)”如火如荼,頭部企業(yè)競相投身人工智能賽道,但有效數(shù)據(jù)不足,特別是高質(zhì)量數(shù)據(jù)短缺,部分領(lǐng)域封閉式的數(shù)據(jù)生態(tài)給人工智能發(fā)展帶來了掣肘。如何解決“數(shù)據(jù)瓶頸”是未來一段時期我們即將面臨——或已經(jīng)面臨的挑戰(zhàn)。
如何應(yīng)對挑戰(zhàn),目前一家利用計算機(jī)技術(shù)生成數(shù)據(jù)的服務(wù)商非常值得關(guān)注,它是群核科技(酷家樂)創(chuàng)新實驗室Koolab孵化出的Coohom Cloud。
群核科技是國內(nèi)最大的空間設(shè)計軟件平臺,Coohom Cloud利用其龐大的室內(nèi)數(shù)據(jù)資源,結(jié)合高性能的渲染引擎和先進(jìn)的數(shù)據(jù)處理技術(shù),為AI行業(yè)“投喂”逼真且物理真實的2D、3D室內(nèi)數(shù)據(jù)集等產(chǎn)品和服務(wù)。
群核科技平臺每天會生成40萬+3D設(shè)計方案,并沉淀了約3.6億個3D模型數(shù)據(jù),涵蓋家具、電器、生活用品等,在此基礎(chǔ)上,群核科技與包括英國帝國理工大學(xué)、美國南加州大學(xué)浙江大學(xué)等高校聯(lián)手推出了多種數(shù)據(jù)集,為室內(nèi)環(huán)境理解,3D重構(gòu),機(jī)器人交互等研究提供的強(qiáng)大數(shù)據(jù)基礎(chǔ)。
在2D圖片渲染技術(shù)上,Coohom Cloud利用自研渲染引擎,在多樣化的室內(nèi)場景中,通過調(diào)整相機(jī)參數(shù)、行徑軌跡、燈光條件等設(shè)置進(jìn)行圖片數(shù)據(jù)的采集,最終生成RGB、深度、語義、法向、點云等格式的2D數(shù)據(jù)集。這樣的數(shù)據(jù)輸出能力,使得Coohom Cloud每天能夠產(chǎn)出30萬組2D數(shù)據(jù)集,為AI智能體的導(dǎo)航、視覺感知、環(huán)境理解等能力提供了充足的訓(xùn)練素材。
群核科技怎么解?低成本+高質(zhì)量
成本更低是數(shù)據(jù)獲取必須要的優(yōu)點,包括獲取成本和經(jīng)濟(jì)成本,不少企業(yè)都在大量燒錢試圖通過海量數(shù)據(jù)來滿足AI模型訓(xùn)練需求,高額的投入和預(yù)期的不確定性,讓資金的持續(xù)投入陷入困境。
為了提供更高性價比的數(shù)據(jù)服務(wù)方案,Coohom Cloud通過自研數(shù)據(jù)引擎,這是一套專為挖掘數(shù)據(jù)轉(zhuǎn)化而設(shè)計的高效工具,可以高效的將設(shè)計平臺沉淀數(shù)據(jù)庫轉(zhuǎn)化為AI訓(xùn)練的燃料。它不僅能夠定制化輸出針對不同行業(yè)所需要的數(shù)據(jù)集,還能實現(xiàn)室內(nèi)場景的數(shù)字化生成,與NVIDIA Isaac Sim、Unreal Engine、Blender等專業(yè)仿真器和渲染引擎無縫對接。
所有流程全部利用計算機(jī)技術(shù)實現(xiàn),用戶對于數(shù)據(jù)的使用會更加便捷和直觀,無需再耗費(fèi)大量人力物力去采集獲取數(shù)據(jù),從而可以將更多的重心放在模型調(diào)優(yōu)上。
當(dāng)然,數(shù)據(jù)想要投入商用,除了數(shù)據(jù)量、成本優(yōu)勢以外,更需要保證的是高質(zhì)量,這將決定數(shù)據(jù)產(chǎn)業(yè)的未來發(fā)展面有多大。
在這一點上,Coohom Cloud是怎么考慮的呢?
1、物理性質(zhì)增強(qiáng)
在人形機(jī)器人的發(fā)展道路上,環(huán)境交互能力是其智能化的關(guān)鍵。比如自如開關(guān)門、精準(zhǔn)取放物體、甚至疊放衣物等。
以NVIDIA Isaac Sim仿真平臺項目為例,通過創(chuàng)建一個包含物理屬性的逼真3D環(huán)境,讓機(jī)器人能夠在虛擬世界中學(xué)習(xí)如何與物體互動、預(yù)測物理事件,甚至在虛擬世界中進(jìn)行探索和導(dǎo)航。在這樣的虛擬環(huán)境中,機(jī)器人可以進(jìn)行無數(shù)次的交互測試,無需擔(dān)心物理損傷或環(huán)境限制,從而大幅降低了訓(xùn)練成本,同時提高了訓(xùn)練的安全性和可重復(fù)性。
Coohom Cloud正是基于這樣的理念,利用Isaac Sim,Unreal Engine等為代表的的仿真平臺,為機(jī)器人訓(xùn)練提供了定制化的場景和交互模型。這些數(shù)據(jù)不僅在視覺上逼真,更重要的是,它們具備真實的物理屬性——鉸鏈、滑軌等組件可以進(jìn)行旋轉(zhuǎn)和平移,同時模型還擁有真實的密度、摩擦力和彈性等物理狀態(tài)信息。這使得機(jī)器人能夠在物理真實的虛擬環(huán)境下,以極低的成本獲取大量的訓(xùn)練數(shù)據(jù),測試并優(yōu)化其性能。
2、場景環(huán)境增強(qiáng)
在AI的世界里,光線就像是那個決定成敗的細(xì)節(jié),特別是在視覺感知任務(wù)中,光線條件對AI的識別和分析能力起著至關(guān)重要的作用。
拿上文提到的InteriorNet來說,這一大規(guī)模多傳感器真實感室內(nèi)場景數(shù)據(jù)集,通過提供不同光照環(huán)境下的高真實感渲染圖像,展示了環(huán)境增強(qiáng)與多樣化在提升AI性能方面的重要性。服務(wù)類機(jī)器人在面對室內(nèi)外光線變化時,可能會遇到識別障礙,因此,擁有一個涵蓋廣泛光照條件的數(shù)據(jù)集對于訓(xùn)練AI以適應(yīng)各種環(huán)境至關(guān)重要。
Coohom Cloud為虛擬室內(nèi)場景中的每個燈源設(shè)定詳細(xì)參數(shù),實現(xiàn)個性化的燈光環(huán)境控制,讓機(jī)器人在不同的光照環(huán)境下都能“看”得清清楚楚,學(xué)得明明白白。
除了光照條件的多樣性,Coohom Cloud還通過Domain Randomization技術(shù),進(jìn)一步增強(qiáng)了場景環(huán)境的復(fù)雜性,就像是給機(jī)器人的訓(xùn)練場來了一場“大變身”。這項功能能夠根據(jù)不同的訓(xùn)練需求,靈活切換模型的表面材質(zhì),比如將大理石地面替換為木質(zhì)地板,調(diào)整不同反射效果,從而在虛擬環(huán)境中模擬出真實世界的多樣性和復(fù)雜性。讓機(jī)器人的訓(xùn)練更加貼近現(xiàn)實,增強(qiáng)了它的適應(yīng)性和泛化能力。
3、高效標(biāo)注系統(tǒng)
AI領(lǐng)域中的數(shù)據(jù)標(biāo)注是模型性能的關(guān)鍵因素,但傳統(tǒng)的人工標(biāo)注方式勞動密集且耗時。
Coohom Cloud利用先進(jìn)的合成數(shù)據(jù)生成技術(shù),可以根據(jù)研究者需求定制化分割和標(biāo)注數(shù)據(jù)。例如,處理臥室場景的3D模型時,系統(tǒng)能細(xì)分為床、枕頭、毛毯等基礎(chǔ)要素,并生成精準(zhǔn)語義標(biāo)簽,提高數(shù)據(jù)準(zhǔn)確性并滿足需求,從而提升模型認(rèn)知精度。這種方式不僅減少了人工標(biāo)注工作量,也使研究者能更專注于模型創(chuàng)新和優(yōu)化,提高數(shù)據(jù)處理效率,為AI技術(shù)發(fā)展注入新活力。
此外,在隱私、安全法規(guī)等問題上,Coohom Cloud采取的合成數(shù)據(jù)安全策略亦可以避免接觸任何真實用戶數(shù)據(jù),安全審核機(jī)制用于檢查數(shù)據(jù)是否合規(guī),并針對交付使用的數(shù)據(jù)進(jìn)行相關(guān)授權(quán)管理,從而確保數(shù)據(jù)的安全使用。在生態(tài)鏈上,Coohom Cloud也串聯(lián)了優(yōu)秀的設(shè)計者和研究者,針對AI需求,開發(fā)更高效的工具來促進(jìn)設(shè)計生態(tài)向AI前沿融合。
產(chǎn)業(yè)級應(yīng)用時刻,正在到來
可以看出數(shù)據(jù)服務(wù)已經(jīng)從科研場景逐步走向市場化。也有越來越多玩家選擇加入。
不過在人工智能領(lǐng)域,數(shù)據(jù)的質(zhì)量和應(yīng)用的實際效果比盲目堆砌更為關(guān)鍵。那么,Coohom Cloud的海量室內(nèi)數(shù)據(jù)集是如何落地到不同的行業(yè)場景中的呢?
2022年底,群核科技KooLab與英特爾實驗室、西班牙計算機(jī)視覺中心以及慕尼黑工業(yè)大學(xué)共同打磨的SPEAR智能仿真平臺,面向開發(fā)者全面開放,幫助開發(fā)人員加快對不同智能機(jī)器人的訓(xùn)練和驗證。
在整個項目中,Coohom Cloud團(tuán)隊提供超300個場景、超17000個模型,為仿真器的研究提供了數(shù)據(jù)上的神助攻,讓研究者能便捷的在虛擬環(huán)境中測試機(jī)器人性能。
英特爾首席科學(xué)家Mike Roberts贊嘆Coohom Cloud的高質(zhì)量數(shù)據(jù):
不僅加速了具身智能研究,還為仿真器項目的落地提供了全方位的數(shù)據(jù)保障。
再以清潔機(jī)器人產(chǎn)品為例,在室內(nèi)為主的業(yè)務(wù)場景下,積累邊緣場景數(shù)據(jù)需要大量時間,這會直接影響到C端用戶的產(chǎn)品體驗,因此解決機(jī)器人場景邊緣場景問題成了產(chǎn)品提高競爭力的關(guān)鍵。
清潔機(jī)器人的邊緣場景主要包含一些難以收集的寵物糞便,果殼碎屑等障礙物,特殊狹窄的過道、高反光的地板玻璃以及強(qiáng)暗光環(huán)境下的數(shù)據(jù)等,以前為了采集數(shù)據(jù),廠家得組建個數(shù)十人團(tuán)隊,耗時數(shù)月,還得外包給第三方,整個過程繁瑣又燒錢,數(shù)據(jù)質(zhì)量還不一定達(dá)標(biāo)。
Coohom Cloud的方案,讓企業(yè)從模型素材到語義標(biāo)注,再到數(shù)據(jù)結(jié)構(gòu)處理全流程把控,為用戶關(guān)注的邊緣場景,專門打造特殊的室內(nèi)虛擬環(huán)境,并通過調(diào)整光照參數(shù),實現(xiàn)場景多樣性衍生,在45個工作日即生成了數(shù)萬組高質(zhì)量的3D模型數(shù)據(jù)集和百萬組精細(xì)化圖片數(shù)據(jù),數(shù)據(jù)交付即可用,幫助企業(yè)大幅減少數(shù)據(jù)側(cè)投入,提高AI項目進(jìn)度。
當(dāng)AI大模型和人形機(jī)器人成為科技界的熱議話題,數(shù)據(jù)已然成為了這個時代的核心資產(chǎn)。Coohom Cloud正以其強(qiáng)大的數(shù)據(jù)生成技術(shù),為AI的多樣化應(yīng)用需求提供支撐,推動行業(yè)向更廣泛的智能化發(fā)展邁進(jìn)。