自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)開源15T數(shù)據(jù)集:32萬個機(jī)器人訓(xùn)練軌跡

發(fā)布于 2025-4-9 10:26
瀏覽
0收藏

全球AI領(lǐng)導(dǎo)者英偉達(dá)開源了,用于實(shí)體機(jī)器人和自動化駕駛的超大訓(xùn)練數(shù)據(jù)合集——NVIDIA Physical AI Dataset。


這個數(shù)據(jù)集一共15T,涵蓋了超過320,000個機(jī)器人訓(xùn)練軌跡,以及多達(dá)1,000個通用場景描述,還包括一個SimReady集合。


此外,用于支持端到端自動駕駛汽車(AV)開發(fā)的專用數(shù)據(jù)即將推出,這些數(shù)據(jù)將包括來自美國1,000多個城市和歐洲二十多個國家的多樣化交通場景的20秒剪輯,這對于訓(xùn)練自動化駕駛非常珍貴。

英偉達(dá)開源15T數(shù)據(jù)集:32萬個機(jī)器人訓(xùn)練軌跡-AI.x社區(qū)

開源地址:??https://huggingface.co/collections/nvidia/physical-ai-67c643edbb024053dcbcd6d8??


Physical AI Dataset包含NVIDIA用于訓(xùn)練、測試和驗(yàn)證物理AI的真實(shí)世界和合成數(shù)據(jù)的一個子集,這些數(shù)據(jù)用于NVIDIA Cosmos世界模型開發(fā)平臺、NVIDIA DRIVE AV軟件棧、NVIDIA Isaac AI機(jī)器人開發(fā)平臺以及NVIDIA Metropolis智能城市應(yīng)用框架。


能夠幫助開發(fā)者在預(yù)訓(xùn)練階段擴(kuò)展AI性能,因?yàn)楦嗟臄?shù)據(jù)有助于構(gòu)建更健壯的模型;同時(shí),在后訓(xùn)練階段,AI模型通過在額外數(shù)據(jù)上訓(xùn)練來提高其針對特定用例的性能。


收集、策劃和注釋一個涵蓋多樣化場景并準(zhǔn)確表示現(xiàn)實(shí)世界物理和變化的數(shù)據(jù)集是耗時(shí)的,這成為了大多數(shù)開發(fā)者的瓶頸。

英偉達(dá)開源15T數(shù)據(jù)集:32萬個機(jī)器人訓(xùn)練軌跡-AI.x社區(qū)

對于學(xué)術(shù)研究人員和小型企業(yè)來說,運(yùn)行一個車隊(duì)數(shù)月以收集自動駕駛汽車AI的數(shù)據(jù)是不切實(shí)際且成本高昂的,而且由于收集到的大部分鏡頭都是平淡無奇的,通常只有10%的數(shù)據(jù)被用于訓(xùn)練。但這種規(guī)模的數(shù)據(jù)收集對于構(gòu)建安全、準(zhǔn)確、商業(yè)級模型是必不可少。


例如,NVIDIA Isaac GR00T機(jī)器人模型需要數(shù)千小時(shí)的視頻剪輯進(jìn)行后訓(xùn)練,而NVIDIA DRIVE AV端到端AI模型則需要數(shù)萬小時(shí)的駕駛數(shù)據(jù)來開發(fā)。


該數(shù)據(jù)集還包含了數(shù)千小時(shí)的多攝像頭視頻,其多樣性和地理覆蓋范圍是前所未有的,它將特別有利于安全研究領(lǐng)域,通過支持新的工作來識別異常值和評估模型泛化性能。這一努力也對NVIDIA Halos的全棧自動駕駛安全系統(tǒng)做出了貢獻(xiàn)。


除了利用NVIDIA Physical AI Dataset來滿足他們的數(shù)據(jù)需求外,開發(fā)者還可以通過像NVIDIA NeMo Curator這樣的工具進(jìn)一步提升AI開發(fā),這些工具可以高效地處理大量數(shù)據(jù)集以進(jìn)行模型訓(xùn)練和定制。使用NeMo Curator,在NVIDIA Blackwell GPU上僅需兩周時(shí)間就能處理2,000萬小時(shí)的視頻,相比之下,未優(yōu)化的CPU管道則需要3.4年。


目前,已經(jīng)有很多著名機(jī)構(gòu)使用該數(shù)據(jù)集來訓(xùn)練AI產(chǎn)品,在圣地亞哥加州大學(xué)的機(jī)器人實(shí)驗(yàn)室中,包括專注于醫(yī)療應(yīng)用、人形機(jī)器人和家庭輔助技術(shù)的團(tuán)隊(duì),通過該數(shù)據(jù)集的機(jī)器人數(shù)據(jù)可以幫助開發(fā)能夠理解空間上下文的語義AI模型,例如家庭、酒店房間和醫(yī)院。 

英偉達(dá)開源15T數(shù)據(jù)集:32萬個機(jī)器人訓(xùn)練軌跡-AI.x社區(qū)

在自動駕駛汽車領(lǐng)域,圣地亞哥實(shí)驗(yàn)室將該數(shù)據(jù)集應(yīng)用于訓(xùn)練AI模型,以理解各種道路使用者的意圖,并預(yù)測最佳行動方案。還可以使用該數(shù)據(jù)集來支持開發(fā)數(shù)字孿生模型,模擬邊緣案例和惡劣天氣條件。這些模擬可以用于在現(xiàn)實(shí)世界環(huán)境中罕見的情況下訓(xùn)練和測試自動駕駛模型。


在伯克利深度駕駛中心,這是一個領(lǐng)先的自動駕駛系統(tǒng)AI研究中心,該數(shù)據(jù)集可以支持開發(fā)自動駕駛汽車的策略模型和世界基礎(chǔ)模型。


卡內(nèi)基梅隆大學(xué)安全AI實(shí)驗(yàn)室的研究人員計(jì)劃使用該數(shù)據(jù)集,來推進(jìn)他們評估和認(rèn)證自動駕駛汽車安全性的研究工作。該團(tuán)隊(duì)計(jì)劃測試在該數(shù)據(jù)集上訓(xùn)練的物理AI基礎(chǔ)模型在模擬環(huán)境中罕見條件下的表現(xiàn),并將其性能與在現(xiàn)有數(shù)據(jù)集上訓(xùn)練的自動駕駛汽車模型進(jìn)行比較。


英偉達(dá)表示,未來將繼續(xù)擴(kuò)展Physical AI Dataset,將其建設(shè)成世界最大、統(tǒng)一的開源數(shù)據(jù)集,可用于AI模型、醫(yī)療、自動化駕駛等不同領(lǐng)域,加速AI、實(shí)體機(jī)器人的訓(xùn)練效率。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/jbevnOzho-Se5zMUnKwHkA??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦