元宇宙煉丹要講物理基本法!英偉達副總裁:不用真實世界數(shù)據(jù)訓練
以下觀點可能有點反直覺:
為了讓AI更好地應對真實世界應用場景,訓練數(shù)據(jù)集最好別用真實世界數(shù)據(jù)。
是的,合成數(shù)據(jù)才是解鎖AI真正潛力的關鍵所在。
顧名思義,合成數(shù)據(jù)不是從真實世界搜集所得,而是由人工生成的。
但合成數(shù)據(jù)的使用素來伴隨爭議,業(yè)界一直對其能否精確對應現(xiàn)實世界、能否讓受訓AI應對真實狀況存有疑慮。
為此,負責模擬技術與Omniverse引擎建造的英偉達副總裁Rev Lebaredian在專訪中給出了解答。
物理模擬
2021年11月,老黃在GTC大會上推出了Omniverse Replicator,一個強大的合成數(shù)據(jù)生成引擎,可以產(chǎn)生物理模擬的合成數(shù)據(jù),并用于訓練神經(jīng)網(wǎng)絡。
說到「模擬」,我們最常接觸的其實就是游戲了,而在這其中加入一些現(xiàn)實中的物理學定律可以讓體驗更加真實。
比如,當你用炸藥包去爆破一堵墻時,隨著一聲巨響,這堵墻也跟著轟然倒塌。但如果這堵墻紋絲不動,就會不禁讓人懷疑,是不是又在偷工減料了。
當然了,在大多數(shù)情況下,游戲并不會去試圖做到真正100%的還原。畢竟,模擬真實的世界太消耗算力了。
另外,游戲終究是幻想世界的模擬,目的就是為了好玩,所以遵循現(xiàn)實世界的物理準確性不一定是一件好事。
雖然此前有不少研究探討過在游戲中訓練AI,不過效果肯定還是大打折扣的。
而Omniverse的目標就是還原一個完全遵照現(xiàn)實物理學定律的模擬世界。
這里說的模擬,是用剛體物理學、軟體物理學、流體動力學以及其他相關的東西模擬原子如何相互作用。
例如,光是如何與物體的表面相互作用,最終呈現(xiàn)出我們平時所看到的外觀的。
而當我們能足夠近似地模擬真實世界的時候,也就獲得了相應的「超能力」。
預測未來
比如說,把我們所在的這個房間,1:1在虛擬世界中復刻出來,那么我就可以用上帝視角選擇任何想去的地方,然后「瞬移」過去。
再比如,通過在火星上安裝傳感器攝取真實世界的信息,并在虛擬世界中重建之后,那么實際上我就可以在任何時間體驗生活在火星上的感受。
而這,還不是最厲害的。
在足夠精準的模擬下,只需設置一定的初始條件,就能具備預測未來的能力。
還是用這個房間舉例,我正舉著我的手機。此時,就可以模擬我放手的那一刻會發(fā)生什么,而不需要我真的松手。
顯然,手機會隨著重力掉落。
在模擬世界中,我就可以預測這部手機會以怎樣的姿態(tài)掉下,落地之后屏幕會不會碎,等等。
也就是說,你可以無限次地測試在不同決策和條件下產(chǎn)生的結果,甚至探索所有可能出現(xiàn)的「平行世界」。
如果能據(jù)此做出相應的優(yōu)化,也就能找到最好的未來。
還在用真實數(shù)據(jù)訓練AI?
在這個AI業(yè)勃興的新時代,一個研究生拿臺筆記本電腦就能寫出先進軟件的場景不可能出現(xiàn)了。
可以說,任何先進算法的開發(fā),都需要在海量數(shù)據(jù)的巨型系統(tǒng)之下訓練。
所以,當下也有著「數(shù)據(jù)是新時代石油」的說法。
如此看來,方便搜集數(shù)據(jù)的大型科技企業(yè)似乎更占優(yōu)勢。
不過實情是,現(xiàn)在企業(yè)搜集的大數(shù)據(jù),對未來將創(chuàng)造的尖端AI并沒有真正用處。
在2017年國際計算機圖形學大會(SIGGRAPH 2017)上,我就注意到了這一點。
當時我們開發(fā)了可以玩多米諾骨牌的機器人,還開發(fā)了好幾個用來訓練機器人的AI模型。其中最基礎的一個是能偵測攤在牌桌上的多米諾牌的計算機視覺模型,能夠分辨骨牌的指向與牌面花色、點數(shù)。
用谷歌總能找到足夠的訓練數(shù)據(jù)吧?
確實,用谷歌圖像搜索是可以找到一大堆多米諾骨牌圖像,但你會發(fā)現(xiàn):
- 這些圖像都沒標注,所以要費大量人工去逐個標注每張圖中的骨牌。
- 就算標注完了,你又會發(fā)現(xiàn)這些數(shù)據(jù)缺乏必要的多樣性。
應用于真實場景的圖形識別算法若要足夠穩(wěn)健,就必須在不同的光照條件、攝像頭/傳感器狀態(tài)下都能成功運行。而識別多米諾骨牌的算法還要對所有材質的骨牌都能成功區(qū)分。
所以說,就算如此簡單的訓練要求,必要的足夠數(shù)據(jù)都不存在。
真要在現(xiàn)實中搜集好必要數(shù)據(jù),那就先得買幾百副不同的多米諾牌、在不同打光下用不同的攝像頭去拍。
因此在2017年,我們直接用一個游戲引擎編碼出隨機的多米諾牌生成器,所有訓練數(shù)據(jù)都用它來生成,一晚上就訓練出能穩(wěn)健工作的圖像分辨模型了。
該模型在大會現(xiàn)場處理用不同攝像頭拍攝圖像后的工作狀況也很滿意。
這只是個簡單例子,對于自動駕駛汽車或全自動機器等遠為更復雜的場景,所需訓練數(shù)據(jù)的體量、準確度、多樣性,全從真實世界搜集是不可能滿足的。
除非生成物理上足夠精確的AI訓練數(shù)據(jù),否則沒有繼續(xù)進步的空間。
能否覆蓋訓練所需的危險狀況?
在Omniverse里,日夜可以隨時倒換,并且可以模擬包括冰雪環(huán)境、急速過彎等情景。
行人與動物也可以安置在真實世界中絕不會安排的危險場景內(nèi)。
沒人會愿意真正將人或動物置于高危中,但自動駕駛汽車生產(chǎn)者肯定需要了解產(chǎn)品在各種危險邊緣環(huán)境里將如何表現(xiàn)。
所以在虛擬世界中訓練AI,各得其便。
合成數(shù)據(jù)是最好的訓練策略?
當下大部分AI還是通過「監(jiān)督學習」方式創(chuàng)造的。例如讓神經(jīng)網(wǎng)絡AI分別貓狗,先得用標注好的圖片教AI何為貓何為狗,然后才能應用在未標注的新圖片上。
而用于訓練AI的合成數(shù)據(jù),由于內(nèi)置了超級精確的數(shù)據(jù)標注,是可以作為「基準真相數(shù)據(jù)」使用的。
在自動駕駛汽車場景中,用戶需要讓智能汽車通過真實世界的傳感器了解到路面各種車輛和行人相對于自身的3D位置。但其實傳感器給AI的信息是除了像素啥都沒有的2D圖像。
如果要訓練AI推斷出物體3D信息,首先得在2D圖像的物體周圍畫框,告知AI「這是基于某傳感器的某鏡頭得到的某物相對距離」。
不過若在Omniverse合成數(shù)據(jù)的話,就可以省略此步驟直接得到有完全物理精度的物體3D位置信息了,如此可以避免人工引入數(shù)據(jù)產(chǎn)生的錯誤標注。用來訓練神經(jīng)網(wǎng)絡也會得到更智能和更精確的效果
會不會出現(xiàn)過擬合的問題?
合成數(shù)據(jù)其實是解決過擬合難題的有效途徑之一,因為生成多樣性數(shù)據(jù)集遠為更方便。
如果要訓練一個識別面部表情的神經(jīng)網(wǎng)絡AI,但訓練數(shù)據(jù)集全來自白人男性,那這個AI就在白人男性數(shù)據(jù)上過擬合了,識別多種族裔面部表情時會失敗。
合成數(shù)據(jù)不會惡化這種狀況,只會更容易地在數(shù)據(jù)中創(chuàng)造多樣性。
如果要生成人像時有個能改變?nèi)四槄?shù)的合成數(shù)據(jù)生成器,那么膚色、瞳色、發(fā)型等各種信息就能有豐富的多元區(qū)別,用來訓練AI就避免了上述過擬合狀況。
一個沒有偏見的烏托邦?
AI誕生的環(huán)境就是合成的。它們在電腦中出世,然后只靠人類輸入的任何數(shù)據(jù)受訓。所以建構訓練AI的完美虛擬世界是可行的。
在如此世界中完成訓練的AI,會比靠真實數(shù)據(jù)訓練的AI更智能,在真實世界中的運行狀態(tài)也會更好
不過,合成數(shù)據(jù)的難點在于生成優(yōu)質數(shù)據(jù)不容易。需要有個如Omniverse一般能物理上精確對應真實世界的模擬器。
如果合成數(shù)據(jù)生成器的生成圖像質量有如卡通畫,那顯然難以勝任。
沒人愿意把用卡通畫訓練出的AI搭載在服務于真實醫(yī)院的機器人上,這種機器人照顧起病弱老幼的結果可太嚇人了。
模擬器因此也需要盡可能地極度物理精確,但做到這點真的很不容易。