李飛飛揭秘創(chuàng)業(yè)方向“空間智能”:視覺化為洞察,看見成為理解,理解導(dǎo)致行動(dòng)
斯坦福李飛飛創(chuàng)業(yè)后,首次揭秘新概念“空間智能”。
這不僅是她的創(chuàng)業(yè)方向,也是指引她的“北極星”,被她認(rèn)為是“解決人工智能難題的關(guān)鍵拼圖”。
視覺化為洞察;看見成為理解;理解導(dǎo)致行動(dòng)。
李飛飛最新15分鐘TED演講完整公開,從數(shù)億年前生命進(jìn)化的起源開始,到人類如何不滿足于自然賦予而發(fā)展人工智能,到下一步如何構(gòu)建空間智能。
而9年前,正是在同一個(gè)舞臺(tái)上,李飛飛向世界介紹了剛誕生不久的ImageNet——這一輪深度學(xué)習(xí)爆發(fā)的起點(diǎn)之一。
她本人也向網(wǎng)友自我安利:如果把兩個(gè)視頻都看了,你就能對(duì)過去10年的計(jì)算機(jī)視覺、空間智能和AI有很好的了解。
下面在不改變其原意的基礎(chǔ)上,我們對(duì)李飛飛演講內(nèi)容做整理。
空間智能,讓AI理解現(xiàn)實(shí)世界
生物視覺的進(jìn)化
讓我向你展示一些東西,確切地說,我將向你展示“空無一物”。
這是5.4億年前的世界。純粹、無盡的黑暗。它之所以黑暗,并不是因?yàn)槿鄙俟饩€。它之所以黑暗,是因?yàn)槿鄙僖曈X。
盡管陽光能夠穿透海洋表面下1000米,來自海底熱泉噴口的光線也能透到到海底,充滿了生命的海底,但這些古老的水域中找不到一只眼睛。
沒有視網(wǎng)膜,沒有角膜,沒有晶狀體。所以所有這些光線,所有這些生命,都未被看見。
曾經(jīng)有一段時(shí)間,“看到”的概念還不存在。它曾經(jīng)從未被實(shí)現(xiàn)過,直到它被實(shí)現(xiàn)了。
出于某種我們才開始理解的原因,能夠感知光線的第一批生物——三葉蟲出現(xiàn)了。它們是最早一批能夠感知我們習(xí)以為常的現(xiàn)實(shí)的生物。它們是最早一批發(fā)現(xiàn)除了自己之外還有其他事物存在的生物。
世界第一次充滿眾多“自我”。
視覺能力被認(rèn)為引發(fā)了寒武紀(jì)大爆發(fā),一個(gè)動(dòng)物物種大量進(jìn)入化石記錄的時(shí)期。最初是被動(dòng)體驗(yàn),簡單讓光線進(jìn)入的行為,很快變得更加主動(dòng),神經(jīng)系統(tǒng)開始進(jìn)化。
視覺變成了洞察力??醋兂闪死斫狻@斫鈱?dǎo)致了行動(dòng)。
所有這些都催生了智能。
計(jì)算機(jī)視覺的崛起
今天,我們不再滿足于自然界賦予的視覺能力。好奇心驅(qū)使我們創(chuàng)造機(jī)器,希望其視覺能力至少和我們一樣,甚至更好。
九年前,在這個(gè)舞臺(tái)上,我提交了一份關(guān)于計(jì)算機(jī)視覺的早期進(jìn)展報(bào)告。
當(dāng)時(shí),三個(gè)強(qiáng)大的力量首次匯聚在一起:
- 一類稱為神經(jīng)網(wǎng)絡(luò)的算法
- 快速、專門的硬件,稱為圖形處理單元,或GPU
- 再加上大數(shù)據(jù),比如我的實(shí)驗(yàn)室花數(shù)年時(shí)間整理的1500萬張圖像,稱為ImageNet。
它們共同迎來了現(xiàn)代人工智能時(shí)代。
從那時(shí)起到現(xiàn)在,我們已經(jīng)走了相當(dāng)遠(yuǎn)。
最開始,僅僅給圖像貼上標(biāo)簽就是一個(gè)重大突破,但算法的速度和準(zhǔn)確性迅速提高。
由我的實(shí)驗(yàn)室主辦的年度ImageNet挑戰(zhàn)賽衡量了這一進(jìn)展。在這張圖表中,可以看到每年模型能力的提高,和其中一些里程碑模型。
我們更進(jìn)一步,創(chuàng)建了能夠分割視覺對(duì)象或預(yù)測(cè)它們之間動(dòng)態(tài)關(guān)系的算法,這些工作是由我的學(xué)生和合作者完成的。
還有更多。
回想上次演講我展示的第一個(gè)計(jì)算機(jī)視覺算法,AI可以用人類的自然語言描述一張照片。那是我和聰明的學(xué)生Andrej Karpathy一起完成的工作。
當(dāng)時(shí),我大膽地說:“Andrej,我們能讓計(jì)算機(jī)做相反的事情嗎?”Andrej笑著說說:“哈哈,那是不可能的?!?/p>
好吧,正如您今天看到的,不可能已經(jīng)變得可能。
這要?dú)w功于一系列擴(kuò)散模型,為當(dāng)今的生成式AI算法提供動(dòng)力,可以將人類的提示詞轉(zhuǎn)化為照片和視頻,創(chuàng)造出全新的事物。
你們中許多人已經(jīng)看到了OpenAI的Sora,最近取得令人印象深刻的成果。不過,早在幾個(gè)月前,在沒有大量GPU的情況下,我的學(xué)生和合作者們就開發(fā)出了一個(gè)名為Walt的AI視頻生成模型。
△Walt發(fā)表于2023年12月
這里還有改進(jìn)的空間,看看那只貓的眼睛,它在波浪下從未被弄濕,好一個(gè)災(zāi)~難~(cat-astrophe)。
(諧音??坼X?。?/span>
空間智能:僅僅看是不夠的
過去是一個(gè)序章,我們將從這些錯(cuò)誤中學(xué)習(xí),并創(chuàng)造一個(gè)我們想象中的未來。在這個(gè)未來,我們希望AI盡其所能為我們做事,或幫助我們做事。
多年來,我一直在說拍照和看到和理解不是一回事。今天,我想再補(bǔ)充一點(diǎn):僅僅看是不夠的。
看,是為了行動(dòng)和學(xué)習(xí)。
當(dāng)我們?cè)?D時(shí)空中采取行動(dòng)時(shí),我們學(xué)習(xí),我們學(xué)會(huì)更好地看,更好地做事。大自然通過“空間智能”創(chuàng)造了一個(gè)看和行動(dòng)的良性循環(huán)。
為了展示空間智能是什么,請(qǐng)看這張照片。如果你有想要做點(diǎn)什么的沖動(dòng),就舉起手。
在一剎那,你的大腦觀察了這個(gè)杯子的幾何形狀,它在3D空間中的位置,它與桌子、貓和所有其他物體的關(guān)系,而且你可以預(yù)測(cè)接下來會(huì)發(fā)生什么。
行動(dòng)的沖動(dòng)是所有具有空間智能的生物固有的,它將感知與行動(dòng)聯(lián)系起來。
如果我們想讓AI超越當(dāng)前能力,我們不僅想要能夠看到和說話的AI,我們想要能夠行動(dòng)的AI。
事實(shí)上,我們正在取得令人興奮的進(jìn)展。
空間智能的最新里程碑是教計(jì)算機(jī)看到、學(xué)習(xí)、行動(dòng),并學(xué)習(xí)看到和行動(dòng)得更好。
而這并不容易。
大自然花費(fèi)了數(shù)百萬年時(shí)間進(jìn)化出空間智能,眼睛捕捉光線,將2D圖像投射到視網(wǎng)膜上,大腦將這些數(shù)據(jù)轉(zhuǎn)換成3D信息。
直到最近,一群來自谷歌的研究人員才開發(fā)出一種算法,將一組照片轉(zhuǎn)換成3D空間。
我的學(xué)生和合作者們更進(jìn)一步,創(chuàng)建了一個(gè)將單個(gè)圖像變成3D形狀的算法。
密歇根大學(xué)的一組研究人員找到了一種方法,將句子轉(zhuǎn)換成3D房間布局。
我在斯坦福大學(xué)的同事和他的學(xué)生們開發(fā)了一種算法,可以從單個(gè)圖像生成無限可能的空間,供觀眾探索。
這些就是未來可能性的的原型。在這個(gè)可能性中,人類可以將我們的整個(gè)世界轉(zhuǎn)化為數(shù)字形式,并模擬其豐富和細(xì)微之處。
大自然在我們每個(gè)人的頭腦中隱性地做了什么,空間智能技術(shù)有望能為我們的集體意識(shí)(collective consciousness)做同樣的事情。
隨著空間智能的加速進(jìn)步,一個(gè)新時(shí)代在這個(gè)良性循環(huán)中正在我們眼前展開。這種循環(huán)正在催化機(jī)器人學(xué)習(xí),這是任何需要理解和與3D世界互動(dòng)的具身智能系統(tǒng)的關(guān)鍵組成部分。
十年前,我的實(shí)驗(yàn)室的ImageNet使數(shù)百萬張高質(zhì)量照片的數(shù)據(jù)庫成為可能,幫助訓(xùn)練計(jì)算機(jī)視覺。
今天,我們正在做類似的事情,訓(xùn)練計(jì)算機(jī)和機(jī)器人如何在3D世界中行動(dòng)。
這次我們不是收集靜態(tài)圖像,而是開發(fā)由3D空間模型驅(qū)動(dòng)的模擬環(huán)境,以便計(jì)算機(jī)可以學(xué)習(xí)行動(dòng)的無限可能性。
你剛剛看到的是教導(dǎo)我們的機(jī)器人的一小部分例子,這是一個(gè)由我的實(shí)驗(yàn)室領(lǐng)導(dǎo)的項(xiàng)目,稱為Behavior。
我們也在機(jī)器人語言智能方面取得了令人興奮的進(jìn)展。
使用基于大型語言模型的輸入,我學(xué)生以及合作者是第一批展示機(jī)械臂可以根據(jù)口頭指令執(zhí)行各種任務(wù)的團(tuán)隊(duì)之一。
比如打開這個(gè)抽屜或拔掉電話線?;蛘咧谱魅髦危褂妹姘?、生菜、西紅柿,甚至為用戶放一張餐巾紙。通常情況下我希望三明治更豐富一些,但這是一個(gè)好的起點(diǎn)。
空間智能的應(yīng)用前景
在古老時(shí)代的原始海洋中,能夠看到和感知環(huán)境的能力引發(fā)了與其他生命形式互動(dòng)的寒武紀(jì)大爆發(fā)。
今天,那道光正在達(dá)到數(shù)字思維。
空間智能不僅允許機(jī)器與彼此互動(dòng),而且還能與人類,以及真實(shí)或虛擬的3D世界互動(dòng)。
隨著這個(gè)未來成形,它將對(duì)許多生命產(chǎn)生深遠(yuǎn)的影響。
讓我們以醫(yī)療保健為例。在過去的十年中,我的實(shí)驗(yàn)室一直在做初步努力,將AI應(yīng)用于解決影響患者結(jié)果和醫(yī)療人員疲勞的挑戰(zhàn)。
與來自斯坦福醫(yī)學(xué)院的合作者和其他合作醫(yī)院一起,我們正在試驗(yàn)一些智能傳感器,可以檢測(cè)到臨床醫(yī)生是否在沒有正確洗手的情況下進(jìn)入病人房間?;蚋櫴中g(shù)器械,或在病人身體面臨風(fēng)險(xiǎn),如跌倒時(shí)提醒護(hù)理團(tuán)隊(duì)。
我們認(rèn)為這些技術(shù)是一種環(huán)境智能,就像額外的眼睛。
但我更希望為我們的患者、臨床醫(yī)生和護(hù)理人員提供更多的互動(dòng)幫助,他們迫切需要額外的一雙手。
想象一下,一個(gè)自主機(jī)器人在護(hù)理人員專注于病人的同時(shí)運(yùn)輸醫(yī)療用品,或者用增強(qiáng)現(xiàn)實(shí)技術(shù),引導(dǎo)外科醫(yī)生進(jìn)行更安全、更快、更少侵入性的操作。
再想象一下,嚴(yán)重癱瘓的病人可以用他們的思想控制機(jī)器人。沒錯(cuò),用腦電波來執(zhí)行你和我習(xí)以為常的日常任務(wù)。
這是最近我的實(shí)驗(yàn)室進(jìn)行的一項(xiàng)試點(diǎn)研究。在這個(gè)視頻中,機(jī)器人手臂僅通過大腦電信號(hào)控制,正在烹飪一頓日本壽喜鍋餐。其中信號(hào)非侵入性地通過EEG帽收集。
五億年前,視覺的出現(xiàn)顛覆了黑暗的世界,引發(fā)了最深刻的進(jìn)化過程:動(dòng)物世界的智能發(fā)展。
過去十年AI的進(jìn)步同樣令人驚嘆。但我相信,直到我們?yōu)橛?jì)算機(jī)和機(jī)器人賦予空間智能,就像大自然對(duì)我們所有人所做的那樣,這場(chǎng)數(shù)字寒武紀(jì)大爆發(fā)的全部潛力才會(huì)完全展現(xiàn)。
這是一個(gè)激動(dòng)人心的時(shí)刻,教我們的數(shù)字伙伴學(xué)會(huì)推理,和與我們稱之為家的這個(gè)美麗的3D空間互動(dòng),同時(shí)也創(chuàng)造更多我們可以探索的新世界。
實(shí)現(xiàn)這一未來并不容易,它要求我們所有人深思熟慮,開發(fā)始終以人為本的技術(shù)。
但如果我們做得好,由空間智能驅(qū)動(dòng)的計(jì)算機(jī)和機(jī)器人不僅會(huì)成為有用的工具,還會(huì)成為值得信賴的伙伴,在尊重個(gè)人尊嚴(yán)的同時(shí),提高我們的生產(chǎn)力、增強(qiáng)我們的人性,提升我們的集體繁榮。
在所有未來中我最興奮的,是一個(gè)AI變得更有感知、有洞察和空間意識(shí),并與我們一道追求創(chuàng)造更好的世界的方法。
(全文完)
視頻回放:https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript