AI的未來:Bill Dally與Yann LeCun談?dòng)?jì)算驅(qū)動(dòng)與世界模型的突破
- ?題目:Frontiers of AI and Computing: A Conversation With Yann LeCun and Bill Dally
- 談話人:
Bill Dally, Chief Scientist and SVP of Research, NVIDIA
Yann LeCun, Chief AI Scientist at Meta, Professor at New York University
- 時(shí)間:March 2025 (GTC 2025)
核心觀點(diǎn)
1. AI發(fā)展方向
Bill Dally
- AI在過去十年取得顯著進(jìn)展,尤其得益于計(jì)算能力的提升,如GPU性能從Kepler到Blackwell增長5000至10000倍。
- AI未來需關(guān)注訓(xùn)練與推理的權(quán)衡,強(qiáng)大模型需更多訓(xùn)練資源,較弱模型可通過多次推理增強(qiáng)能力。
Yann LeCun
- LLM已是上一代技術(shù),當(dāng)前僅在產(chǎn)業(yè)界外圍調(diào)整,缺乏突破性潛力。
- AI應(yīng)聚焦四大方向:理解物理世界、實(shí)現(xiàn)持久記憶、提升推理能力、增強(qiáng)規(guī)劃能力,這些是未來五年的研究重點(diǎn)。
- AGI短期實(shí)現(xiàn)(幾年內(nèi))是胡說,真正的人類水平智能可能需十年,需新范式而非僅擴(kuò)展LLM。
2. 世界模型
Yann LeCun
- 世界模型是人類理解物理世界的核心,嬰兒在數(shù)月內(nèi)通過觀察形成,AI需類似能力。
- LLM基于離散令牌預(yù)測,無法有效處理高維連續(xù)數(shù)據(jù)(如視頻),像素級預(yù)測浪費(fèi)資源且失敗。
- 聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)是解決方案,通過編碼器生成抽象表示,在潛在空間預(yù)測,避免細(xì)節(jié)不可預(yù)測性。
- JEPA能從視頻中學(xué)習(xí)物理可能性,如判斷物體行為是否符合現(xiàn)實(shí),已在小規(guī)模驗(yàn)證(如V-JEPA)。
3. 推理與規(guī)劃
Yann LeCun
- 當(dāng)前LLM的推理方式(生成大量令牌序列并篩選)效率低下,類似隨機(jī)寫程序后測試,無望實(shí)現(xiàn)復(fù)雜任務(wù)。
- 人類和動(dòng)物在抽象心理空間推理和規(guī)劃,不依賴語言或令牌,AI需模仿此模式。
- JEPA可實(shí)現(xiàn)給定狀態(tài)和行動(dòng)預(yù)測下一狀態(tài),支持零樣本任務(wù)規(guī)劃,三到五年內(nèi)有望小規(guī)模成功。
- 推理分System 1(自動(dòng)反應(yīng))和System 2(深思規(guī)劃),當(dāng)前AI擅長System 1,需新架構(gòu)突破System 2。
4. AI應(yīng)用與社會(huì)影響
Bill Dally
- AI已改善人類生活,如醫(yī)療和駕駛領(lǐng)域,需關(guān)注部署時(shí)的可靠性與準(zhǔn)確性。
- AI有負(fù)面潛力(如深度偽造),需平衡利弊,尤其在高風(fēng)險(xiǎn)應(yīng)用中需近乎完美。
Yann LeCun
- AI在醫(yī)學(xué)(如影像篩查、MRI加速)和自動(dòng)駕駛(減少40%碰撞)有顯著應(yīng)用,短期影響巨大。
- 部署AI系統(tǒng)比預(yù)期難,尤其高可靠性場景(如自動(dòng)駕駛),需整合現(xiàn)有系統(tǒng)且成本高。
- AI負(fù)面應(yīng)用(如深度偽造)未顯著增加惡意內(nèi)容,公眾適應(yīng)力強(qiáng),災(zāi)難場景不可信。
- Galactica受批判而ChatGPT受歡迎表明公眾接受度取決于用途而非技術(shù)本身,更好AI是解決誤用的關(guān)鍵。
5. 硬件需求
Bill Dally
- GPU能力提升(5000-10000倍)及擴(kuò)展技術(shù)支持AI進(jìn)步,未來需持續(xù)增強(qiáng)硬件以滿足新模型需求。
- 神經(jīng)形態(tài)硬件和處理器內(nèi)存一體(PIM)可能在邊緣計(jì)算中有前景,如智能眼鏡的低功耗處理。
Yann LeCun
- JEPA等新模型運(yùn)行時(shí)計(jì)算成本高,需強(qiáng)大硬件支持,視頻處理(如V-JEPA)尤甚。
- 當(dāng)前數(shù)字CMOS占主導(dǎo),神經(jīng)形態(tài)硬件短期無優(yōu)勢,因無法復(fù)用硬件且跨芯片通信效率低。
- 生物啟發(fā)(如視網(wǎng)膜壓縮)表明傳感器內(nèi)處理可降低功耗,PIM在邊緣設(shè)備(如智能眼鏡)有潛力。
- 量子計(jì)算僅適合量子系統(tǒng)模擬,超導(dǎo)和光學(xué)技術(shù)短期內(nèi)難以突破現(xiàn)有硬件局限。
6. 開源AI
Bill Dally
- LLaMA的開放權(quán)重推動(dòng)生態(tài)發(fā)展,用戶下載超10億次,顯示開源AI的廣泛應(yīng)用潛力。
Yann LeCun
- 開源AI(如LLaMA)加速創(chuàng)新,全球協(xié)作證明好點(diǎn)子無地域限制。
- 未來AI需多樣化,支持所有語言和文化,單一公司無法實(shí)現(xiàn),需開源平臺支撐。
- 分布式訓(xùn)練是未來趨勢,各地貢獻(xiàn)數(shù)據(jù)但保留所有權(quán),構(gòu)建共識基礎(chǔ)模型,專有平臺將消失。
- Meta通過開源(如PyTorch、LLaMA)獲益,因核心業(yè)務(wù)非模型本身,生態(tài)繁榮不構(gòu)成威脅。
目錄
一、AI研究的新方向:超越大語言模型
二、構(gòu)建世界模型:從令牌到抽象表示
三、超越生成式推理:抽象空間的規(guī)劃
四、AI的實(shí)際應(yīng)用:從醫(yī)學(xué)到自動(dòng)駕駛
五、開源AI:全球協(xié)作與多樣化的未來
六、AI的計(jì)算需求:從GPU到新興技術(shù)
一、AI研究的新方向:超越大語言模型
Bill Dally:大家好!我們將就AI相關(guān)話題進(jìn)行一次簡短對話,希望大家會(huì)覺得有趣。Yann,過去一年AI領(lǐng)域發(fā)生了許多引人注目的進(jìn)展。在你看來,哪一項(xiàng)是最激動(dòng)人心的?
Yann LeCun: 發(fā)展太多,難以一一列舉,但我可以提到一點(diǎn),可能讓一些人感到意外。我對LLM不再感興趣。它們已經(jīng)是上一代技術(shù),目前掌握在產(chǎn)業(yè)界的產(chǎn)品團(tuán)隊(duì)手中,更多是在小幅改進(jìn),追求更多數(shù)據(jù)、更大算力、生成合成數(shù)據(jù)。我認(rèn)為有四個(gè)更有趣的問題:如何讓機(jī)器理解物理世界——Jensen今天上午在主題演講中提到過;如何讓它們具備持久記憶,這一點(diǎn)很少有人討論;最后兩個(gè)是如何實(shí)現(xiàn)推理和規(guī)劃。當(dāng)然,有人嘗試讓LLM具備推理能力,但在我看來,這種方式對推理的理解過于簡單化。我相信有更好的方法。我關(guān)注的是未來五年可能會(huì)讓科技界興奮的方向,盡管現(xiàn)在它們只是學(xué)術(shù)論文中的晦澀內(nèi)容。
二、構(gòu)建世界模型:從令牌到抽象表示
Bill Dally: 如果不是LLM來推理物理世界、保持持久記憶并進(jìn)行規(guī)劃,那會(huì)是什么?底層模型會(huì)是什么?
Yann LeCun: 許多人在研究世界模型。什么是世界模型?我們大腦中都有世界模型,它讓我們能夠操控思維。我們對當(dāng)前世界有模型。如果我從頂部推這個(gè)瓶子,它可能會(huì)翻倒;從底部推,它會(huì)滑動(dòng);用力過猛,它可能會(huì)爆開。我們在生命最初幾個(gè)月就獲得了物理世界模型,這讓我們能應(yīng)對現(xiàn)實(shí)世界。處理現(xiàn)實(shí)世界比處理語言要難得多。我認(rèn)為,真正能應(yīng)對現(xiàn)實(shí)世界的系統(tǒng)需要完全不同于當(dāng)前架構(gòu)的設(shè)計(jì)。LLM預(yù)測的是令牌(token),但令牌可以是任何東西。自動(dòng)駕駛模型使用傳感器輸入的令牌,生成駕駛指令的令牌,在某種程度上,它在推理物理世界,至少是判斷哪里安全駕駛、不會(huì)撞上電線桿。為什么令牌不是表示物理世界的正確方式?
Yann LeCun: 令牌是離散的。我們討論令牌時(shí),通常指一個(gè)有限的可能性集合。在典型LLM中,可能令牌數(shù)量大約是10萬級別。當(dāng)你訓(xùn)練系統(tǒng)預(yù)測令牌時(shí),無法讓它精確預(yù)測文本序列中的下一個(gè)令牌。但你可以生成詞典中所有可能令牌的概率分布——一個(gè)10萬維的向量,每個(gè)值在0到1之間,總和為1。這我們知道如何實(shí)現(xiàn)。但對于視頻或高維連續(xù)的自然數(shù)據(jù),我們不知道如何做到。試圖通過訓(xùn)練系統(tǒng)在像素級預(yù)測視頻來理解世界或構(gòu)建心智模型的每一次嘗試都失敗了。即使是訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的良好表示,所有通過從損壞或變換版本重建圖像的技術(shù)都失敗了。不是完全失敗——它們有些效果,但遠(yuǎn)不如我們稱為聯(lián)合嵌入(joint embedding)的替代架構(gòu)。這些架構(gòu)不試圖在像素級重建,而是學(xué)習(xí)圖像、視頻或自然信號的抽象表示,在這個(gè)抽象表示空間中進(jìn)行預(yù)測。我常舉的例子是,如果我拍攝這個(gè)房間的視頻,移動(dòng)鏡頭到這里停下,讓系統(tǒng)預(yù)測視頻后續(xù),它可能會(huì)預(yù)測這是一個(gè)房間,有人坐在里面,等等。但它無法預(yù)測你們每個(gè)人的具體長相。這從視頻的初始片段是完全不可預(yù)測的。世界中有很多不可預(yù)測的東西。如果訓(xùn)練系統(tǒng)在像素級預(yù)測,它會(huì)把所有資源浪費(fèi)在嘗試發(fā)明無法預(yù)測的細(xì)節(jié)上。這是資源的徹底浪費(fèi)。我20年來嘗試通過自監(jiān)督學(xué)習(xí)預(yù)測視頻訓(xùn)練系統(tǒng),都不起作用。只有在表示層級上才有效。這意味著這些架構(gòu)不是生成式的。
Bill Dally: 你是說變換器(transformer)沒有這種能力——但有人用視覺變換器取得了不錯(cuò)結(jié)果。
Yann LeCun: 我不是這個(gè)意思,因?yàn)樽儞Q器可以用在這些架構(gòu)中。我說的是聯(lián)合嵌入預(yù)測架構(gòu)(joint embedding predictive architecture)。拿一段視頻或圖像,甚至文本,通過編碼器生成一個(gè)表示;然后拿后續(xù)文本、視頻或圖像的變換版本,也通過編碼器生成表示,在這個(gè)表示空間中進(jìn)行預(yù)測,而不是在輸入空間。你可以用相同的訓(xùn)練方法填補(bǔ)空白,但在潛在空間而不是原始表示中進(jìn)行。
Bill Dally: 確實(shí)如此。難點(diǎn)在于,如果不小心、不使用巧妙技術(shù),系統(tǒng)會(huì)坍塌——它會(huì)忽略輸入,僅生成一個(gè)恒定的、不具信息量的表示。
三、超越生成式推理:抽象空間的規(guī)劃
Yann LeCun: 五六年前,我們沒有任何技術(shù)防止這種情況發(fā)生。現(xiàn)在,如果你想用它構(gòu)建一個(gè)代理系統(tǒng)或能推理和規(guī)劃的系統(tǒng),你需要一個(gè)預(yù)測器。當(dāng)它觀察一段視頻時(shí),能大致了解世界當(dāng)前狀態(tài),然后預(yù)測如果我采取某個(gè)想象中的行動(dòng),下一個(gè)狀態(tài)是什么。你需要一個(gè)預(yù)測器,給定世界狀態(tài)和想象的行動(dòng),能預(yù)測下一狀態(tài)。如果有了這樣的系統(tǒng),你就能規(guī)劃一系列行動(dòng)達(dá)到特定目標(biāo)。這是我們所有人進(jìn)行規(guī)劃和推理的真正方式——不在令牌空間中。舉個(gè)簡單例子?,F(xiàn)在有很多所謂的代理推理系統(tǒng),它們的運(yùn)作方式是生成大量令牌序列,用不同方法隨機(jī)生成,然后用另一個(gè)神經(jīng)網(wǎng)絡(luò)從所有序列中選出最佳的。這就像不會(huì)寫程序卻要寫程序——隨機(jī)寫代碼,測試所有代碼,保留給出正確答案的那個(gè)。這是完全無望的。
Bill Dally: 有超優(yōu)化(super-optimization)的論文建議這樣做。對于短程序。
Yann LeCun: 對于短程序當(dāng)然可以——但隨著代碼行數(shù)增加呈指數(shù)增長,很快就無望了。
Bill Dally: 許多人說通用AI(AGI)——或者你說的AMI——即將來臨。你的看法是什么?你認(rèn)為它什么時(shí)候到來?有哪些差距?
Yann LeCun: 我不喜歡“AGI”這個(gè)詞,因?yàn)槿藗冇盟复邆淙祟愃街悄艿南到y(tǒng),但人類智能是高度特化的。稱它為“通用”是個(gè)誤解。我更喜歡“AMI”——我們讀作“AMI”——意思是高級機(jī)器智能。只是個(gè)術(shù)語問題。我描述的這個(gè)概念——系統(tǒng)能學(xué)習(xí)世界的抽象心智模型并用于推理和規(guī)劃——我認(rèn)為三到五年內(nèi)我們能在小規(guī)模上很好地掌握它。然后是擴(kuò)展規(guī)模的問題,直到達(dá)到人類水平AI。歷史上有過一代又一代AI研究者發(fā)現(xiàn)新范式,宣稱“就是它——10年內(nèi),或5年內(nèi),我們會(huì)有人類水平智能,機(jī)器會(huì)在所有領(lǐng)域超過人類”。70年來一直如此,每10年一個(gè)浪潮。當(dāng)前浪潮也是錯(cuò)的。認(rèn)為只需擴(kuò)展LLM規(guī)?;蜃屗鼈兩蓴?shù)千令牌序列再選出好的,就能達(dá)到人類水平智能,甚至幾年內(nèi)——有人預(yù)測兩年——在數(shù)據(jù)中心里創(chuàng)造一個(gè)天才國度,我認(rèn)為是胡說。完全是胡說。當(dāng)然,近期會(huì)有很多應(yīng)用,系統(tǒng)可能達(dá)到博士水平。但整體智能上,我們還很遠(yuǎn)。我說“很遠(yuǎn)”,可能十年左右——不算太遠(yuǎn)。
四、AI的實(shí)際應(yīng)用:從醫(yī)學(xué)到自動(dòng)駕駛
Bill Dally: AI已在許多方面改善人類生活,讓生活更便利。你認(rèn)為AI哪個(gè)應(yīng)用最具吸引力、最有益?
Yann LeCun: 有顯而易見的例子。我認(rèn)為AI對科學(xué)和醫(yī)學(xué)的影響可能比我們現(xiàn)在想象的更大,盡管已經(jīng)很顯著。不只是在蛋白質(zhì)折疊、藥物設(shè)計(jì)等研究領(lǐng)域——理解生命機(jī)制——還有短期影響。現(xiàn)在在美國,你做醫(yī)學(xué)影像檢查,經(jīng)常涉及AI。乳腺X光片可能用深度學(xué)習(xí)系統(tǒng)預(yù)篩查腫瘤。做MRI,待在機(jī)器里的時(shí)間減少了四分之一,因?yàn)楝F(xiàn)在可以用更少數(shù)據(jù)恢復(fù)高分辨率圖像。很多短期效果。當(dāng)然,我們的車——英偉達(dá)是主要供應(yīng)商之一——現(xiàn)在大多配備駕駛輔助或自動(dòng)緊急制動(dòng)系統(tǒng)。在歐洲,這幾年來是強(qiáng)制裝備。這些系統(tǒng)能減少40%的碰撞。它們救命。這是巨大的應(yīng)用。這不是生成式AI——不是LLM——是感知系統(tǒng),當(dāng)然還有一點(diǎn)控制。顯然,現(xiàn)有或未來幾年的LLM在工業(yè)、服務(wù)等領(lǐng)域有很多應(yīng)用。但我們也要考慮局限性——部署系統(tǒng)達(dá)到預(yù)期準(zhǔn)確性和可靠性比多數(shù)人想的難。自動(dòng)駕駛就是如此。達(dá)到第5級自動(dòng)駕駛的時(shí)間表一直在推遲——我想未來也是這樣。AI失敗的地方通常不在基礎(chǔ)技術(shù)或炫酷演示,而是在實(shí)際部署、應(yīng)用、確??煽坎⑴c現(xiàn)有系統(tǒng)整合時(shí)。這會(huì)變得困難、昂貴,耗時(shí)超預(yù)期。像自動(dòng)駕駛這種必須時(shí)刻正確的應(yīng)用——否則可能有人受傷或死亡——準(zhǔn)確性需近乎完美。但很多應(yīng)用只要大多數(shù)時(shí)候正確就很有益——如某些醫(yī)學(xué)應(yīng)用,醫(yī)生會(huì)復(fù)查,或娛樂、教育等領(lǐng)域,你希望利大于弊,錯(cuò)誤后果不嚴(yán)重。
Bill Dally: 確實(shí)如此。對大多數(shù)系統(tǒng),最有用的那些是提升人們生產(chǎn)力或創(chuàng)造力的。
Yann LeCun: 像編碼助手幫助他們。在醫(yī)學(xué)、藝術(shù)、文本生成中都如此——AI不是取代人,而是給他們強(qiáng)大工具。
Bill Dally: 未來可能會(huì)取代,但——
Yann LeCun: 我不認(rèn)為人們會(huì)接受。未來AI系統(tǒng),包括超智能、超人類系統(tǒng),我們的關(guān)系是我們是它們的老板。我們會(huì)有一個(gè)超智能虛擬團(tuán)隊(duì)為我們工作。我不知道你怎么樣,但我喜歡和比我聰明的人共事。
Bill Dally: 我也是。世上最棒的事。正面是AI能多方面造福人類,反面是有人會(huì)用它制造深度偽造、假新聞,若應(yīng)用不當(dāng)可能引發(fā)情感困擾。你對AI使用最大的擔(dān)憂是什么?如何緩解?
Yann LeCun: Meta很熟悉的一件事是用AI對抗攻擊,無論攻擊是否來自AI??赡茏屓艘馔獾氖?,盡管LLM和深度偽造技術(shù)已存在多年,我們負(fù)責(zé)檢測和移除這類攻擊的同事說,我們沒看到社交網(wǎng)絡(luò)上生成內(nèi)容大幅增加——至少不是以惡意方式發(fā)布,通常會(huì)標(biāo)注為合成內(nèi)容。我們沒看到三四年前警告的那種災(zāi)難場景——“這會(huì)摧毀所有信息”。有個(gè)有趣的故事。2022年秋,我的Meta同事,一個(gè)小團(tuán)隊(duì),訓(xùn)練了一個(gè)涵蓋全部科學(xué)文獻(xiàn)的LLM——他們能拿到所有技術(shù)論文。叫Galactica,公開上線,附帶描述訓(xùn)練過程的長論文、開源代碼和可玩的演示系統(tǒng)。Twitter上對此潑了一盆冷水。有人說,“這太可怕了,會(huì)害死我們,毀掉科學(xué)交流系統(tǒng)——現(xiàn)在任何傻瓜都能寫出看似科學(xué)的論文,比如吃碎玻璃的好處?!必?fù)面意見如海嘯般涌來,我那可憐的五人小團(tuán)隊(duì)夜不能寐,他們撤下了演示。開源代碼和論文留下了——演示沒了。我們得出結(jié)論:世界還沒準(zhǔn)備好這種技術(shù),沒人感興趣。三周后,ChatGPT出來了,像是救世主再臨。我們面面相覷,說:“怎么回事?”我們無法理解公眾對此的熱情,和之前反應(yīng)的對比。
Bill Dally: ChatGPT的討論不是要寫學(xué)術(shù)論文或做科學(xué)——它是能對話、回答任何問題的東西。試圖更通用化。在某種程度上,對更多人更有用——或大致有用。
Yann LeCun: 有危險(xiǎn),肯定有各種濫用。但對抗濫用的對策是更好的AI。如我之前所說,有不可靠系統(tǒng)——解決方法是更好的AI系統(tǒng),具備常識、推理能力,檢查答案是否正確,評估自身答案可靠性——目前還做不到。但災(zāi)難場景——我不信。人們會(huì)適應(yīng)。
五、開源AI:全球協(xié)作與多樣化的未來
Bill Dally: 我認(rèn)為AI大多有益,盡管有點(diǎn)壞處。作為大西洋兩岸都有家的人,你有全球視角。你認(rèn)為AI未來創(chuàng)新會(huì)從哪來?
Yann LeCun: 可以來自任何地方。聰明人無處不在。沒人壟斷好點(diǎn)子。有些人有極大優(yōu)越感,以為自己不需交流就能想出所有好點(diǎn)子。我作為科學(xué)家,經(jīng)驗(yàn)告訴我不是這樣。好點(diǎn)子來自多人互動(dòng)、思想交流,過去十年還有代碼交換。這是我強(qiáng)烈支持開源AI平臺的原因之一,Meta也部分采納了這哲學(xué)。我們沒壟斷好點(diǎn)子——再聰明也不行。DeepSeek的故事表明好點(diǎn)子可來自任何地方。中國有很多優(yōu)秀科學(xué)家。一個(gè)故事很多人該知道:過去10年科學(xué)界引用最多的論文是什么——2015年發(fā)表,剛好10年前,關(guān)于一種叫ResNet(殘差網(wǎng)絡(luò))的神經(jīng)網(wǎng)絡(luò)架構(gòu),來自北京微軟研究院,一群中國科學(xué)家完成。領(lǐng)銜作者是何愷明。一年后,他加入加州Meta的FAIR,待了八年,最近去了MIT。
Bill Dally: 去了MIT,沒錯(cuò)。
Yann LeCun: 這說明全球有很多優(yōu)秀科學(xué)家。點(diǎn)子可從各地冒出。但要把點(diǎn)子付諸實(shí)踐,需大基礎(chǔ)設(shè)施、大量計(jì)算——得給朋友、同事很多錢買硬件。但開放的知識社區(qū)讓進(jìn)步更快,因?yàn)橛腥嗽谶@兒想到半個(gè)好點(diǎn)子,別人那兒想到另一半,若交流就成了。若都封閉孤立,進(jìn)步就不發(fā)生。
Bill Dally: 沒錯(cuò)。還有一點(diǎn)——?jiǎng)?chuàng)新點(diǎn)子要涌現(xiàn)——作為英偉達(dá)首席科學(xué)家,你明白——得給人們長繩子。得讓他們創(chuàng)新,別每三六個(gè)月壓他們出成果。
Yann LeCun: DeepSeek是這樣,LLaMA也是。不廣為人知的故事是,2022年FAIR有幾個(gè)LLM項(xiàng)目——一個(gè)資源多,高層支持,另一個(gè)是巴黎十幾人的小海盜項(xiàng)目,他們因某種需要自己建LLM。這成了LLaMA。大項(xiàng)目——你沒聽說過——停了。你不需所有支持也能有好點(diǎn)子。若管理層隔離你、放手,你能想出比按計(jì)劃創(chuàng)新更好的點(diǎn)子。這十幾人做了LLaMA 1。當(dāng)然,后來決定以此為平臺,而非另一項(xiàng)目,建了團(tuán)隊(duì)做LLaMA 2,開源后在領(lǐng)域掀起革命。然后是LLaMA 3——截至昨天,LLaMA下載超10億次。我覺得不可思議。我猜包括你們很多人,但那些人是誰?你該知道,他們得買英偉達(dá)硬件跑這些。
Bill Dally: 感謝你幫我們賣GPU。談?wù)勯_源。LLaMA很創(chuàng)新,是頂尖LLM,至少開放權(quán)重,人們可下載自己運(yùn)行。利弊是什么?公司投入巨資開發(fā)、訓(xùn)練、微調(diào)模型,然后免費(fèi)放出。好處是什么,壞處呢?
Yann LeCun: 若你是靠服務(wù)直接賺錢的公司,有壞處。若那是你的唯一業(yè)務(wù),公開所有秘密可能不利。但若你是Meta——或某種程度上的Google——收入來自別處:Meta是廣告,Google有多種來源,未來或許還有其他。短期收入不重要——關(guān)鍵是:你能為想建的產(chǎn)品開發(fā)所需功能嗎?能讓全球最多聰明人貢獻(xiàn)嗎?對全世界——若其他公司用LLaMA做其他事,不傷Meta——他們沒社交網(wǎng)絡(luò)可建在上面。對Google威脅更大,你能用它建搜索引擎——這可能是他們對此態(tài)度不積極的原因。我們看到的效果——先是PyTorch對社區(qū)的影響,然后是LLaMA 2——啟動(dòng)了整個(gè)初創(chuàng)生態(tài)?,F(xiàn)在大行業(yè)也如此,人們有時(shí)用專有API原型AI系統(tǒng),部署時(shí)最劃算的方式是用LLaMA,因?yàn)榭杀镜剡\(yùn)行——或其他開源模型。但哲學(xué)上,想有開源平臺最重要的原因是,很快,我們與數(shù)字世界每一次互動(dòng)都將由AI系統(tǒng)調(diào)解。我戴著Ray-Ban Meta智能眼鏡——可通過它與Meta AI對話,問任何問題。我們不認(rèn)為人們想要單一助手,或這些助手只來自美國西海岸或中國的幾家公司。我們需極其多樣的助手——說世界所有語言,懂所有文化、價(jià)值觀、興趣中心,有不同偏見、政治觀點(diǎn)等等。我們需多樣助手,就像需多樣媒體——否則信息都來自同一來源,對民主等不利。我們需一個(gè)任何人可用來建助手的平臺——多樣助手群體——現(xiàn)在只能通過開源平臺做到。未來更重要,若要基礎(chǔ)模型說世界所有語言等,沒單一實(shí)體能獨(dú)自做到。誰會(huì)收集全球所有語言數(shù)據(jù),交給OpenAI、Meta、Google或Anthropic?沒人——他們想留數(shù)據(jù)。世界各地會(huì)想為全球基礎(chǔ)模型貢獻(xiàn)數(shù)據(jù),但不交出數(shù)據(jù)??赡転橛?xùn)練全球模型出力——這是未來模式?;A(chǔ)模型將開源,以分布式方式訓(xùn)練,全球各地?cái)?shù)據(jù)中心訪問不同數(shù)據(jù)子集,訓(xùn)練共識模型。這使開源平臺不可避免,專有平臺會(huì)消失。
Bill Dally: 這對語言多樣性和應(yīng)用也有意義。公司可下載LLaMA,用不愿上傳的專有數(shù)據(jù)微調(diào)。
Yann LeCun: 這正在發(fā)生。AI初創(chuàng)的商業(yè)模式大多如此——為垂直應(yīng)用建專用系統(tǒng)。
Bill Dally: 在Jensen的主題演講中,他提到用代理LLM做婚禮規(guī)劃——決定誰坐哪桌——這是訓(xùn)練和推理投入權(quán)衡的好例子。一方面,你可有強(qiáng)大模型,訓(xùn)練耗費(fèi)巨資;另一方面,建較弱模型,多次運(yùn)行推理。你認(rèn)為建強(qiáng)大模型時(shí),訓(xùn)練時(shí)間和推理時(shí)間的權(quán)衡是什么?最佳點(diǎn)在哪?
Yann LeCun: Jensen完全正確,能推理的系統(tǒng)最終更有威力。我不同意當(dāng)前LLM增強(qiáng)推理能力的方式是正確途徑——你說它有效,但不是正確方式。
Bill Dally: 不是正確方式。
Yann LeCun: 我們推理、思考時(shí),在與語言無關(guān)的抽象心理狀態(tài)中進(jìn)行。你不是踢出令牌——你想在潛在空間、抽象空間中推理。若我說,想象一個(gè)立方體浮在你面前,繞垂直軸旋轉(zhuǎn)90度,你能在腦海中做到——與語言無關(guān)。貓也能做到——我們無法用語言向貓描述問題,但貓規(guī)劃跳上家具的軌跡時(shí),做的事比這復(fù)雜。不關(guān)語言——肯定不在令牌空間,那是動(dòng)作。在抽象心理空間中。這是未來幾年挑戰(zhàn)——找出允許這種事的新架構(gòu)。這是我在研究的——會(huì)有新模型讓我們在抽象空間推理嗎?
Yann LeCun: 我們叫它JEPA,或JEPA世界模型。我和同事過去幾年發(fā)表了論文——對此的初步步驟。JEPA是聯(lián)合嵌入預(yù)測架構(gòu)。這些世界模型學(xué)習(xí)抽象表示,能操控這些表示,或許推理并生成行動(dòng)序列達(dá)到特定目標(biāo)。這是未來。我三年前寫了篇長論文解釋這可能如何運(yùn)作。
六、AI的計(jì)算需求:從GPU到新興技術(shù)
Bill Dally: 運(yùn)行這些模型需優(yōu)秀硬件。過去十年,GPU能力在AI模型訓(xùn)練和推理上提升了5000到10000倍——從Kepler到Blackwell——今天看到還有更多,擴(kuò)展和升級提供了額外能力。你認(rèn)為未來會(huì)有什么?什么能讓我們建你的JEPA和其他更強(qiáng)模型?
Yann LeCun: 繼續(xù)努力,因?yàn)槲覀冃枰苣玫降囊磺兴懔Α_@抽象空間推理想法在運(yùn)行時(shí)計(jì)算成本高,與我們熟悉的東西有關(guān)。心理學(xué)家談System 1和System 2。System 1是你不怎么思考就能完成的任務(wù)——你習(xí)慣了,不用多想。若你是老司機(jī),可不怎么思考開車——即使沒駕駛輔助??赏瑫r(shí)聊天等。但若你首次開車,頭幾小時(shí)在方向盤后,得專注你在做什么。規(guī)劃各種災(zāi)難場景,想象各種事。這是System 2——你調(diào)動(dòng)整個(gè)前額葉皮層,你的世界模型——內(nèi)部世界模型——弄清會(huì)發(fā)生什么,規(guī)劃行動(dòng)讓好事發(fā)生。熟悉后,你可用System 1自動(dòng)完成。你用世界模型開始,能完成任務(wù)——即使沒遇過的任務(wù),零樣本——不需訓(xùn)練解決那任務(wù)——僅憑對世界的理解和規(guī)劃能力完成。這是當(dāng)前系統(tǒng)缺失的。若多次完成那任務(wù),最終編譯成所謂策略——反應(yīng)系統(tǒng),讓你不規(guī)劃就完成。這推理是System 2。自動(dòng)、無意識、反應(yīng)性策略是System 1。當(dāng)前系統(tǒng)能做System 1,正朝System 2邁進(jìn),但我認(rèn)為System 2需不同架構(gòu)。
Bill Dally: 你認(rèn)為會(huì)是你的JEPA嗎?
Yann LeCun: 若要系統(tǒng)理解物理世界,不會(huì)是生成式架構(gòu)。物理世界比語言難理解得多。我們視語言為人類智力巔峰,但其實(shí)語言簡單,因?yàn)樗请x散的——因是通信機(jī)制,需離散,否則不抗噪。你現(xiàn)在聽不懂我說什么。它因此簡單,但現(xiàn)實(shí)世界復(fù)雜得多。我過去說過:當(dāng)前LLM訓(xùn)練用約30萬億令牌。令牌約3字節(jié)——0.9×10^13字節(jié)——約10^14字節(jié)。我們?nèi)我蝗俗x完需超40萬年,因?yàn)槟鞘蔷W(wǎng)上所有文本總量。心理學(xué)家說,四歲児醒著共1.6萬小時(shí),我們視覺皮層通過視神經(jīng)每秒接收約2兆字節(jié)。1.6萬小時(shí)乘3600——約10^14字節(jié),四年通過視覺。你看到的數(shù)據(jù)量等于40萬年讀的文本。這說明僅靠文本訓(xùn)練永遠(yuǎn)達(dá)不到AGI——無論你怎么定義。
Bill Dally: 回到硬件,脈沖系統(tǒng)(spiking systems)有不少進(jìn)展,倡導(dǎo)者看生物系統(tǒng)類比,建議神經(jīng)形態(tài)硬件有作用。你認(rèn)為神經(jīng)形態(tài)硬件會(huì)在AI中補(bǔ)足或替代GPU嗎?
Yann LeCun: 短期不會(huì)。事后給我20塊?
Bill Dally: 什么?
Yann LeCun: 我得講個(gè)故事。1988年我進(jìn)貝爾實(shí)驗(yàn)室,我那組專注神經(jīng)網(wǎng)絡(luò)的模擬硬件,建了幾代完全模擬神經(jīng)網(wǎng),然后混模擬-數(shù)字,到90年代中期全數(shù)字。那時(shí)人們對神經(jīng)網(wǎng)失去興趣,就沒意義了。像這樣的奇異原理問題在于,當(dāng)前數(shù)字CMOS處于極深局部極小值,替代技術(shù)——及巨額投資——需很久才能趕上。甚至不清楚原理上是否有優(yōu)勢。像模擬或脈沖神經(jīng)元、脈沖神經(jīng)網(wǎng)——可能有些固有優(yōu)勢,但它們讓硬件復(fù)用難。我們現(xiàn)在每塊硬件太大太快,你得復(fù)用同一硬件——多路復(fù)用——計(jì)算不同模型。
Bill Dally: 你的神經(jīng)網(wǎng)?
Yann LeCun: 若用模擬硬件,不能多路復(fù)用——你得為虛擬神經(jīng)網(wǎng)每個(gè)神經(jīng)元配一個(gè)物理神經(jīng)元。意味著單芯片裝不下像樣大小的神經(jīng)網(wǎng)——得用多芯片。一旦做到會(huì)非常快,但效率不高,因?yàn)樾杩缧酒ㄐ?,?nèi)存變復(fù)雜。最終,你得數(shù)字通信——那是唯一高效、抗噪的方式。腦子——有趣信息——多數(shù)動(dòng)物腦中,神經(jīng)元通過脈沖通信。脈沖是二進(jìn)制信號——是數(shù)字——不是模擬。神經(jīng)元計(jì)算可能是模擬,但神經(jīng)元間通信是數(shù)字——除了微小動(dòng)物。如 C. elegans——1毫米長蠕蟲——有302個(gè)神經(jīng)元。不脈沖——不需因不需遠(yuǎn)距離通信——那尺度可用模擬通信。這說明即使想用模擬計(jì)算這類奇異技術(shù),也得某種方式用數(shù)字通信,至少為內(nèi)存。不清楚——我多次算過。你比我知道得多,但我短期看不到這發(fā)生。邊緣計(jì)算可能有些角落——若想要超便宜微控制器跑吸塵器或割草機(jī)的感知系統(tǒng)——若能單芯片裝下,用相變內(nèi)存存權(quán)重,也許有些人真在建這些。
Bill Dally: 這涉及所謂PIM——處理器內(nèi)存一體——技術(shù),模擬和數(shù)字都有。你認(rèn)為它們有作用嗎?
Yann LeCun: 絕對有。我同事對此很感興趣,因他們想建智能眼鏡后續(xù)產(chǎn)品。你想要視覺處理隨時(shí)進(jìn)行——現(xiàn)在因功耗不可能。像圖像傳感器——不能在這種眼鏡里一直開,幾分鐘電池就沒了。一潛在解法是傳感器上直接處理——不需把數(shù)據(jù)移出芯片,那才耗能。數(shù)據(jù)移動(dòng)耗能——不是計(jì)算本身。這方面有不少工作,但還沒到那。
Bill Dally: 你認(rèn)為這是有前景的方向?
Yann LeCun: 我認(rèn)為是。生物已解決這問題。我們視網(wǎng)膜有約6000萬光感器,前有四層透明神經(jīng)元處理信號,壓縮到100萬視神經(jīng)纖維到視覺皮層。有壓縮、特征提取——各種處理——從視覺系統(tǒng)提取最有用信息。
Bill Dally: 其他新興技術(shù)呢?你認(rèn)為量子、超導(dǎo)邏輯或其他會(huì)在AI處理能力上給我們大步前進(jìn)嗎?
Yann LeCun: 超導(dǎo)——也許。我了解不夠多不好說。光學(xué)很令人失望。我記得80年代聽光學(xué)實(shí)現(xiàn)神經(jīng)網(wǎng)的演講很驚嘆——從未實(shí)現(xiàn)。技術(shù)在進(jìn)化——也許會(huì)變。我認(rèn)為那成本多——像模擬——在與數(shù)字系統(tǒng)接口轉(zhuǎn)換時(shí)丟了。量子——我極懷疑量子計(jì)算。我看到的唯一中期應(yīng)用是模擬量子系統(tǒng)——如量子化學(xué)——也許。其他我很懷疑。
Bill Dally: 你談到建AI能像幼動(dòng)物從觀察學(xué)習(xí)。這對硬件有何需求?你認(rèn)為硬件需如何發(fā)展支持這?你能給我們多少?
Yann LeCun: 是你愿買多少。買越多省越多——賺越多,如今天所聞?
Bill Dally: 沒錯(cuò)。
Yann LeCun: 不會(huì)便宜,因視頻——我講個(gè)實(shí)驗(yàn),我同事一年前做的。有種自監(jiān)督學(xué)習(xí)技術(shù)用重建學(xué)圖像表示——我說過這不行。項(xiàng)目叫MAE——掩碼自編碼器。是自編碼器——去噪自編碼器——很像用的方式。拿圖像,破壞掉部分——其實(shí)是大塊——訓(xùn)練巨型神經(jīng)網(wǎng)重建完整圖像,在像素級——或令牌級。然后用內(nèi)部表示作為下游任務(wù)輸入,監(jiān)督訓(xùn)練——物體識別之類。效果還行。得煮沸小池塘冷卻液冷GPU集群來做。不如聯(lián)合嵌入架構(gòu)好——你可能聽過DINO、DINOv2等。那些是聯(lián)合嵌入架構(gòu)——效果更好,訓(xùn)練更便宜。
Bill Dally: 聯(lián)合嵌入是你有兩個(gè)輸入類的潛在空間?
Yann LeCun: 沒錯(cuò)。不是把一切轉(zhuǎn)為一個(gè)令牌——不是拿圖像和損壞或變換版,從損壞或變換版重建全圖像,而是拿全圖像和損壞/變換版,兩者都通過編碼器,然后鏈接——從部分可見、損壞版的表示訓(xùn)練全圖像表示。這是聯(lián)合嵌入預(yù)測架構(gòu)。效果更好,更便宜。MAE團(tuán)隊(duì)說,“圖像行——試視頻?!钡冒岩曨l令牌化——視頻轉(zhuǎn)為16×16補(bǔ)丁——短視頻也有很多補(bǔ)丁。訓(xùn)練巨型神經(jīng)網(wǎng)重建缺失補(bǔ)丁——也許預(yù)測未來視頻。得煮沸小湖——不是池塘——基本失敗。項(xiàng)目停了。現(xiàn)在替代是V-JEPA項(xiàng)目——接近第二版——是聯(lián)合嵌入預(yù)測架構(gòu)。在表示層級預(yù)測視頻——效果很好。第一版訓(xùn)在短視頻,16幀,從部分掩碼版預(yù)測全視頻表示。這系統(tǒng)能判斷視頻是否物理可能——至少在限制案例中。給二元輸出——“可行,不可行”——或——
Bill Dally: 更簡單——測系統(tǒng)預(yù)測誤差。拿視頻16幀滑動(dòng)窗口,看能否預(yù)測下幾幀,測誤差。視頻有怪事——如物體消失、變形狀或什么——或突然出現(xiàn)、不遵物理——僅觀視頻就物理真實(shí)?
Yann LeCun: 訓(xùn)在自然視頻,測在合成視頻,有怪事發(fā)生。若訓(xùn)在怪事視頻,那成正?!粫?huì)覺奇怪。
Bill Dally: 沒錯(cuò)。
Yann LeCun: 不那樣做。這有點(diǎn)像嬰兒需時(shí)間學(xué)直覺物理——物體無支撐會(huì)掉。重力效應(yīng)——嬰兒9個(gè)月左右學(xué)會(huì)。給五六個(gè)月嬰兒看物體浮在空中——不驚訝——九十個(gè)月看,大眼瞪,你能測——心理學(xué)家有測注意方法。意指嬰兒內(nèi)部世界模型——心智模型——被違反。嬰兒見她認(rèn)為不可能的事——不符預(yù)期。她得看它修正內(nèi)部世界模型——“也許該學(xué)這個(gè)”。
Bill Dally: 你談到聯(lián)合嵌入空間的推理和規(guī)劃——我們需什么到那?模型和硬件的瓶頸是什么?
Yann LeCun: 多是讓它生效。需好配方——像以前人們找到訓(xùn)簡單卷積網(wǎng)的好配方。直到2000年代末,Jeff Hinton告訴大家,“用反向傳播訓(xùn)深網(wǎng)很難——Yann能用ConvNets,他是世上唯一能的”——當(dāng)時(shí)真但不真。不那么難,但得弄清很多技巧——工程或直覺技巧——用哪非線性。ResNet這想法——10年引用25萬次,科學(xué)最引用論文——簡單想法。每層有跳躍連接——默認(rèn)深神經(jīng)網(wǎng)一層算恒等函數(shù)——神經(jīng)網(wǎng)做的是偏離——簡單想法——但讓訓(xùn)—
Bill Dally: 避免反向丟梯度。
Yann LeCun: 沒錯(cuò)。讓訓(xùn)百層神經(jīng)網(wǎng)成可能。之前,人們用技巧——拉中間東西,有損失函數(shù)——因不能全程反向傳播。
Bill Dally: 一層死——網(wǎng)就死——得重啟訓(xùn)練。
Yann LeCun: 人們很快放棄,因沒全技巧。找到好配方前——?dú)埐钸B接、Adam優(yōu)化器、歸一化——我們有論文示變換器不需歸一化——這類東西——沒全配方和技巧前,沒東西行。同NLP——自然語言處理系統(tǒng)——2010年代中,基于去噪自編碼器——如BERT型——拿文本,破壞,訓(xùn)神經(jīng)網(wǎng)恢復(fù)缺詞——最終被GPT式架構(gòu)取代——訓(xùn)全系統(tǒng)——作自編碼器,但不破壞輸入,因架構(gòu)是因果的。配方——證明極成功擴(kuò)展。我們得為JEPA架構(gòu)找個(gè)好配方,能同樣擴(kuò)展——這缺了。
Bill Dally: 我們前有紅燈閃。結(jié)束前有最后想法留給觀眾嗎?
Yann LeCun: 我想強(qiáng)化之前觀點(diǎn)。AI進(jìn)展——朝人類水平AI、高級機(jī)器智能或AGI,隨你叫它什么——需所有人貢獻(xiàn)。不會(huì)從某單一實(shí)體秘密研發(fā)出來——不會(huì)發(fā)生。不是事件——是沿途連續(xù)進(jìn)展。人類不會(huì)在這發(fā)生一小時(shí)內(nèi)滅亡,因不是事件。需全球各地貢獻(xiàn)——開放研究,基于開源平臺。需大量訓(xùn)練——需更便宜硬件——你得降價(jià)。跟Jensen說。
Bill Dally: 我們會(huì)有未來,高多樣AI助手助我們?nèi)粘I睢S時(shí)伴我們,通過智能眼鏡或其他設(shè)備——我們是它們老板。它們?yōu)槲覀児ぷ鳌裎覀兌汲山?jīng)理。
Yann LeCun: 那未來糟透了。
本文轉(zhuǎn)載自Andy730,作者:常華Andy
