LeCun最新訪談對DeepSeek一頓猛夸,還談了AI發(fā)展需理解物理世界
LeCun最新訪談,對DeepSeek一頓猛夸。
他表示,DeepSeek是一項很出色的成果,它的開源不只是成果創(chuàng)造者受益,全世界都能從中受益。
不過LeCun也指出,金融市場對DeepSeek出現(xiàn)的反應(yīng),說什么“哦,現(xiàn)在我們可以更便宜地訓(xùn)練系統(tǒng)了,所以我們不再需要那么多計算機”,這種說法是錯誤的。
最終大部分的基礎(chǔ)設(shè)施建設(shè)和大部分的投資實際上都用在運行模型上,而不是訓(xùn)練模型。
順帶他還提到了對OpenAI“星際之門”項目的看法,OpenAI之前官宣將與軟銀甲骨文組建合資公司,未來4年內(nèi)總投資5000億美元在這個項目上,LeCun卻表示不認為它會改變一切。
他認為這個項目的投資與微軟、Meta的投資規(guī)模實際上處于同一數(shù)量級,并沒有太大的不同。
另外,LeCun著重講了現(xiàn)在的AI系統(tǒng)在很多方面都還非?!坝薮馈?,光靠大語言模型不行,AI發(fā)展需要理解復(fù)雜物理世界。
LeCun的一些大膽言論讓網(wǎng)友聽得一愣一愣的:
說當前AI愚蠢沒有智能,又將自己的“情感”概念強加到他正在構(gòu)建的東西上,這有點瘋狂。
當然,也有研究人員贊同LeCun的說法。
量子位在不改變原意的基礎(chǔ)上,對部分問題進行了翻譯整理。
最新訪談問題整理
談AI是否會有類似人的情緒
Q:我們努力推動AI達到與人類能力相匹配的水平?,F(xiàn)在我們是否會讓AI展現(xiàn)出類似人類憤怒這類的情緒呢?你覺得這有可能實現(xiàn)嗎?
LeCun:不,我不這么認為。
目前AI系統(tǒng)在很多方面都還非常“愚蠢”,我們之所以會覺得它們很聰明,是因為它們能夠很好地處理語言,但實際上它們并不具備真正的智慧。
它們不理解物理世界,也沒有像我們?nèi)祟愃鶕碛械哪欠N持久記憶,無法真正地進行推理,也不能制定計劃。而這些都是智能行為的基本特征。
所以,我和我在FAIR以及紐約大學(xué)的同事們一直在努力做的一件事,就是設(shè)計一種新型的AI系統(tǒng),而且它仍然是基于深度學(xué)習(xí)的。
這種系統(tǒng)將能夠理解物理世界,擁有實體記憶,并且能夠進行推理和規(guī)劃。在我看來,一旦我們成功地按照這個藍圖構(gòu)建出這樣的系統(tǒng),它們就會擁有情感,可能會恐懼、興奮或者失落,因為這些都是對結(jié)果的預(yù)期。
這些系統(tǒng)會按照我們設(shè)定的目標來運行,然后會嘗試弄清楚自己可以采取怎樣的行動來實現(xiàn)這個目標。如果它們能夠提前預(yù)測到目標將會實現(xiàn),在某種程度上會“感到高興”;如果它們預(yù)測到無法實現(xiàn)目標,它們就會“不開心”。
所以在一定程度上它們會擁有情感,因為它們將能夠預(yù)測自己可能采取的一系列行動的結(jié)果。
但是我們不會在它們的程序中人為設(shè)定類似憤怒、嫉妒之類的情感。
但意識是另外一回事,我們實際上并不清楚它究竟是什么,目前并沒有一個真正意義上的定義,也沒有任何一種真正可衡量的東西能讓我們判斷某樣事物到底有沒有意識。
就好比我們觀察動物,大概我們都會認同猿是有意識的,也許大象以及諸如此類的動物也是有意識的,但狗有意識嗎?老鼠有意識嗎?界限在哪里?
因為我們沒有一個關(guān)于意識的恰當定義,所以我們確實無法判斷。
談機器學(xué)習(xí)三種模式
Q:當年你說機器學(xué)習(xí)很爛,現(xiàn)在情況有什么變化嗎?
LeCun:這就是我們正在努力的,我們正在尋找構(gòu)建機器學(xué)習(xí)系統(tǒng)的新方法,讓它們能夠像人類和動物那樣高效地學(xué)習(xí),因為目前的情況并非如此。
我可以給你講講過去幾十年里機器學(xué)習(xí)是如何發(fā)展的。實際上機器學(xué)習(xí)主要有三種早期模式。
一種叫監(jiān)督學(xué)習(xí),這是最經(jīng)典的一種。
訓(xùn)練一個監(jiān)督學(xué)習(xí)系統(tǒng)的方式是這樣的,例如對于一個用于識別圖像的系統(tǒng),你給它展示一張圖片,比方說一張桌子的圖片,然后告訴它“這是一張桌子”,這就是監(jiān)督學(xué)習(xí),你告訴了它正確答案是什么,也就是系統(tǒng)計算機的輸出應(yīng)該是什么。
如果它給出的不是“桌子”,那么它就會調(diào)整自身的參數(shù),也就是它的內(nèi)部結(jié)構(gòu),使得產(chǎn)生的輸出更接近你想要的結(jié)果。
如果你不斷地用大量桌子、椅子、汽車、貓、狗等例子來進行訓(xùn)練,最終這個系統(tǒng)將會找到一種方法,能夠識別出你用來訓(xùn)練它的每一張圖像,而且對于那些它從未見過但與訓(xùn)練圖像相似的圖像,它也能識別,這就叫做泛化能力。
還有另一種模式,人們認為這種模式更接近動物和人類的學(xué)習(xí)方式,叫做強化學(xué)習(xí)。
在強化學(xué)習(xí)中,你不會告訴系統(tǒng)正確答案是什么,你只告訴它所產(chǎn)生的答案是好還是壞。在某種程度上,這可以解釋人類和動物的一些學(xué)習(xí)類型。比如,你嘗試騎自行車,一開始不知道怎么騎,過了一會兒你摔倒了,所以你知道自己做得不好,于是你稍微改變一下策略,最終你就學(xué)會了騎自行車。
但事實證明,強化學(xué)習(xí)效率極其低下。
如果你想訓(xùn)練一個系統(tǒng)來下國際象棋、圍棋或者玩撲克之類的,它確實效果很好。因為你可以讓系統(tǒng)自己和自己玩數(shù)百萬局游戲,然后基本上就能對自身進行微調(diào)。
但在現(xiàn)實世界中,它并不太適用。如果你想訓(xùn)練一輛汽車自動駕駛,你可不能用強化學(xué)習(xí)的方法,不然它會撞車成千上萬次。如果你訓(xùn)練一個機器人學(xué)習(xí)如何抓取東西,強化學(xué)習(xí)可以是解決方案的一部分,但它不是全部,僅靠強化學(xué)習(xí)是不夠的。
所以還有第三種學(xué)習(xí)形式,叫做自監(jiān)督學(xué)習(xí)。
正是自監(jiān)督學(xué)習(xí)推動了近期自然語言理解和聊天機器人領(lǐng)域的進展。在自監(jiān)督學(xué)習(xí)中,你不是訓(xùn)練系統(tǒng)去完成特定的任務(wù),而是訓(xùn)練它去捕捉輸入的結(jié)構(gòu)。
比如說,在處理文本和語言方面的應(yīng)用方式是,你取一段文本,以某種方式對它進行破壞,比如刪除一些單詞,然后訓(xùn)練系統(tǒng)去預(yù)測缺失的單詞。
這種方式的一個特殊情況是,你取一段文本,這段文本的最后一個單詞是不可見的。所以你訓(xùn)練系統(tǒng)去預(yù)測這段文本的最后一個單詞。這就是訓(xùn)練大語言模型以及所有聊天機器人所采用的方式。
從技術(shù)層面來說會有所不同,但基本原理就是這樣。這就叫做自監(jiān)督學(xué)習(xí)。你不是為了某個任務(wù)去訓(xùn)練系統(tǒng),只是訓(xùn)練它去學(xué)習(xí)輸入內(nèi)容的內(nèi)部依賴關(guān)系。
自監(jiān)督學(xué)習(xí)的成功令人驚嘆,它的效果出奇地好,最終你得到的系統(tǒng)似乎真的理解了語言,并且如果你通過監(jiān)督學(xué)習(xí)或強化學(xué)習(xí)對它們進行微調(diào),使它們能夠正確回答問題,那么這些系統(tǒng)就能理解問題。
這就是目前行業(yè)內(nèi)大家都在努力研究的方向,但如果你想要一個系統(tǒng)去理解物理世界,這種模型就不管用了。
談AI系統(tǒng)所缺的關(guān)鍵要素
LeCun:物理世界比語言要難理解得多,我們往往認為語言是展現(xiàn)智能的重要方面,因為只有人類能夠運用語言。但事實證明,語言其實是相對簡單的。
它之所以簡單,是因為它是離散的,是由一系列離散的符號組成的序列。
字典里可能出現(xiàn)的單詞數(shù)量是有限的,所以,雖然你永遠無法訓(xùn)練一個系統(tǒng)精確地預(yù)測下一個出現(xiàn)的單詞是什么,但你可以訓(xùn)練它為字典里的每個單詞在那個位置出現(xiàn)的概率進行估算。這樣,你就可以通過這種方式來處理預(yù)測中的不確定性。
然而,你卻無法訓(xùn)練一個系統(tǒng)去預(yù)測視頻中將會發(fā)生什么。
人們嘗試過這么做,我自己也為此努力了20年,如果你能夠訓(xùn)練一個系統(tǒng)去預(yù)測視頻中將會發(fā)生的事情,那么這個系統(tǒng)就會潛移默化地理解這個世界的底層結(jié)構(gòu),比如直觀的物理學(xué)知識,以及任何動物和人類在嬰兒時期所學(xué)到的關(guān)于物理方面的一切知識。
你知道的,如果我拿起一個物體然后松開手,它就會掉落,重力會把物體拉向地面,人類嬰兒大概9個月大的時候就學(xué)會了這一點。
這是個棘手的問題,貓或者狗幾個月的時間就能了解重力,而且貓在這方面真的很厲害,它能夠規(guī)劃復(fù)雜的動作,爬上爬下還能跳躍,它對我們所說的直觀物理學(xué)有著非常好的理解。而我們還不知道如何用計算機來重現(xiàn)這一點。
原因就在于,這又是AI研究人員所說的“莫拉維克悖論”。
漢斯?莫拉維克是一位機器人專家。他指出,為什么我們能讓計算機下棋、解決數(shù)學(xué)難題,但卻無法讓它們做一些像動物能做的操控物體、跳躍之類的物理動作?
所以這就是這個悖論的又一個例子,即離散物體和符號的空間很容易被計算機處理,但現(xiàn)實世界實在是太復(fù)雜了,在一種情況下有效的技術(shù)在另一種情況下卻行不通。
如果你想直觀地理解這一點,有個不錯的方法:通過我們的感官比如視覺或觸覺,傳遞給我們的信息量,與我們通過語言獲取的信息量相比,絕對是極其龐大的。
這也許就能解釋為什么我們有大語言模型、聊天機器人,它們能通過律師資格考試,能解決數(shù)學(xué)問題,或者寫出聽起來不錯的文章。但我們?nèi)匀粵]有家用機器人。我們?nèi)匀粵]有能完成貓或狗能完成的任務(wù)的機器人。我們?nèi)匀粵]有達到L5完全自動駕駛的汽車,而且我們肯定也沒有能像17歲的孩子那樣,通過大約20個小時的練習(xí)就能學(xué)會駕駛的自動駕駛汽車。
所以很明顯,我們還缺少一些關(guān)鍵的東西,而我們所缺少的,就是如何訓(xùn)練一個系統(tǒng)去理解像視覺這樣復(fù)雜的感官輸入。
如果你想要擁有與動物和人類智力相仿的機器,它們具備常識,或許在某個階段還擁有意識以及其它能力,并且能夠真正應(yīng)對復(fù)雜世界中錯綜復(fù)雜的情況,那我們就需要攻克這個難題。
一個典型的大語言模型的信息量大約是10的14次方字節(jié),也就是1后面跟著14個零,這是互聯(lián)網(wǎng)上所有公開可用文本的總量,我們?nèi)魏稳艘x完這些材料都得花幾十萬年的時間,這是極其龐大的信息量。
當你把大語言模型的信息量與在生命的頭四年里通過視覺系統(tǒng)進入我們大腦的信息量作比較。在頭四年里,一個幼兒醒著的總時長大約是16000個小時。進入大腦到達視神經(jīng)的信息量大約是2MB/s。計算一下,那大約也是10的14次方字節(jié)。
也就是說,一個幼兒在頭四年里所接觸到的信息或數(shù)據(jù)量,和最大的大語言模型所處理的信息量大致相當。
這就告訴我們,僅僅通過對文本進行訓(xùn)練,我們永遠無法實現(xiàn)達到人類水平的人工智能,必須讓系統(tǒng)去理解真實世界。而要做到這一點,在現(xiàn)實世界中確實非常困難。
Q:你在你的LinkedIn和Facebook主頁上把AI和熵聯(lián)系起來了,它們之間有什么關(guān)聯(lián)?你寫的內(nèi)容很難讓人理解,能否給我們簡單解釋一下。
LeCun:這一直是我著迷的一個問題,它是計算機科學(xué)、物理學(xué)、信息論以及許多不同領(lǐng)域中諸多問題的根源,那就是如何對信息進行量化的問題,也就是一條消息中包含了多少信息。
我已經(jīng)多次提出的觀點是,一條消息中的信息量并非是一個絕對的量,因為它取決于解讀這條消息的人。你能從傳感器中、從別人告訴你的語言信息或其它任何信息中提取出的信息量,取決于你如何去解讀它,這就是關(guān)鍵所在。
認為可以用絕對的方式來衡量信息,這種想法可能是錯誤的。每一種對信息的度量都是相對于解讀該信息的特定方式而言的。所以這就是我一直想表達的觀點。
而這會產(chǎn)生非常廣泛的影響。因為如果沒有一種絕對的方法來衡量信息,那就意味著物理學(xué)中有很多概念實際上并沒有那種像熵這樣客觀的定義,所以熵是對我們對一個物理系統(tǒng)狀態(tài)的未知程度的一種度量。當然,這取決于你對這個系統(tǒng)了解多少。
所以我一直執(zhí)著于試圖找到一些好的方法來定義熵、復(fù)雜性或者信息內(nèi)容。
Q:你難道不認為我們用于訓(xùn)練AI模型的全球數(shù)據(jù)庫已經(jīng)達到極限了嗎?我們在2000年時將數(shù)據(jù)的25%進行了數(shù)字化,而如今我們已經(jīng)把所有數(shù)據(jù)的100%都數(shù)字化了。
LeCun:不,仍然有大量的文本知識尚未被數(shù)字化。而且,也許在很多發(fā)達地區(qū)很多數(shù)據(jù)已經(jīng)被數(shù)字化了,但其中大部分都不是公開的。
比如說,有大量的醫(yī)療數(shù)據(jù)就是不公開的,還有很多文化數(shù)據(jù)、世界上很多地區(qū)的歷史數(shù)據(jù)都無法以數(shù)字形式獲取,或者即便有數(shù)字形式也是以掃描文檔的形式存在。所以它并不是可利用的文本之類的東西。
所以我認為那種說法不對,我覺得仍然還有大量的數(shù)據(jù)未被合理利用。
談o1式推理模型
Q:那關(guān)于像o1這樣的自由推理、抽象思維模型呢?我們能期待從您的實驗室中看到類似這樣的成果嗎?
LeCun:從觀察中精心構(gòu)建抽象表征的問題是深度學(xué)習(xí)的關(guān)鍵所在。深度學(xué)習(xí)的核心就在于學(xué)習(xí)表征。
實際上,深度學(xué)習(xí)領(lǐng)域的一個主要會議叫做國際學(xué)習(xí)表征會議(ICLR),我是這個會議的共同創(chuàng)始人之一。這就表明了學(xué)習(xí)抽象表征這個問題對于AI整體尤其是對于深度學(xué)習(xí)來說是多么的核心。
如今,如果你希望一個系統(tǒng)能夠進行推理,你就需要它具備另一套特性。在AI領(lǐng)域,推理或規(guī)劃行為由來已久,自 20世紀50年代起便有相關(guān)研究,其經(jīng)典模式是要找到一種搜索問題解決方案的方法。
比如說,如果我給你一份城市列表,然后讓你找出經(jīng)過所有這些城市的最短路線。那么,你就會思考,我應(yīng)該從相鄰的城市開始走,這樣我的總行程才會盡可能短。
現(xiàn)在,存在一個由所有可能路線構(gòu)成的空間,也就是所有城市排列順序的集合。這是一個非常龐大的空間,像在GPS之類的算法中,它們搜索路徑的方式就是在所有可能的路徑中尋找最短的那一條。所有的推理系統(tǒng)都是基于這種搜索的理念。
也就是說,在一個由可能的解決方案構(gòu)成的空間里,你去搜索那個符合你所期望目標的方案。
目前的系統(tǒng),比如現(xiàn)有的大語言模型,它們進行這種搜索的方式還非常原始,它們是在所謂的token空間中進行搜索,也就是輸出空間。所以基本上,它們讓系統(tǒng)或多或少隨機地生成大量不同的token序列,然后再用另一個神經(jīng)元去查看所有這些假設(shè)的序列,從中找出看起來最好的那個,然后輸出它。
這是極其耗費資源的,因為這需要生成大量的輸出結(jié)果,然后再從中挑選出好的。而且這也不是我們?nèi)祟愃伎嫉姆绞?。我們不是通過生成大量的行為,然后觀察結(jié)果,再判斷哪個是最好的來進行思考的。
比如說,如果我讓你想象在你正前方的空中漂浮著一個立方體,現(xiàn)在拿起那個立方體,繞著垂直軸旋轉(zhuǎn)90 度,這樣你就有了一個旋轉(zhuǎn)了90度的立方體?,F(xiàn)在想象這個立方體,然后告訴我它看起來是否和你旋轉(zhuǎn)之前的原始立方體一樣。答案是肯定的。
因為你知道,對于一個立方體來說,如果你將它旋轉(zhuǎn)90度,并且你仍然是從相同的視角去看它的話,它看起來就是一樣的。
Q:那是自由推理的錯覺嗎?
LeCun:你所做的是在你的思維狀態(tài)中進行推理,而不是在你的輸出行為狀態(tài)或行為空間中進行推理。
或者說,無論你的輸出狀態(tài)是什么,你是在一個抽象空間中進行推理。
所以我們擁有這些關(guān)于世界的心理模型,這些模型使我們能夠預(yù)測世界上將會發(fā)生什么,操控現(xiàn)實,提前預(yù)知我們行為的后果。如果我們能夠預(yù)測自己行為的后果,比如將一個立方體旋轉(zhuǎn)90度之類的事情,那么我們就可以規(guī)劃一系列的行動,從而達成一個特定的目標。
所以,每當我們有意識地去完成一項任務(wù)時,我們的全部心思都會集中在上面,然后思考我需要采取怎樣的一系列行動,才能做好任何事情。
基本上,我們每天用心去做的每一項這類任務(wù),都需要進行規(guī)劃。而且大多數(shù)時候,我們是分層級地進行規(guī)劃。
比如說,我們不會一下子就跳到某個最終步驟,如果你現(xiàn)在決定從紐約回到華沙,你知道你得先去機場然后搭乘飛機?,F(xiàn)在你有了一個子目標,那就是去機場。這就是分層級規(guī)劃的意義所在。
在某個時候,你會確定一個足夠具體且無需再進一步規(guī)劃的目標,比如從椅子上站起來,你不需要再去規(guī)劃這個動作,因為你已經(jīng)非常習(xí)慣這么做了,你可以直接就做到,而且你擁有完成這個動作所需的所有信息。
所以,我們需要進行分層級規(guī)劃,智能系統(tǒng)也需要進行分層級規(guī)劃,這個理念至關(guān)重要。如今,我們還不知道如何讓機器做到這一點。這是未來幾年里的一個巨大挑戰(zhàn)。
談DeepSeek和OpenAI星際之門
Q:現(xiàn)在全世界都在談?wù)撔履P虳eepSeek,它比OpenAI一些模型便宜得多,你難道不覺得木已成舟、大局已定了嗎?你對此有何看法?
LeCun:有件事必須解釋得非常清楚。如果一項研發(fā)成果被發(fā)表出來,用于產(chǎn)生這項成果的技術(shù)或者相關(guān)的論文、白皮書、報告之類的也被發(fā)布了出來,并且如果代碼是開源的,全世界都能從中受益。
明白嗎,不只是成果的創(chuàng)造者受益,成果的創(chuàng)造者或創(chuàng)造團隊會獲得聲譽以及認可,但全世界都能從中受益,這就是開放開源的魅力所在。
就我個人以及Meta公司整體而言,一直都是開放研究和開源理念的堅定支持者。每當有一個踐行開放開源研究的機構(gòu)產(chǎn)出了成果,整個開源社區(qū)也會從中受益。
有人把這描述成了一種競爭的態(tài)勢,但其實并非如此,這更像是一種合作。
問題在于,我們是否希望這種合作是全球性的,我的答案是肯定的,因為全世界各個地方都能涌現(xiàn)出好的創(chuàng)意。沒有哪個機構(gòu)能壟斷好的創(chuàng)意,這就是為什么開放協(xié)作能讓這個領(lǐng)域發(fā)展得更快。
現(xiàn)在行業(yè)里有些人過去也曾踐行開放研究然后取得了成功,OpenAI就是這樣的情況。
而Anthropic從來都不是開放的,他們把所有東西都保密。
谷歌則從部分開放逐漸走向基本不開放,比如說他們不會公開關(guān)于PaLM背后的所有技術(shù),他們?nèi)匀辉谧龊芏嚅_放研究,但更多的是那種基礎(chǔ)性、長期性的研究。
我覺得挺遺憾的,因為很多人基本上把自己排除在了世界研究社區(qū)之外,他們沒有參與進來沒有為行業(yè)的進步做出貢獻。
過去十年AI領(lǐng)域發(fā)展如此迅速的原因就在于開放研究。不只是我這么認為,這不是一種觀點,而是事實。
讓我舉個例子。幾乎可以說,整個AI行業(yè),至少在研發(fā)階段構(gòu)建系統(tǒng)時都會使用一款名為PyTorch的開源軟件。它最初是由我在Meta FAIR實驗室的同事開發(fā)的,后來有更多人參與進來。
幾年前,PyTorch的所有權(quán)轉(zhuǎn)移到了Linux 基金會,Meta是主要的貢獻者,但不再控制它了。它實際上是由一個開發(fā)者社區(qū)來管理的,基本上整個行業(yè)都在使用它,這其中包括OpenAI,也包括很多其他公司。
谷歌有他們自己的軟件,但微軟、英偉達等公司也都在使用PyTorch,整個學(xué)術(shù)界和世界范圍內(nèi)的研究也都在使用 PyTorch。
我認為在科學(xué)文獻中發(fā)表的所有論文里,大概有70%都提到了PyTorch。所以這說明,AI領(lǐng)域的進步是建立在彼此的研究成果之上的。而且,這就是科技進步的合理方式。
Q:如果不是DeepSeek的話,那么也許OpenAI的“星際之門”項目(The Stargate Project)會改變一切嗎?
LeCun:不,不
那我再說說關(guān)于DeepSeek的一點看法,這是很出色的成果,參與其中的團隊有著卓越的想法,他們確實做出了很棒的工作。
這可不是中國第一次產(chǎn)出非常優(yōu)秀的創(chuàng)新性成果了。我們早就知道這一點,尤其是在計算機視覺取得進展的領(lǐng)域。
中國在大語言模型方面的貢獻是比較近期才凸顯的,但在計算機視覺領(lǐng)域,你看計算機視覺頂會上,很多參會者都是中國人,他們都是非常優(yōu)秀的科學(xué)家,都是很聰明的人。所以,世界上的任何地區(qū)都無法壟斷好的創(chuàng)意。
DeepSeek的創(chuàng)意也許很快就會被復(fù)現(xiàn),但它現(xiàn)在已經(jīng)是世界知識的一部分了,這就是開源和開放研究的美妙之處。這在產(chǎn)品層面上或許是一種競爭,但在基本方法層面上,是一種合作。
現(xiàn)在我們來談?wù)劇靶请H之門”項目。如今,所有涉足AI領(lǐng)域的公司都預(yù)見到了一個不遠的未來,在那個未來里,數(shù)十億人每天都會想要使用AI助手。
我現(xiàn)在戴著一副眼鏡,我不知道你能不能看到這副眼鏡上有攝像頭,這是Meta的一款產(chǎn)品你可以和它對話,它連接著一個AI助手,你可以向它問任何問題,你甚至可以讓它通過攝像頭識別植物物種之類的東西。
所以我們預(yù)見到的未來是,人們會戴著智能眼鏡、智能手機或其它智能設(shè)備,在日常生活中會一直使用AI助手。
這就意味著,將會有數(shù)十億的AI助手用戶,而且他們每天會多次使用這些助手。為此,你需要非常龐大的計算基礎(chǔ)設(shè)施,因為運行一個大語言模型或任何AI系統(tǒng),成本都不低,你需要強大的計算能力。
所以你知道的,Meta今年在基礎(chǔ)設(shè)施方面的投資大約為600-650億美元,主要用于AI領(lǐng)域;微軟已經(jīng)宣布將投資800億美元。
“星際之門”項目計劃投資5000億美元,但這是在五年或十年內(nèi)的投資,而且我們也不知道這些資金將從何而來,所以這和微軟以及Meta的投資規(guī)模處于同一數(shù)量級,實際上并沒有太大的不同。
這不是用于訓(xùn)練大型模型的,實際上訓(xùn)練大型模型的成本相對較低,大部分投資是用于推理方面,也就是說,是為了運行AI助手來服務(wù)數(shù)十億人。
所以我認為,金融市場對DeepSeek出現(xiàn)的反應(yīng),說什么“哦,現(xiàn)在我們可以更便宜地訓(xùn)練系統(tǒng)了,所以我們不再需要那么多計算機”,這種說法是錯誤的。
我的意思是,訓(xùn)練只是會變得更高效一些,但結(jié)果是我們只會去訓(xùn)練更大規(guī)模的模型。而且最終大部分的基礎(chǔ)設(shè)施建設(shè)和大部分的投資實際上都用在運行模型上,而不是訓(xùn)練模型。這才是投資的方向所在。
原視頻鏈接:https://www.youtube.com/watch?v=RUnFgu8kH-4