李沐重返母校上海交大,從LLM聊到個人生涯,這里是演講全文
圖源:上海交通大學(xué)特聘教授俞勇朋友圈。
Hi!大家好,說我是計算機杰出校友有點不敢當。很多年沒有回來,這次回國想見一見本科導(dǎo)師。我的 AI 啟蒙導(dǎo)師李老師說,來都來了,要不做個報告吧。
本來我想講一些關(guān)于語言模型的知識,但聽講座的各位不一定都是這個方向,所以我加了一些這些年轉(zhuǎn)了很多地方、做出的不同選擇的感想。
第一部分我會講得稍微技術(shù)一點,是有關(guān)整個語言模型的現(xiàn)在,以及未來情況的預(yù)測。
語言模型可以分為三塊:算力、數(shù)據(jù)和算法。所以語言模型也好,整個機器學(xué)習(xí)模型也好,本質(zhì)上就是把數(shù)據(jù)通過算力和算法壓進中間那個模型里面,使得模型有一定的能力,在面對一個新的數(shù)據(jù)時,它能夠在原數(shù)據(jù)里面找到相似的東西,然后做一定的修改,輸出你要的東西。
打個比方,很多年前深度學(xué)習(xí)剛出來的時候,我說機器學(xué)習(xí)像是老中醫(yī),深度學(xué)習(xí)可能跟玄幻小說的煉丹有點像。所以你看現(xiàn)在的語言模型就很像煉丹,你要把一些材料放進一個丹爐里面,然后有個丹方去把它煉出來。
那么數(shù)據(jù)就是你要找的材料。你看那些小說里面,主角大部分時間都在找材料,包括去深山里面找、去拍賣會上買,所以搞數(shù)據(jù)是很難的事情,是個體力活。但是你必須得有這些數(shù)據(jù),而且要多弄一些,因為你不知道到時候會不會毀掉一些。
算力也很重要,就是說火要大一點,設(shè)備要先進一點,因為越好的設(shè)備煉出來的東西越好。
算法就是你的丹方了。丹方這個東西可能跟小說不一樣。它每年都在進步,而且對于細節(jié)的把控非常重要。就算別人告訴過你這個東西怎么弄,但在真實的場景里面,你會發(fā)現(xiàn)還是挺不一樣的。這就有點像你去徒手發(fā)射火箭,發(fā)之前你要動手調(diào)一調(diào),沒調(diào)好的話就炸掉了。
這一次(浪潮里)的語言模型和上一次深度學(xué)習(xí)(浪潮里)的模型有一個比較大的區(qū)別 —— 上一次是,我煉一個什么丹就治一個什么病,這次我希望這個東西煉出來會有靈魂在里面,它能解決你很多問題,這其實是技術(shù)一代代往前進。
接下來要講的就是,硬件、數(shù)據(jù)和算法,未來幾年會發(fā)生什么。這里面其實是有規(guī)律可循的,它不是一個跳躍性的東西。
算力層面:大模型不是特別有性價比的東西
帶寬:讓芯片靠得更近一些
硬件這塊,我放第一位的是帶寬。實際上帶寬是最難也是最重要的。因為就現(xiàn)在的模型訓(xùn)練而言,很難讓一個機器搞定所有事情,所以要做分布式訓(xùn)練,通常瓶頸就在帶寬上。
我們現(xiàn)在的帶寬是一根光纖承載 400Gigabits,下一代就是 double,變成 800Gigabits。
半年前,英偉達發(fā)布了一個名叫 GB200 的系統(tǒng)(現(xiàn)在已經(jīng)推遲出貨)。不知道大家有沒有見過 GPU 長什么樣子?這些機器其實是很高的。以前你去數(shù)據(jù)中心,會看到一個機架柜可以放很多很多刀片服務(wù)器?,F(xiàn)在換成新的 GPU 之后,一個機架位只能放兩臺機器。這是因為供電、散熱等等一系列的問題。英偉達可以把 72 塊卡壓縮一個機架位里面。
這里面用到了水冷工藝。之前我們其實不太用水冷,因為水冷有很多問題,比如那個閥門沒做好就會漏水,整個機架位一漏水就完了。而且水冷對整個基建是有要求的,水要進來要出去。水的好處是可以帶走很多熱量?,F(xiàn)在我們大部分是靠空氣吹,但水的密度更高,所以它帶走熱量的能力更強。
所以一旦用到水冷之后,你的算力就可以更密,就可以放更多機器。芯片就可以壓得比較扁。壓得比較扁的好處就是,每個芯片之間更近了。芯片之間直接用光纖,以光速互通。光速你看上去很快,但實際上在我們眼里已經(jīng)很慢了。一臺機器傳輸?shù)礁舯谝幻字獾臋C器所帶來的幾納秒延遲,幾乎是不能忍。我們自己去設(shè)計機房的時候會考慮光纖的長度,因為一米的差距就會給分布式訓(xùn)練帶來一個可見的性能影響。
英偉達的 GB200 這個卡就可以把 GPU 都放一起,那么它們之間的通訊會變得更好一些。你可以理解成:之前我們做多核,把單核封裝到一個芯片里面,現(xiàn)在是說多核不夠,我要做多卡,多卡以前是分布在一個房間里面,現(xiàn)在是多卡也要盡量放在一起,這是一個趨勢。就是一塊芯片那么大,早就做不上去了,這是臺積電等面臨的工藝難題,現(xiàn)在是盡量把這些東西弄得近一些。
還有一個通訊是 GPU 和 CPU 之間的 PCIe,它每幾年也在翻倍,但是確實會慢一些。
內(nèi)存:制約模型尺寸的一大瓶頸
接下來講內(nèi)存。內(nèi)存比算力也重要一點。因為現(xiàn)在的語言模型,核心是把整個世界的數(shù)據(jù)壓進模型里面,那模型就被搞得很大,幾百 GB 的樣子。在運行的時候,它的中間變量也很大,所以它就需要很多的內(nèi)存?,F(xiàn)在我們可以做到一個芯片里面封裝近 192 GB 的內(nèi)存。下一代帶寬會更高一點。
但這個東西目前已經(jīng)被認為是一個瓶頸了。這是因為內(nèi)存占面積 —— 一個芯片就那么大,劃一塊給算力,劃一塊給內(nèi)存之后就放不下什么東西了。所以很有可能在未來幾年之內(nèi),一個芯片就 200GB 內(nèi)存,可能就走不動了。這個要看工藝有沒有突破。這意味著我們的模型大小在一定程度上會被限制在一個尺寸,因為更大的話你的效率會變得特別低。所以內(nèi)存大小會是模型上限的一個制約,而不是算力。我們是內(nèi)存不夠,模型就做不大。
在這一塊,雖然英偉達是領(lǐng)先者,但其實英偉達是不如 AMD 的,甚至不如 Google 的 TPU。
算力:長期來看會越來越便宜
當你搞定了帶寬和內(nèi)存的時候,再去看算力。
機器學(xué)習(xí)好的一點是,你可以用 4 位浮點數(shù),硬件會變小,它對帶寬的利用率也會變低,因為每次計算它只有那么多浮點數(shù)在里面。所以我們最近幾代優(yōu)化都來自浮點數(shù)的精度的降低。這是它給硬件帶來的好處。
但是當你把模型做得更大的時候,你會發(fā)現(xiàn)資源是問題,就是供電。我們自己在做數(shù)據(jù)中心的時候,曾經(jīng)真的想過我們自己造一個電廠。當我們發(fā)現(xiàn)自己去造一個電廠的成本比我們付的那個電費成本還低的時候,我們花了幾個月時間去看那個電廠文件。最大的一個芯片要耗一千瓦,一千塊芯片就是一兆瓦,整個校園都未必能用上一兆瓦的電。
關(guān)于算力價格。從理論上來說,在公平的市場里面,每次算力翻倍,價格會保持不變,充分競爭的市場會有這個好處,在過去很多年都是這樣。但是最近幾年英偉達的壟斷導(dǎo)致這個價格下不來。短期來看,算力翻倍,價格可能會有 1.4 倍的提升。但是長期來看,當競爭變得越來越激烈,摩爾定律會發(fā)揮作用,就是說算力翻倍,價格不一定變。所以長期來看算力會變得越來越便宜。
算力這塊,你可以用別的芯片,但是這些芯片用來做推理還 OK,做訓(xùn)練的話還要等幾年的樣子,英偉達還是處在一個壟斷的地位。
所以在算力這塊,你可以認為摩爾定律還是會發(fā)揮作用,就是訓(xùn)練會兩倍兩倍地變便宜。所以你今天訓(xùn)練一個模型,一年之后它的價值會減半。很多時候,大家不要去想我現(xiàn)在能搞多大的模型,一年之后,這個模型會貶值。我想說,大模型不是特別有性價比的東西。你要想清楚,從長期來看,你的模型能帶來什么價值,讓你能夠保值。
模型:從語言到多模態(tài)
語言模型:100B 到 500B 參數(shù)會是主流
接下來講模型,比如說語言模型。每次預(yù)訓(xùn)練,無論是 OpenAI 還是別的模型,基本都是用 10T 到 50T token 做預(yù)訓(xùn)練。開源的話基本也在 10T token 以上。這個數(shù)據(jù)量我覺得差不多了,不會再往一個更大的尺寸去發(fā)展。原因是,人類歷史上的數(shù)據(jù)比這個多是多,但是看多樣性、質(zhì)量的話,我覺得 10T 到 50T 這個規(guī)模就差不多了。你說我還是能弄到很多的數(shù)據(jù)進來,但這個數(shù)據(jù)質(zhì)量不一定能給你帶來一個更好的提升。也許你可以弄到更多的數(shù)據(jù),但是清洗之后可能會回到一個這樣子的值。
你的模型大小就是 100B 到 500B 這個樣子。我覺得比較好的一線的模型就是 500B,超過 500B 不是訓(xùn)練不動,而是做 serving 很難。在谷歌歷史上,他們就沒有讓 500B 以上的模型上過線。OpenAI 沒有對外說,但我覺得 OpenAI 歷史上沒有上線過有效大小超過 500B 的模型。當然 MoE 不算,我是說換算成稠密模型的話。所以,很有可能在未來一陣子,因為受限于內(nèi)存大小和數(shù)據(jù)的尺寸,我覺得 100B 到 500B 會是未來主流的一個大勢。你可以做更大,但是它很多時候是用 MoE 做的,它的有效大?。看渭せ畹拇笮。┛赡芤簿褪?500B 的樣子。
語音模型:延遲更低、信息更豐富
GPT-4o 出來之后,大家對于語音模型產(chǎn)生了濃厚的興趣。以前的模型是我先做 ASR(自動語音識別),把語音信號轉(zhuǎn)成文本,然后放進語言模型,讓它出一個文本的回復(fù),再通過 TTS 變成一個語音的信號?,F(xiàn)在大家做的是直接讓你的原始的語音信號進去,然后原始的語音信號再出來。
后者的好處有兩點:一是我們說話的時候,其實里面包含了很多東西,包括情緒、語調(diào)以及你是哪一類的人。大家能夠通過聲音去分辨你的方言,通過你說話的音調(diào)能大概知道你是一個什么樣的人。所以人的語音信號里面包含很多東西,還有你的背景音樂、場景音樂,甚至你唱歌的節(jié)奏感都有很多信息在里面。目前我們那一套傳統(tǒng)的技術(shù)是做不了的。這套新的語音技術(shù)可以讓語音直接進去,然后利用文本語言模型強大的能力去發(fā)掘里面的信息。在做輸出的時候也是一樣的,我的輸出可以根據(jù)你的輸入的個性化場景來變換語調(diào)、情緒。這是一點。
另一點是延遲更短。之前我要先輸出一句話,再進到一個模型去把語音輸出來,這個延遲可能是 1 秒?,F(xiàn)在我們大概可以做到 300 毫秒。300 毫秒最大的好處是可以打斷。人與人之間交互,就我跟你在說話的時候,你說一句,我可能會回應(yīng)一下,或者中間會打斷,所以這個體驗就會做得更好,更像真人一些。
我覺得這是這個技術(shù)目前能看到的最好的兩點。
還有一點就是說,它能夠通過語言模型對整個輸出做很多控制。可以讓你用文本定制化一個什么樣的聲音出來。
音樂模型:不是技術(shù)問題,而是商業(yè)問題
另外一個國內(nèi)在商業(yè)上做得挺好的東西就是音樂的生成,最近出了挺多做音樂的一些工具。我覺得這一塊的進展從來不是一個技術(shù)問題。它的技術(shù)其實比語音麻煩一點,因為音樂比人說話更復(fù)雜一點。但是實際上它還是一個版權(quán)的問題?,F(xiàn)在大家開始慢慢解決版權(quán)的問題 —— 大公司去買版權(quán),小公司想反正我光腳不怕穿鞋的,我就上。
市面上我覺得已經(jīng)很好了,就是說抖音快歌,雖然爆款很難,但是如果你不是音樂專業(yè)的人,你聽下來覺得沒什么問題。我之前看一個同事寫首歌,歌詞大意是:我在公司就一個朋友,這個人去吃飯了,一個半小時還沒回來,我覺得他是不是出什么事了?我是不是要打電話給他女朋友問一下呢?但我又是一個很社恐的人,我又不敢跟人打電話。
就是說,音樂是一種表達,是一個人的交互,任何一個什么感覺你都可以通過音樂表達。以前你很難用音樂把它很富有情感地表達出來。大家可以寫詩,寫詩可能比音樂容易一點,現(xiàn)在你掌握了這個表達工具之后,我們未來很多人會用音樂這個形式來表達想法和情感。我覺得這個可能是影響力會特別大的,那它不是個技術(shù)問題,它可能還是一個商業(yè)問題。
圖像模型:生成的圖越來越有神韻
接下來是圖像??赡艽蠹易罱鼛滋於伎催^那個做得很真的 TED 演講的圖片。
目前來看,圖片應(yīng)該是整個 AIGC 領(lǐng)域做得最早的,也是效果最好的?,F(xiàn)在大家可以做到 100 萬以上像素的圖片的生成。大家說得最多的是圖片要有靈魂。之前你去看那些文生圖的工具,它的風(fēng)格還是很假,但現(xiàn)在你會看到跟真的很接近,當然它還缺那么一點點靈魂,不過這一塊說不定很快就有了。
視頻模型:尚屬早期
Sora 出來之后,大家非常關(guān)注視頻模型。這個實際上還算比較早期,通用的 video 生成還是非常貴,因為 video 數(shù)據(jù)特別難弄。視頻模型的訓(xùn)練成本很有可能低于數(shù)據(jù)處理的成本,所以你沒有看到市面上有特別好的開源模型出來。問題在于生成一張圖片容易,但生成一連串連貫的圖片,并保持一致性是很難的。
多模態(tài)模型:整合不同模態(tài)信息
目前存在一種趨勢,即多模態(tài)?,F(xiàn)如今,多模態(tài)技術(shù)的發(fā)展趨勢在于整合不同類型的模態(tài)信息,尤其是文本信息,因為文本含有豐富的信息并且易于獲取。通過利用在文本上學(xué)到的技能,可以將這些能力泛化到其他模態(tài),如圖片、視頻和聲音。
這樣做有兩大好處:一是可以借助強大的文本模型進行泛化。另一個優(yōu)點是可以通過文本來定制和控制其他模態(tài)的輸出,比如用簡單的文本指令控制圖片、視頻和聲音的生成,而不再需要專業(yè)的編程技能或工具。比如寫代碼,以前可能需要專業(yè)的寫代碼工具,現(xiàn)在交給 ChatGPT,你通過文本下達要求就行了。逐漸的,你想要生成某個模塊的話,也是通過文本去控制的,這應(yīng)該是未來可能的一個常態(tài),大家用自然語言去做交互。
總結(jié)下來,我覺得語言模型已經(jīng)達到了較高的水平,大約在 80 到 85 分之間。音頻模型在可接受的水平,處于能用階段,大約在 70-80 分之間。但在視頻生成方面,尤其是生成具有特定功能的視頻尚顯不足,整體水平大約在 50 分左右。
還有一個推論是我覺得人機交互會有一點改變,比如在點菜時,在 ChatGPT 出來之前我們與手機的交互方式是刷刷刷和點點點,這是最簡單的方式,對人類來說也不耗費精力,能不說就不說。但在 ChatGPT 出來之后,大家打破了這種觀念,他們愿意去輸入一段很長的文字去做事情,這是因為設(shè)計好的東西不一定滿足我們的所有需求,可能滿足了 80%,但沒有滿足對細節(jié)的需求,這時可以通過長文本,即輸入很長的文字來解決。但輸入長文字還是不如說話方便,所以在微信上很多人會說我語音留言會方便點。
現(xiàn)在語音技術(shù)正在進步,未來大家可能會越來越能接受對方用一個很長的語音跟你描述一些事情,讓你去完成。雖然早期的語音控制系統(tǒng)通常只用于執(zhí)行簡單的指令(例如「開窗」),這種簡單的功能并沒有形成強烈的用戶黏性,因為用戶可以通過其他簡單的操作來完成相同的任務(wù)。但是,隨著技術(shù)的發(fā)展,未來的語音控制系統(tǒng)將能夠處理更加復(fù)雜和具體的任務(wù),這種技術(shù)的自然和便捷性將顯著提高。
所以這是用戶習(xí)慣問題。大家可能都在說我們這一次的技術(shù)革命還沒有出現(xiàn) killer APP(殺手級應(yīng)用)。所謂的 killer APP 就是說一個技術(shù)的出現(xiàn),可能會涌現(xiàn)出一個非常受歡迎的應(yīng)用形態(tài)。
大家知道手機的 killer APP 是什么嗎?短視頻。回想一下五年前,你可能很難想象大家會刷那么幾秒鐘的視頻。
所以這一次的 killer APP 是什么?
上一波的頂級 AI 公司基本上快死得差不多了,包括 Character.AI、Inflection 被賣了,Adept 也被賣了,還剩一個 Perplexity 搜索還在支撐著。但是下一代 killer APP 是什么大家不知道??赡艿燃夹g(shù)變成熟,大家的不習(xí)慣慢慢地過去了,這個東西會涌現(xiàn)出來。
應(yīng)用:AI 離變革世界還有很多年
在應(yīng)用層面,AI 本質(zhì)上是去輔助人類完成任務(wù),給人類提供無限的人力資源。我將應(yīng)用分成三類:
第一類就是文科白領(lǐng)。白領(lǐng)是用自然語言去跟人、跟世界打交道,包括寫文章或者其他。我認為在這方面做的比較好的領(lǐng)域包括個人助理、Call centers、文本處理、游戲和輿論以及教育。一個文科白領(lǐng)可能一小時完成的事情,我們的模型還是能夠完成百分之八九十的。
第二個是工科白領(lǐng),目前 AI 想取代程序員還早得很。在過去,編程往往需要程序員自行查找代碼示例,例如在網(wǎng)絡(luò)上搜索,然后下載一個工作流程的代碼片段,對其進行變量修改和調(diào)試,以適應(yīng)特定的任務(wù)或項目。
但現(xiàn)在,先進的模型可以自動完成這些步驟。你不用去 copy 代碼了,因為整個 workflow 已經(jīng)給爬下來了,訓(xùn)練的時候已經(jīng)在里面了。當你向模型提出請求時,它可以直接在其訓(xùn)練數(shù)據(jù)中檢索相關(guān)的代碼片段,根據(jù)上下文,再把變量名改一改,模型就做這種事。但它不是真的在寫代碼,我們?nèi)祟愐粋€小時還是能夠?qū)懗龊芏鄰?fù)雜的代碼的,所以我覺得模型還是沒有取代工科白領(lǐng)一個小時干的事情,更不用說更復(fù)雜的任務(wù)了。
最后一個是藍領(lǐng)階級,這反而是最難的,這里面唯一做的好的是自動駕駛。自動駕駛為什么這么出色?是因為路況相對來說是一個封閉的世界,比較穩(wěn)定,比如有些地方路況十年都不會改變,所以在封閉路況里面開車相對來說是比較簡單。雖然現(xiàn)在無人駕駛還沒有完全解決,但進步還是很大的。
路上的車多,每個車上都有傳感器,從而采集大量的數(shù)據(jù),基于大數(shù)據(jù)做技術(shù)開發(fā),比如特斯拉,車上有大量攝像頭,有很多車在路上跑,可以采集很多數(shù)據(jù)來優(yōu)化算法,而且路況變化不大。
但是正常的藍領(lǐng)需要做什么事情?端盤子、運貨等,AI 跟這個世界打交道是一件很難的事情。比如機器人進入一個房間,它要理解這個房間有什么東西其實很難。除非有技術(shù)突破,不然的話需要大量的數(shù)據(jù)作為輔助。這是一個雞生蛋蛋生雞的問題,如果房間內(nèi)沒有足夠的傳感器,就采集不了足夠的數(shù)據(jù),另一方面,一個房間里不可能有很多機器人進來,同樣也無法得到很多數(shù)據(jù),因而泛化能力不是很好。但是在物理世界投放 AI 機器人是一件很難的事情,可能需要很多年。所以 AI 理解藍領(lǐng)的世界,包括和這個世界互動可能需要至少 5 年時間。
所以簡單總結(jié)一下:
對于文科白領(lǐng)的工作,AI 已經(jīng)能完成簡單任務(wù),復(fù)雜任務(wù)需要繼續(xù)努力。對于工科白領(lǐng)的工作,簡單任務(wù)還需要努力,復(fù)雜任務(wù)存在困難。對于藍領(lǐng)的工作,除了無人駕駛和特定場景(比如工廠,場景變化不大,也能采集大量數(shù)據(jù)),AI 連簡單任務(wù)都做不了,完成復(fù)雜任務(wù)更難。
但是放眼整個世界,藍領(lǐng)是最主要的成員,因此技術(shù)對這個世界做出巨大的變革還需要很多年。未來 10 年、 20 年,大家還是有機會參與進來的。
對應(yīng)用來講,只要你能采集到足夠多的數(shù)據(jù),就可以被自動化?,F(xiàn)在 AI 面臨的困難是需要很多數(shù)據(jù)。一個行業(yè)如果能夠采集很多數(shù)據(jù),那么就能進行自動化。反過來,如果你讓模型完成一項任務(wù),首先考慮的是怎么樣采集很多數(shù)據(jù)。很多時候傳統(tǒng)企業(yè)會先把數(shù)據(jù)采集起來,數(shù)據(jù)積累好了,幾年之后才慢慢開始。所以這是一個發(fā)展規(guī)律,就這樣子,很多時候急也急不來。
創(chuàng)業(yè)一年半,李沐感悟
從這一年半的創(chuàng)業(yè)經(jīng)歷中我們學(xué)到了一些東西,一些更細節(jié)的東西。
預(yù)訓(xùn)練是工程問題,后訓(xùn)練才是技術(shù)問題
首先第一點:之前大家會覺得預(yù)訓(xùn)練很重要,比如訓(xùn)練一個幾百 B 參數(shù)的模型,現(xiàn)在在我看起來預(yù)訓(xùn)練是一個工程問題,后訓(xùn)練才是一個技術(shù)問題。但在兩年前預(yù)訓(xùn)練還是一個技術(shù)問題,現(xiàn)在我覺得變成工程問題了。對于后訓(xùn)練,高質(zhì)量的數(shù)據(jù)和改進的算法能夠極大地提升模型效果。高質(zhì)量的數(shù)據(jù)一定是結(jié)構(gòu)化的,并且與應(yīng)用場景高度相關(guān),以保證數(shù)據(jù)的多樣性和實用性。
在算法層面,OpenAI 提出了 RLHF,大家給予很高的評價。但當我看到這個算法時,我覺得這個算法有點牽強。這套技術(shù)在幾年之內(nèi)發(fā)生了非常大的變化。但到底哪個算法好,我也說不出來。原因在于每個人用的數(shù)據(jù)不一樣,導(dǎo)致算法所適用的場景不一樣。以至于你在讀一篇論文的時候,可能在論文中效果很好,但自己實際用時,發(fā)現(xiàn)根本用不了,原因在于用的數(shù)據(jù)不一樣,目標函數(shù)對這個結(jié)構(gòu)化問題的假設(shè)不一定對應(yīng)的上,導(dǎo)致算法不太行。這個問題沒辦法規(guī)避,就是一個技術(shù)問題,就得去做研發(fā)。
如 PPT 上的圖所示,我們拿 llama 3 70B 微調(diào)了一個模型,進行角色扮演(如老師、銷售等)。我們直接在 llama 3 base 的基礎(chǔ)上做后訓(xùn)練,微調(diào)了兩個版本 V1、V2,目前 V2 在角色扮演上優(yōu)于其他模型。
作為創(chuàng)業(yè)公司,我們沒有多少資金。LLAMA 團隊標注數(shù)據(jù)就花了 5, 000 萬美金,然后做訓(xùn)練,但是你會發(fā)現(xiàn)他們的數(shù)據(jù)并沒有變得多好,而且 Meta 也沒有花太多時間在算法上面。
做大語言模型的研究,你可以不去做預(yù)訓(xùn)練,你就做后面的一部分,因為后面部分其實對大家有利的。前面變成了一個工程問題,需要很多卡,很多人來完成,后面才是算法創(chuàng)新。雖然它的門檻還是比較高的,8B 和 70B 的情況也不一樣,8B 上調(diào)的很多東西在 70B 上不一定成立。
垂直模型也需要通用知識
第二個要講的是垂直模型,為什么要做垂直模型呢?因為通用模型的問題還是一個指數(shù)問題,你要實現(xiàn)的任務(wù),通用模型不一定能完成。就拿 OpenAI 來說,讓其模型進行角色扮演,可能迭代好幾代都不行,主要原因在于,它是一個通用維度,需要各個方面都有提升,如果剛好滿足你的要求,需要指數(shù)級的數(shù)據(jù),并且模型會變得很大。
所以要做垂直模型,這也是大家一年前公認的看法。但是我們花了很多時間發(fā)現(xiàn),這也是一個偽命題。
就是說沒有真正的垂直模型,就算是一個很垂直領(lǐng)域的模型,它的通用能力也是不能差的。比如說你要在某一個學(xué)科里面拿第一,你別的科目也不能差到哪里去。
評估很難,但很重要
還有就是做評估特別難,模型在實際場景中的應(yīng)用是一件非常復(fù)雜的事情,假如你用一個比較簡單的評估,是無法評估模型的好壞。所以過去一年多,大家都在不停的刷新榜單,但實際用起來,就覺得模型不太行,因為評估沒有到位,沒有真的去把實際場景那么復(fù)雜的應(yīng)用給評估進去。
所以很多時候,評估是你最重要的事情,先把評估做好,再去做別的事情。
我們現(xiàn)在是通過自然語言與模型進行交互,但自然語言有一定的二義性,自然語言很難評價其正確性、邏輯性和風(fēng)格。通常我們不想讓人來評估,因為比較昂貴,但使用模型評估會帶來偏差。有一個好的評估可以解決 50% 的問題。因為一旦評估解決了,那你就能夠進行優(yōu)化。第二評估解決了,表示你擁有了一些數(shù)據(jù)。
數(shù)據(jù)決定模型上限
還有數(shù)據(jù)問題。數(shù)據(jù)決定了模型的上限,算法決定了模型的下限。就目前來說,我們離 AGI 還很遠, AGI 能夠做自主的學(xué)習(xí),我們目前的模型就是填鴨式狀態(tài)。
目前看來 Claude 3.5 做的還不錯,一個相對來說不那么大的模型,能在各種榜單上優(yōu)于 GPT-4 ,并且在使用上確實還不錯。
在和他們交流后,我覺得他們的數(shù)據(jù)做得挺好,他們花了很大的力氣來做數(shù)據(jù),在數(shù)據(jù)上用了很多年。所以,想讓模型在某一個方面做得特別好,需要先把相關(guān)數(shù)據(jù)準備好。大家還是用了 70-80% 時間在數(shù)據(jù)上。
算力
還有算力,就是買 GPU,自建機房不會比租 GPU 便宜太多,原因是大頭被英偉達吃掉了, 英偉達的利潤是 90%。一塊卡是 3, 000 美金的成本,他賣你 3 萬塊錢,你不管誰去買,你跟他關(guān)系再好,他也不給你打折,它現(xiàn)在是一個奢侈品。
下圖是三年的費用占比,你會發(fā)現(xiàn),三年 GPU cost 占比達到 50%,所以剩下的再拼也意義不大。
我是從 Amazon 干了 7 年半才出來創(chuàng)業(yè),但我其實不用 Amazon 服務(wù),太貴了。我們都用小公司買來的,他們當年用來挖比特幣的。
你自己運營的話貴一點點。運營是個體力活, GPU 每天都壞,我們的機房放在多倫多,有三個人三班倒,壞了就跑過去把機器修一下。云當然還賺了一點錢,但也賺不多,有 20% 的利潤,所以在這一塊看上去是差不多的。
但自建的好處是能節(jié)省 CPU 的算力,以及你的存儲和網(wǎng)絡(luò)帶寬。這些方面,自建就很便宜,但云就會很貴,因為這塊在過去十年沒有太大技術(shù)變革。比如說我用 AWS,存一年的數(shù)據(jù)成本等價于我把存這個東西的硬件買回來,而且能夠容量變 10 倍。當你數(shù)據(jù)量增長很大的時候,自建是有意義的。
如果你去看語言模型,它就是一個機器學(xué)習(xí)模型,換了一個架構(gòu),只是更大了,帶來很多困難,但它本質(zhì)上還是可以用傳統(tǒng)的機器學(xué)習(xí)那一套去理解的。它還是吃數(shù)據(jù),評估還是很重要,所以很多之前的經(jīng)驗還是能用過來的。所以大家不一定要神化新的技術(shù)帶來什么東西。但是它的困難在于,它是之前的 100 倍大,模型變大就會變得很難,這是它目前主要的問題。
在預(yù)訓(xùn)練方面,我覺得現(xiàn)在已經(jīng)變成一個因為大而導(dǎo)致很多工程問題的困難,這其實還是算法上探索不夠,得清楚如何改進算法,以上是我們在技術(shù)上的一些分享。
李沐的打卡式人生
如果大家對 AI 沒那么感興趣的話,接下來,我講一講從上海交通大學(xué)畢業(yè)后,我都干了啥。
我真的干了很多亂七八糟的事情,可以說是過著「打卡式人生」,就連論文都是打卡式發(fā)論文。
我在上海交通大學(xué)待了近七年,又在香港科技大學(xué)待了兩年,后來去了 CMU 待了 5 年,在伯克利和斯坦福大學(xué)各待了 6 個月。
我也進過大公司,在百度待了兩年,在 Amazon 干了 7 年,這是我的第二個創(chuàng)業(yè)公司。
那么,這種轉(zhuǎn)來轉(zhuǎn)去到底是一種怎樣的體驗?去大公司、讀 PhD 和成立創(chuàng)業(yè)公司,目標都何不同?
從最基本的目標來說,去大公司,是為了升職加薪;讀 PhD ,你要保證自己能畢業(yè);而創(chuàng)業(yè)的目標是要能推出產(chǎn)品,要么上市,要么賣掉,這是每天都需要思考的。
然后就要考慮,你要干什么事情?
在大公司,你要解決問題。大家一定要想清楚:我要在公司干什么,公司今年準備干什么,最好兩者保持一致。如果干的事情是自己喜歡的,但不是公司追求的,這就會讓人很難受。
創(chuàng)業(yè)公司面臨很多問題,用戶會付錢嗎?投資人會付錢嗎?要是都沒人付錢就糟糕了。
雖然進大公司和創(chuàng)業(yè),都是解決問題,但解決的問題不太一樣。你想解決什么問題,就會導(dǎo)致你選擇做什么樣的事情。
還有一個就是驅(qū)動力,即最小的動機。
比如說,去大公司,你不要只想著家里沒礦,找個班上賺點工資。你的動機得高一點,不僅僅是為了賺那點錢。
成立創(chuàng)業(yè)公司的動機就要更高一點,不然你熬不下來。
打工人:晚上不用做噩夢,但逐漸成為螺絲釘
打工人的好處是,可以在一個相對簡單的環(huán)境里學(xué)習(xí)各種從業(yè)知識,比如一個技術(shù)如何落地、產(chǎn)品怎么做出來、怎么設(shè)計、怎么運營、怎么管理。
其次是干完被安排的任務(wù)后,晚上睡覺不用太擔心其他,不會做噩夢。
還有就是相對穩(wěn)定的收入和空余時間。要知道,買房、教育小孩,照顧父母,都需要耗費時間,而打工人相對來講時間較充裕,就算是 996,還是有一天可以休息,但其他兩個賽道(創(chuàng)業(yè)和讀 PhD)沒有 996,它們是 7X24。
那么打工人的壞處是什么?壞處就是停留在打工人或者職業(yè)經(jīng)理人的思維。
無論是公司還是學(xué)校,它們都創(chuàng)造了一個相對簡單的環(huán)節(jié)。學(xué)校是一個非常簡單的社會,公司也是如此,公司從最上層把整個復(fù)雜的世界抽象成簡單的任務(wù),待得越久,就越覺得自己是螺絲釘,當然螺絲釘?shù)暮锰幘褪牵灰业揭粋€螺母釘上去就行,不用管這個機器多么復(fù)雜,外面世界多么復(fù)雜,但你在一個簡化的世界里干得越久,就會覺得很膩,學(xué)的也越少,這就導(dǎo)致你一直停留在一個打工人或者職業(yè)經(jīng)理人的思維里,而不是站在一個更高更廣的層次去思考。
PhD:要真心熱愛研究,不然難以堅持
讀 PhD 的好處是,在幾年的時間里可以專心探索某一個領(lǐng)域,反正也沒錢賺,也沒有升職加薪的機會。
等完成 PhD 后,你可以獲得個人或者小團隊研發(fā)的能力,不少人可以自己哐哐哐做出東西來,也有些人可以去帶碩士生、本科生或者幾個人一起完成研發(fā)。
大家可能沒注意,PhD 有 50% 時間是花在寫作和演講上的,這種能力也很重要。
還有一個好處,很多公司的研發(fā)職位要求就是 PhD。
讀 PhD 的壞處是什么?
首先,很少有實驗室能參與大項目的研發(fā)。
其次是研究課題和導(dǎo)師風(fēng)格都很挑人,需要你去適應(yīng),這個適應(yīng)過程,要么看你的適應(yīng)能力有多好,要么看你導(dǎo)師的適應(yīng)能力有多好。你在公司里面還能夠部門之間跳一跳,但讀 PhD 就更難一些。
最后,要真的熱愛研究,不然堅持不下去,你會覺得研究這個東西到底有什么意義,寫這篇論文要干嘛。其實,你可以這樣想:我寫這篇文章就是為了練習(xí)寫作,等到更厲害、更大的成果做出來后,寫作不能給我拉后腿。你要有一個更遠大的目標,是真的熱愛它。
創(chuàng)業(yè):有「生死一瞬間」的刺激,也有「三小時醒一次」痛苦
創(chuàng)業(yè)好酷。好處是有當海盜的樂趣。
創(chuàng)業(yè)亦是如此。天天看市面上有什么東西,天天跟人聊有什么機會,機會來了是不是要 all in 搏一把,海盜太多,你不 all in ,機會就沒了,但 all in 了也可能會失敗,所以生死就在一瞬間,相當刺激,這種樂趣,你在別處無法體驗到,創(chuàng)業(yè)是唯一可以合法「當海盜」的方式。
創(chuàng)業(yè)還有一個好處,就是能直面這個復(fù)雜的社會,直接跟社會打交道,沒有人幫你做抽象,沒有人會幫你把事情想清楚,你得自己把這個社會理解清楚后,快速學(xué)習(xí)。越復(fù)雜的環(huán)境,越鍛煉你的抽象能力,你要對這個世界做抽象,把一些很復(fù)雜的現(xiàn)象做簡單。
創(chuàng)業(yè)還是一個最好的歷經(jīng)苦難的方法。創(chuàng)業(yè)之后,你會發(fā)現(xiàn),做別的事情都相對簡單。
創(chuàng)業(yè)不好的地方就是嬰兒般的睡眠,每三個小時醒一次,懷疑自己是不是快混不下去了。為此,我還問過很多人,包括張一鳴,以及世界首富級別的人,向他們?nèi)〗?jīng)。
所有的困難都在你頭上,沒人幫你頂。你在學(xué)校導(dǎo)師可以給你頂一頂,你在公司上級可以給你頂一頂,當然你也可能給他背黑鍋,但很多時候上級會幫你背鍋。而創(chuàng)業(yè)則是所有困難壓在你一人身上,逃避沒用,你逃避它,就可能解決不了它,最終就邁不過那個坎。因此,你得很熱愛你的創(chuàng)業(yè)方向,不一定熱愛創(chuàng)業(yè),但要熱愛創(chuàng)業(yè)做的這個事情,不然你堅持不下來。
為什么我之前說創(chuàng)業(yè)要求的動機要比 PhD 更高一點,PhD 的動機要比工作更高一點,核心原因就在于,你會有一個延遲享受。在公司,一個事情干完就會發(fā)獎金或者被表揚;PhD 做一個研究可能要一兩年;創(chuàng)業(yè)可能要 5 年, 5 年之后才能得到正反饋。你在沒有任何正反饋的情況下,你就得很熱愛這個事情,得給自己加碼,讓自己嗨起來。
強烈的動機,來自欲望和恐懼
你要有一個強烈的動機,而強烈的動機要么來自很深沉、很底層的欲望,要么來自很深的恐懼。
你用旁觀者的角度來剖析一下自己,你最不愿意回憶或者分享的是什么,再去想一下這背后的動機,是想要什么還是怕什么?
欲望是越底層越好,名、利、權(quán),都是底層的欲望,要直面自己的欲望,也要直面自己的恐懼,這種恐懼是可以讓你抑郁的恐懼,也是讓你感受到生死的恐懼。
你需要把欲望和恐懼轉(zhuǎn)變成積極向上的動機,這一點很重要,你的動機一定是正確的,符合價值觀的,因為逃避、放縱滿足不了欲望,也緩解不了恐懼,唯一克服它的辦法是,把它變成一個積極向上、符合社會價值的一個動機。
有了動機之后就得想,我要解決什么問題,你的問題可能就是你的動機本身。
如果這個問題有學(xué)術(shù)價值,你可以考慮去讀 PhD;如果這個問題有商業(yè)價值,你可以考慮去創(chuàng)業(yè);如果以上兩種屬性都不夠強烈,但至少有成長價值,那先做做打工人也未嘗不可。
舉個例子,語言模型為什么能 work?沒人知道,這是一個很有學(xué)術(shù)價值的東西。語言模型能不能孵化出新的應(yīng)用?這是商業(yè)價值上的問題。實在不行的話,也可以思考語言模型在某個產(chǎn)品上如何落地。
一個持續(xù)提升自我的妙招
最后,我想分享一個持續(xù)提升自我的方法。
你用導(dǎo)師或者上級的角度去總結(jié)自己:你每周干了哪些事情?為什么這些目標沒達成?
可能是因為懶,那么你得直面懶的問題。我怎么能讓自己勤奮一點?找一個學(xué)習(xí)伙伴,每天在圖書館待著,要大家相互監(jiān)督等。
還有可能是因為蠢,這就有兩種解決方案。一種是換一個方向,去擅長的領(lǐng)域;一種是既然繞不開,那就花別人兩倍的時間。
無論是因為懶還是蠢,你都得對自己狠,最后拼的就是你對自己有多狠。
你要形成一個習(xí)慣,定個鬧鐘,每周一晚上花 30 分鐘對自己進行總結(jié),每個季度要總結(jié),翻看之前你的寫的周記,看看這個季度的目標是否完成,下個季度要做什么。
選擇比努力更重要,但選擇的前提是搞清楚你的目標是什么。
此外,每年或者每五年你都得想一想自己的動機是什么?如果覺得去年不開心,沒有做出什么成果,你就要思考一下,是不是你沒有強烈的動機,或者時機不夠成熟。
要是因為時機不到,你就繼續(xù)努力,如果是動機不對,那你就考慮換一個努力的方向。
反正我每 5 年都會想一想,我動機是什么?我接下來要干什么?但這有個 bug ,就是我什么地方都逛了一圈,活成了「打卡式人生」。
這是一個最好的時代,新的技術(shù)帶來了很多新的機會,就算沒有新一代技術(shù)出現(xiàn),現(xiàn)有的技術(shù)對世界未來幾年的影響都會非常大。這不是我一個人的看法,很多世界 500 強 CEO 也這么認為,他們內(nèi)部的很多數(shù)據(jù)都驗證了這一觀點。因此,大家不管是讀本科、碩士、還是 PhD,甚至剛工作,都能享受到未來幾年技術(shù)帶來的變革。
同時,這也是一個最壞的時代,在座的各位付出的努力要比上一代更多。上一代吃到了時代紅利,而到了你們這一代,時代紅利還是有的,只是需要付出更多努力。
原視頻鏈接:https://www.bilibili.com/video/BV175WQeZE7Z/?spm_id_from=333.337.search-card.all.click
根據(jù) B 站用戶@考拉klkl上傳的視頻整理,感謝這位同學(xué)的錄制。