70年AI研究得出了《苦澀的教訓(xùn)》:為什么說AI創(chuàng)業(yè)也在重復(fù)其中的錯(cuò)誤?
Scaling Laws 是否失靈,這個(gè)話題從 2024 年年尾一直討論至今,也沒有定論。
Ilya Sutskever 在 NeurIPS 會(huì)上直言:大模型預(yù)訓(xùn)練這條路可能已經(jīng)走到頭了。上周的 CES 2025,黃仁勛有提到,在英偉達(dá)看來(lái),Scaling Laws 仍在繼續(xù),所有新 RTX 顯卡都在遵循三個(gè)新的擴(kuò)展維度:預(yù)訓(xùn)練、后訓(xùn)練和測(cè)試時(shí)間(推理),提供了更佳的實(shí)時(shí)視覺效果。
而這一切的思考,都可以追溯到「RL 之父」 Rich Sutton 在 2019 年發(fā)表的經(jīng)典短文 The Bitter Lesson 《苦澀的教訓(xùn)》。
Y Combinator 校友日上,Andon Labs 的 CEO 兼聯(lián)合創(chuàng)始人 Lukas Petersson 聽完 100 多個(gè)項(xiàng)目路演后寫下了一個(gè)有趣的觀察:《苦澀的教訓(xùn)》中所寫的 AI 研究歷史似乎正在 AI 創(chuàng)業(yè)界重演。
研究人員曾一次又一次試圖通過精巧的工程設(shè)計(jì)來(lái)提升性能,但最終都敗給了簡(jiǎn)單粗暴的「加大算力」方案。
而今天,AI 產(chǎn)品的開發(fā)者們,似乎正在重走這條老路。
機(jī)器之心在不改變博客原意的基礎(chǔ)上進(jìn)行了編譯。
如果覺得博客太長(zhǎng),核心內(nèi)容已經(jīng)總結(jié)好了:
- 歷史證明,通用方法總是在 AI 領(lǐng)域勝出;
- 當(dāng)下 AI 應(yīng)用領(lǐng)域的創(chuàng)業(yè)者正在重蹈 AI 研究者過去的覆轍;
- 更強(qiáng)大的 AI 模型將催生通用型 AI 應(yīng)用,同時(shí)也會(huì)削弱 AI 模型「套殼」軟件的附加價(jià)值。
AI 技術(shù)的飛速發(fā)展帶來(lái)了一波又一波新產(chǎn)品。在 YC 校友演示日上,我見證了 100 多個(gè)創(chuàng)業(yè)項(xiàng)目的路演。這些項(xiàng)目都有一個(gè)共同點(diǎn):它們瞄準(zhǔn)的都是施加了各種限制和約束的 AI 解決的簡(jiǎn)單問題。
AI 真正的價(jià)值在于它能靈活處理各類問題。給 AI 更多自由度通常能帶來(lái)更好的效果,但現(xiàn)階段的 AI 模型還不夠穩(wěn)定可靠,所以還無(wú)法大規(guī)模開發(fā)這樣的產(chǎn)品。
這種情況在 AI 發(fā)展史上反復(fù)出現(xiàn)過,每次技術(shù)突破的路徑都驚人地相似。如果創(chuàng)業(yè)者們不了解這段歷史教訓(xùn),恐怕要為這些經(jīng)驗(yàn)「交些學(xué)費(fèi)」。
2019 年,AI 研究泰斗 Richard Sutton 在他那篇著名的《苦澀的教訓(xùn)》開篇提到:
「70 年的 AI 研究歷史告訴我們一個(gè)最重要的道理:依靠純粹算力的通用方法,最終總能以壓倒性優(yōu)勢(shì)勝出?!?/span>
這篇文章標(biāo)題里的「苦澀」二字,正是來(lái)自那些精心設(shè)計(jì)的「專家系統(tǒng)」最終都被純靠算力支撐的系統(tǒng)打得落花流水。這個(gè)劇情在 AI 圈一演再演 —— 從語(yǔ)音識(shí)別到計(jì)算機(jī)象棋,再到計(jì)算機(jī)視覺,無(wú)一例外。
如果 Sutton 今天重寫《苦澀的教訓(xùn)》,他一定會(huì)把最近大火的生成式 AI 也加入這份「打臉清單」,提醒我們:這條鐵律還未失效。
同在 AI 領(lǐng)域,我們似乎還沒有真正吸取教訓(xùn),因?yàn)槲覀內(nèi)栽谥貜?fù)同樣的錯(cuò)誤......
我們必須接受這個(gè)殘酷的現(xiàn)實(shí):在 AI 系統(tǒng)中,強(qiáng)行植入我們認(rèn)為的思維方式,從長(zhǎng)遠(yuǎn)來(lái)看注定失敗。這個(gè)「苦澀的教訓(xùn)」源于以下觀察:
1.AI 研究者總想把人類的知識(shí)經(jīng)驗(yàn)塞進(jìn) AI
2. 這招短期確實(shí)管用,還能讓研究者有成就感
3. 但遲早會(huì)遇到瓶頸,甚至阻礙 AI 的進(jìn)步
4. 真正的突破往往出人意料 —— 就是簡(jiǎn)單地加大計(jì)算規(guī)模
站在 AI 研究者的角度,得到了《苦澀的教訓(xùn)》,意味著在總結(jié)教訓(xùn)的過程中明確了什么是「更好」的。對(duì)于 AI 任務(wù),這很好量化 —— 下象棋就看贏棋概率,語(yǔ)音識(shí)別就看準(zhǔn)確率。對(duì)于本文討論的 AI 應(yīng)用產(chǎn)品,「更好」不僅要看技術(shù)表現(xiàn),還要考慮產(chǎn)品性能和市場(chǎng)認(rèn)可度。
從產(chǎn)品性能維度來(lái)看,即產(chǎn)品能在多大程度上取代人類的工作。性能越強(qiáng),就能處理越復(fù)雜的任務(wù),創(chuàng)造的價(jià)值自然也就越大。
圖 1. 展示了不同類型的 AI 產(chǎn)品,本文主要討論應(yīng)用層
AI 產(chǎn)品通常是給 AI 模型加一層軟件包裝。因此,要提升產(chǎn)品性能,有兩條路徑:
1. 工程升級(jí):在軟件層面利用領(lǐng)域知識(shí)設(shè)置約束
2. 模型升級(jí):等待 AI 實(shí)驗(yàn)室發(fā)布更強(qiáng)大的模型
這兩條路看似都可行,但在此有個(gè)重要洞察:隨著模型性能提升,優(yōu)化工程的價(jià)值在不斷下降。
現(xiàn)階段,軟件端的設(shè)計(jì)確實(shí)能提升產(chǎn)品表現(xiàn),但這只是因?yàn)楫?dāng)前模型還不夠完善。隨著模型變得更可靠,只需要將模型接入軟件就能解決大多數(shù)問題了 —— 不需要復(fù)雜的的工程。
圖 2. 投入工程的價(jià)值會(huì)隨著投入增加和更強(qiáng)大模型的出現(xiàn)而遞減。
上圖展示了一個(gè)趨勢(shì):隨著 AI 模型的進(jìn)步,工程帶來(lái)的價(jià)值將逐漸減少。雖然當(dāng)前的模型還有明顯不足,企業(yè)仍能通過工程投入獲得可觀回報(bào)。
這一點(diǎn)在 YC 校友演示日上表現(xiàn)得很明顯。創(chuàng)業(yè)公司主要分為兩類:第一類是已經(jīng)實(shí)現(xiàn)規(guī)?;漠a(chǎn)品,專注解決簡(jiǎn)單問題,但數(shù)量還不多;第二類則瞄準(zhǔn)了相對(duì)復(fù)雜的問題。后者目前發(fā)展勢(shì)頭不錯(cuò),因?yàn)樗麄兊母拍铗?yàn)證證明:只要在工程上下足功夫,就能達(dá)到預(yù)期目標(biāo)。
但這些公司面臨一個(gè)關(guān)鍵問題:下一個(gè)模型發(fā)布會(huì)不會(huì)讓所有工程上的都成為無(wú)用功,摧毀他們的競(jìng)爭(zhēng)優(yōu)勢(shì)?OpenAI 的 o1 模型發(fā)布就很好地說明了這個(gè)風(fēng)險(xiǎn)。
我和很多 AI 應(yīng)用層的創(chuàng)業(yè)者聊過,他們都很擔(dān)心,因?yàn)樗麄兺度肓舜罅烤?lái)完善提示詞。有了 o1 后,提示詞工程的重要性就大大降低了。
從本質(zhì)上講,這種工程的目的是為了約束 AI 少犯錯(cuò)誤。通過觀察眾多產(chǎn)品,可以概括為兩類約束:
- 專業(yè)性:衡量產(chǎn)品的聚焦程度。垂直型產(chǎn)品專注于解決特定領(lǐng)域的問題,配備了專門的軟件包裝;而水平型產(chǎn)品則更通用,能處理多種不同類型的任務(wù)。
- 自主性:衡量 AI 的獨(dú)立決策能力。在此借鑒一下 Anthropic 的分類:
1. 工作流:AI 按預(yù)設(shè)路徑運(yùn)行,使用固定的工具和流程
2. 智能體:AI 可以自主選擇工具和方法,靈活決策如何完成任務(wù)
這就規(guī)定了一個(gè) AI 產(chǎn)品的分類框架:
表 1. 對(duì)知名 AI 產(chǎn)品的分類。需要注意的是,ChatGPT 可能每次對(duì)話都會(huì)遵循預(yù)先設(shè)定的代碼路徑,因此更像工作流而非智能體。
以商業(yè)分析師制作路演 PPT 為例,看看每類產(chǎn)品如何實(shí)現(xiàn)這個(gè)任務(wù):
- 垂類工作流:它按固定步驟執(zhí)行任務(wù),比如,先用 RAG 查詢公司數(shù)據(jù)庫(kù),小型 LLM 做總結(jié),大型 LLM 提取關(guān)鍵數(shù)據(jù)并計(jì)算,檢查數(shù)據(jù)合理性后寫入幻燈片,最后生成演示文稿。每次都嚴(yán)格遵循這個(gè)流程。
- 垂類智能體:LLM 能自主決策,循環(huán)工作:用上一步的結(jié)果指導(dǎo)下一步行動(dòng),雖然可用工具相同,但由 AI 自己決定何時(shí)使用。直到達(dá)到質(zhì)量標(biāo)準(zhǔn)才停止。
- 通用工作流:像 ChatGPT 這樣的通用工具只能完成部分任務(wù),既不夠?qū)I(yè)也不夠自主,無(wú)法完整處理整個(gè)工作流程。
- 水平智能體:如 Claude computer-use,能像人一樣操作常規(guī)辦公軟件。分析師只需用自然語(yǔ)言下達(dá)指令,它就能根據(jù)實(shí)際情況靈活調(diào)整工作方法。
這很好理解 —— 當(dāng)前的 AI 模型還不夠成熟,只能用這種方式才能達(dá)到可用水平。結(jié)果就是,即使是過于復(fù)雜的問題,創(chuàng)業(yè)者們也不得不硬塞進(jìn)這個(gè)框架,因?yàn)檫@是目前唯一能讓產(chǎn)品勉強(qiáng)可用的方法。
雖然通過工程優(yōu)化可以提升這些產(chǎn)品,但提升空間有限。對(duì)于當(dāng)前模型難以處理的問題,與其投入大量工程資源,不如等待更強(qiáng)大的模型出現(xiàn) —— 到時(shí)只需很少的工程就能解決問題。
正如 Leopold Aschenbrenner 在《Situational Awareness》中所指出的:「完善這些繁瑣的工程,可能比等待更強(qiáng)大的模型還要耗時(shí)。」
這不禁讓人聯(lián)想起《苦澀的教訓(xùn)》:AI 研究者反復(fù)嘗試用工程手段提升性能,最終卻總是被簡(jiǎn)單堆砌算力的通用方案超越。今天的 AI 產(chǎn)品開發(fā)似乎正在重蹈覆轍。
把表 1 的內(nèi)容和《苦澀的教訓(xùn)》聯(lián)系起來(lái)之后,這樣能更清楚地看到其中的關(guān)聯(lián):
總而言之,我的觀點(diǎn)是:試圖用軟件工程來(lái)彌補(bǔ)當(dāng)前 AI 模型的不足,似乎是一場(chǎng)注定失敗的戰(zhàn)斗,尤其是考慮到模型進(jìn)步的驚人速度。
正如 YC 合伙人 Jarred 在 Lightcone 播客中所說:「第一波基于固定流程的 AI 應(yīng)用,大多被新一代 GPT 模型淹沒了?!?/span>
Sam Altman 常說,要打造那種期待而不是害怕新模型發(fā)布的創(chuàng)業(yè)公司。我遇到的很多 AI 創(chuàng)業(yè)者對(duì)新模型都很興奮,但從他們公司的利益看,這種興奮可能不太合適。
從統(tǒng)計(jì)學(xué)角度理解《苦澀的教訓(xùn)》
讓我們用簡(jiǎn)單的統(tǒng)計(jì)學(xué)來(lái)理解這個(gè)道理。在做模型時(shí),通常要面臨一個(gè)選擇:要么做一個(gè)規(guī)則很死板的模型(高偏差),要么做一個(gè)靈活但不太穩(wěn)定的模型(高方差)?!犊酀慕逃?xùn)》告訴我們:選靈活的。
究其原因,因?yàn)橹灰凶銐虻乃懔蛿?shù)據(jù),靈活的模型最終也能變得很穩(wěn)定。就像打籃球,就算姿勢(shì)不標(biāo)準(zhǔn),練得多了也能投準(zhǔn)。但反過來(lái)就不行了,太死板的方法會(huì)被自己的規(guī)則限制住。
這跟 AI 產(chǎn)品是一個(gè)道理。做垂直領(lǐng)域的工具,加各種限制,就像給 AI 加規(guī)則,現(xiàn)在看起來(lái)更穩(wěn)定,但限制了它的潛力。相反,讓 AI 更自由一點(diǎn)雖然現(xiàn)在看著不太靠譜,但隨著模型越來(lái)越強(qiáng),它反而能找到更好的辦法。歷史一再證明,跟靈活性對(duì)著干是不明智的。
兩種做 AI 的方法
圖 1:對(duì)比了兩種方法。傳統(tǒng)機(jī)器學(xué)習(xí)需要人工來(lái)告訴機(jī)器「什么是重要的」,深度學(xué)習(xí)則能自己學(xué)會(huì)。
傳統(tǒng)機(jī)器學(xué)習(xí)需要人來(lái)決定什么信息重要。比如給一張圖片,你得手動(dòng)找出有用的特征,數(shù)一數(shù)有多少個(gè)圓形,測(cè)量一下各種尺寸等等。但深度學(xué)習(xí)不同,它能自己學(xué)會(huì)找重要的東西。
圖 2:比如自動(dòng)駕駛。系統(tǒng)要識(shí)別和跟蹤車輛、行人、車道線等具體物體。這就是分解復(fù)雜問題的傳統(tǒng)方法。
以自動(dòng)駕駛來(lái)說,你有兩種方式:
1. 老方法:把車看到的東西分解:前面的車在哪,車道線在哪,那個(gè)人跑多快?
2. 新方法:直接把視頻扔給 AI,讓它自己學(xué)會(huì)開車。
老方法看著更靠譜,更有把握。所以早期的 AI 都這么干。但正如 George Hotz 所說:「AI 的歷史告訴我們,老方法最后總會(huì)被新方法打敗?!?/span>
圖 3:DeepMind 研究員 Sholto Douglas:就像其他所有深度學(xué)習(xí)系統(tǒng)一樣,押注端到端就對(duì)了
作者簡(jiǎn)介
博客作者為 Lukas Petersson。今年 26 歲的他于去年從隆德大學(xué)畢業(yè),拿下了工程物理和數(shù)學(xué)雙碩士學(xué)位。
雖然年輕,但他的經(jīng)歷可謂豐富多彩:
現(xiàn)在他是 Andon Labs 的 CEO 兼聯(lián)合創(chuàng)始人,專注 AI 安全評(píng)估和大語(yǔ)言模型研究。此前,他曾在 Google 實(shí)習(xí),曾在 Disney Research 開發(fā)病毒式機(jī)器人,還曾參與探空火箭發(fā)射項(xiàng)目,擔(dān)任項(xiàng)目主要負(fù)責(zé)人。