生成式AI進(jìn)入第二幕:交大攜手創(chuàng)智學(xué)院提出「認(rèn)知工程」,AI新紀(jì)元開始了
第二幕將催生一種全新的專業(yè):認(rèn)知工程師 (Cognitive Engineers)— 專注于將人類或 AI 在各領(lǐng)域的深度認(rèn)知提煉、結(jié)構(gòu)化并轉(zhuǎn)化為 AI 可學(xué)習(xí)的形式。
無論你是技術(shù)創(chuàng)造者還是使用者,理解這場(chǎng)認(rèn)知革命都至關(guān)重要。我們正在從「AI as tools」向「AI as thinking partners」轉(zhuǎn)變,這不僅改變了技術(shù)的能力邊界,也改變了我們與技術(shù)協(xié)作的方式。
一、生成式 AI 的第一幕:輝煌與局限
第一幕取得的輝煌成就
2022 年末,ChatGPT 橫空出世,引發(fā)了一場(chǎng)席卷全球的 AI 革命。這場(chǎng)革命之所以深刻,正如比爾?蓋茨所言:「人生中讓我印象深刻的兩次技術(shù)革命演示,一次是現(xiàn)在操作系統(tǒng)的先驅(qū)『圖形用戶界面』,另一個(gè)就是以 ChatGPT 為代表的生成式人工智能技術(shù)?!股墒?AI 的出現(xiàn)不僅改變了我們與計(jì)算機(jī)交互的方式,更重塑了我們對(duì)人工智能能力邊界的認(rèn)知。
從文本到代碼,從圖像到視頻,生成式 AI 展現(xiàn)了令人驚嘆的創(chuàng)造力。如今,你只需輸入一句簡(jiǎn)單的指令,就能讓 AI 生成「兩艘海盜船在一杯咖啡中航行時(shí)相互爭(zhēng)斗的逼真特寫視頻」;你可以向它提出復(fù)雜的編程需求,它會(huì)為你編寫完整的代碼;你甚至可以請(qǐng)它以莎士比亞的風(fēng)格撰寫一篇關(guān)于量子物理學(xué)的論文。這些曾經(jīng)只存在于科幻小說中的場(chǎng)景,如今已成為我們?nèi)粘I畹囊徊糠?。生成?AI 正在實(shí)現(xiàn)一種前所未有的民主化,讓高級(jí)智能服務(wù)不再局限于技術(shù)精英,而是向每個(gè)人敞開大門。
在過去的兩年里,我們經(jīng)歷了生成式 AI 的第一幕(2024 年 9 月前):以大規(guī)模預(yù)訓(xùn)練和提示工程為基礎(chǔ),實(shí)現(xiàn)了知識(shí)的高效存儲(chǔ)和檢索。這一階段的技術(shù)基礎(chǔ)建立在兩大核心支柱上:生成式預(yù)訓(xùn)練(Generative Pretraining)作為數(shù)據(jù)存儲(chǔ)機(jī)制,將世界知識(shí)壓縮到神經(jīng)網(wǎng)絡(luò)參數(shù)中;以及提示工程(Prompting Engineering)作為知識(shí)讀取方式,而且是通過人類最擅長(zhǎng)的自然語言交互提取這些知識(shí)。
在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上,第一幕 AI 取得了顯著進(jìn)步。以 MMLU(大規(guī)模多任務(wù)理解測(cè)試)為例,從 2019 年到 2024 年,頂尖模型的性能從人類水平以下迅速攀升至超過 90% 的準(zhǔn)確率,超越了人類表現(xiàn)。這些基準(zhǔn)測(cè)試涵蓋各種知識(shí)領(lǐng)域和任務(wù)類型,從常識(shí)推理到專業(yè)知識(shí),從語言理解到問題解決,AI 模型在幾乎所有領(lǐng)域都展現(xiàn)出了驚人的進(jìn)步。
第一幕的根本局限
然而,隨著我們對(duì)生成式 AI 的深入應(yīng)用,第一幕的根本局限也日益凸顯,尤其在復(fù)雜推理能力方面的不足。
推理能力的短板最為突出。以 AIME(美國(guó)高中數(shù)學(xué)競(jìng)賽)為例,即使是最先進(jìn)的模型如 Qwen-2.5-Math,在面對(duì) 2024 年 AIME 的 30 道題目時(shí),也只能正確回答 9-13 道。這表明,在需要深度數(shù)學(xué)推理的任務(wù)上,第一幕 AI 仍然與人類專家有明顯差距。
同樣,在 OS World Benchmark (評(píng)估 AI 操作電腦完成任務(wù)的能力) 等測(cè)試中,這些模型在使用計(jì)算機(jī)完成復(fù)雜任務(wù)時(shí)表現(xiàn)不佳。此類任務(wù)需要長(zhǎng)鏈規(guī)劃、工具使用和環(huán)境交互,而現(xiàn)有模型往往難以維持連貫的長(zhǎng)期計(jì)劃和適應(yīng)動(dòng)態(tài)環(huán)境變化。
第一幕 AI 模型在這些復(fù)雜推理任務(wù)上的表現(xiàn)遠(yuǎn)遠(yuǎn)落后于其在文本理解等方面的成就。即使是 GPT-4o 這樣的頂尖模型,在需要深度思考的場(chǎng)景中仍然困難重重。
除了推理能力的短板外,第一幕 AI 還存在知識(shí)更新滯后的問題。模型的知識(shí)截止于其訓(xùn)練數(shù)據(jù)的時(shí)間點(diǎn),無法自動(dòng)獲取最新信息。這導(dǎo)致在快速變化的領(lǐng)域中,模型提供的信息可能已經(jīng)過時(shí)或不準(zhǔn)確。
最根本的局限是深度思考能力的缺失。第一幕的模型更像是一個(gè)知識(shí)管理工具,善于檢索和整合已有信息,但難以進(jìn)行真正的創(chuàng)造性思考或處理前所未見的復(fù)雜問題。它們無法像人類那樣進(jìn)行長(zhǎng)時(shí)間的深度思考,無法在思考過程中識(shí)別錯(cuò)誤并調(diào)整方向,也無法連接遠(yuǎn)距離的知識(shí)點(diǎn)形成新的見解。我們需要一個(gè)會(huì)深度思考的模型!
為什么(思考)推理能力如此重要?正如某位 OpenAI 科學(xué)家:「任何要完成的工作都會(huì)遇到障礙,而讓你繞過這些障礙的是你的推理能力?!?在實(shí)際應(yīng)用場(chǎng)景中,推理能力的重要性表現(xiàn)在多個(gè)方面:
- 數(shù)理推理:從證明數(shù)學(xué)定理到解決物理問題,強(qiáng)大的推理能力是科學(xué)研究的基礎(chǔ)。
- 工具調(diào)用:在處理「白酒和新能源推薦更有潛力的一支股票」這類請(qǐng)求時(shí),模型需要理解查詢意圖,分解為子任務(wù),調(diào)用適當(dāng)工具,并整合信息給出合理建議。
- 智能體規(guī)劃:執(zhí)行「幫我下單一款蘋果去年 3 月份新出的手機(jī)」等任務(wù)時(shí),需要理解時(shí)間線索,識(shí)別產(chǎn)品,了解購買流程,并執(zhí)行多步操作。
- 更復(fù)雜場(chǎng)景:如 Deep Research(深度研究)、Computer Use(計(jì)算機(jī)使用)和 Codebase-Level Reasoning(代碼庫級(jí)推理)等任務(wù),都需要模型具備持續(xù)、連貫的推理能力和適應(yīng)性思考。
第一幕技術(shù)的總結(jié)
第一幕 AI 的推理局限引發(fā)了一個(gè)關(guān)鍵問題:僅通過預(yù)訓(xùn)練擴(kuò)展能否實(shí)現(xiàn)復(fù)雜推理?行業(yè)內(nèi)已形成共識(shí)認(rèn)為「預(yù)訓(xùn)練將要結(jié)束」,「僅通過預(yù)訓(xùn)練無法實(shí)現(xiàn) AGI」。通用 LLM 已在普通用戶需求領(lǐng)域趨于飽和,而前沿創(chuàng)新領(lǐng)域仍存在巨大的提升空間。
這種現(xiàn)象表明,我們遇到了預(yù)訓(xùn)練擴(kuò)展的瓶頸。盡管投入更多數(shù)據(jù)和計(jì)算資源,模型在推理能力上的提升卻日漸減緩。我們需要一種根本性的范式轉(zhuǎn)變,而不僅僅是對(duì)現(xiàn)有方法的量化擴(kuò)展。
總結(jié)第一幕的生成式 AI,我們可以看到其技術(shù)基礎(chǔ)是預(yù)訓(xùn)練和微調(diào)的結(jié)合。這一階段的 AI 模型:
- 能力特點(diǎn):掌握海量已有知識(shí),處理日常高頻任務(wù),完成簡(jiǎn)單推理
- 局限性:知識(shí)更新滯后,難以深度思考,推理能力有限
正是這些局限促使我們轉(zhuǎn)向生成式 AI 的第二幕 —— 認(rèn)知工程。我們需要一個(gè)真正會(huì)深度思考的模型,而不僅僅是一個(gè)高效的知識(shí)檢索工具。第二幕的到來,標(biāo)志著 AI 從知識(shí)管理向認(rèn)知管理的跨越,從信息處理向思維模擬的進(jìn)化。這一轉(zhuǎn)變將如何實(shí)現(xiàn)?它又將帶來怎樣的革命性變化?這正是我們接下來要探討的內(nèi)容。
二、生成式 AI 的第二幕
在生成式 AI 的發(fā)展歷程中,我們正跨入一個(gè)激動(dòng)人心的新階段 —— 第二幕:認(rèn)知工程。這一轉(zhuǎn)變不僅僅是技術(shù)的迭代,更是 AI 能力本質(zhì)的重新定義。那么,什么是認(rèn)知工程?它與第一幕的知識(shí)工程有何本質(zhì)區(qū)別?為什么它會(huì)在此時(shí)出現(xiàn)?這些問題將成為我們理解 AI 未來發(fā)展的關(guān)鍵。
最近,上海交通大學(xué)聯(lián)合創(chuàng)智學(xué)院,耗時(shí)超過半年,創(chuàng)建了教科書級(jí)別的長(zhǎng)達(dá) 76 的文章(并提供了雙語版本),首次提出:「認(rèn)知工程」的概念:認(rèn)為生成式 AI 發(fā)展已進(jìn)入第二幕,從原來的以預(yù)訓(xùn)練技術(shù)為核心的提示詞工程 (Prompt engineering) 轉(zhuǎn)變?yōu)橐?Test-Time scaling 為核心的認(rèn)知工程 (Cognition Engineering),結(jié)合 400 多篇論文和最新的研究工作全景式介紹了 Test-time scaling 技術(shù)驅(qū)動(dòng)下的范式變革。
- 論文標(biāo)題:Generative AI Act II: Test Time Scaling Drives Cognition Engineering
- 英文論文地址:https://arxiv.org/pdf/2504.13828
- 中文論文地址:https://github.com/GAIR-NLP/cognition-engineering/blob/main/assets/Cognition_Engineering_zh.pdf
- 代碼地址:https://github.com/GAIR-NLP/cognition-engineering
圖:提示工程使人類首次通過自然語言與 AI 實(shí)現(xiàn)對(duì)話級(jí)交流;如今,認(rèn)知工程則通過基于語言的思想,建立起我們與 AI 之間首次思維層面的連接 —— 宛如意識(shí)之間的直接對(duì)接。
這篇工作提供了什么?
該文章全面介紹了生成式 AI 發(fā)展第二幕的特點(diǎn)、技術(shù)手段、應(yīng)用前景、未來方向,并努力讓不同的人群都有所收獲,包括但不限于:
- 作為 AI 研究人員,您是否正在尋找突破大型語言模型當(dāng)前瓶頸的新研究方向,尋找下一個(gè) Scaling Law?
- 作為 AI 應(yīng)用工程師,您是否需要一個(gè)更加實(shí)戰(zhàn)經(jīng)驗(yàn)的教程指導(dǎo)你如何把 Test-time Scaling 應(yīng)用到你的應(yīng)用場(chǎng)景里?
- 作為數(shù)據(jù)工程師,您是否想了解大模型第二幕下什么樣的數(shù)據(jù)更加寶貴(即數(shù)據(jù)工程 2.0)?
- 作為學(xué)生或 AI 新手,您是否希望有一個(gè)系統(tǒng)性框架來理解「認(rèn)知工程」和「Test-time Scaling」的概念和應(yīng)用以及「傻瓜式」的入門代碼教程?RL Scaling 的訓(xùn)練技巧太多,如何系統(tǒng)性的整理?
- 作為教育工作者,您是否需要結(jié)構(gòu)化的教學(xué)資源來解釋「Test-time Scaling」?
- 作為投資者或決策者,您是否想了解生成式 AI 已進(jìn)入的新階段, 通過「第一 / 二幕」框架獲得強(qiáng)化視野,提供深度的認(rèn)知洞察?
特別的,該文章提供了如下的系統(tǒng)化資源:
- 如何在特定領(lǐng)域應(yīng)用 Test-time scaling 的工作流程圖總結(jié),以及數(shù)學(xué)、代碼、多模態(tài)、智能體、具身智能、安全對(duì)齊、檢索增強(qiáng)生成、評(píng)估等多個(gè)領(lǐng)域的應(yīng)用范例。
- 提高 Test-time scaling 的擴(kuò)展效率方法的全面總結(jié),涉及并行采樣、樹搜索、多輪修正、長(zhǎng)思維鏈等主流的 Test-time scaling 技術(shù)。
- 如何利用強(qiáng)化學(xué)習(xí)技術(shù)激發(fā)大模型長(zhǎng)思維鏈能力,包括代碼教程、工作總結(jié)、訓(xùn)練問題的常見應(yīng)對(duì)策略。
- 不同領(lǐng)域的長(zhǎng)思維鏈資源匯總。
- Test-Time scaling 前沿持續(xù)追蹤。
- ...
三、深度解讀三大擴(kuò)展定律(Scaling Laws)
預(yù)訓(xùn)練階段(藍(lán)色區(qū)域):圖中的藍(lán)色知識(shí)節(jié)點(diǎn)之間存在天然連接(Innate Connection),這些連接是模型通過大規(guī)模預(yù)訓(xùn)練自然形成的。例如,「Earth」(地球)、「Gravity」(重力)和「Falling Objects」(落體)之間存在直接的天然關(guān)聯(lián),模型可以輕松理解「蘋果為什么會(huì)落下」這類問題。但注意「Kepler's Laws」(開普勒定律)和「Universal Gravitation」(萬有引力)這類更深層次的知識(shí)點(diǎn)與日常現(xiàn)象之間并沒有直接連接。
后訓(xùn)練階段(綠色區(qū)域):通過額外的監(jiān)督學(xué)習(xí)和對(duì)齊訓(xùn)練,模型形成了更多學(xué)習(xí)得到的連接(Learned Connection)。圖中的綠色曲線顯示,這一階段的智能增長(zhǎng)速度比預(yù)訓(xùn)練階段更快,但仍然有其極限。
測(cè)試時(shí)階段(紅色區(qū)域):這是認(rèn)知工程的核心部分。在這一階段,模型能夠在推理過程中動(dòng)態(tài)建立「推理連接」(Reasoned Connection),將遠(yuǎn)距離的知識(shí)節(jié)點(diǎn)連接起來。圖中顯示,當(dāng)面對(duì)一個(gè)問題(Query Start Node,Qs)時(shí),模型不僅利用已有連接,還能通過推理建立新的連接路徑,最終到達(dá)目標(biāo)節(jié)點(diǎn)(Query End Node,Qe)。
生成式 AI 的發(fā)展可以通過 Computation Scaling 模型來理解。
我們可以清晰地看到這一轉(zhuǎn)變的視覺化表達(dá)。圖表將 AI 的發(fā)展劃分為三個(gè)階段:Pre-training(預(yù)訓(xùn)練)、Post-training(后訓(xùn)練)和 Test-time(測(cè)試時(shí)),橫軸代表 Computation Scaling(計(jì)算擴(kuò)展),縱軸代表 Intelligence(智能水平)。
階段一:預(yù)訓(xùn)練擴(kuò)展
通過增加訓(xùn)練數(shù)據(jù)和模型參數(shù)來提升性能,但逐漸遇到天花板。
階段二:后訓(xùn)練擴(kuò)展
通過精細(xì)調(diào)整、對(duì)齊和指令遵循進(jìn)一步提升模型能力,但增長(zhǎng)同樣趨于平緩。
階段三:測(cè)試時(shí)擴(kuò)展
通過改變推理過程本身,打開了一個(gè)全新的擴(kuò)展維度,性能曲線再次陡峭上升。
這種演進(jìn)模式告訴我們一個(gè)重要事實(shí):當(dāng)一種擴(kuò)展方式達(dá)到極限時(shí),我們需要尋找新的擴(kuò)展維度。測(cè)試時(shí)擴(kuò)展正是這樣一種新維度,它不再僅僅關(guān)注「模型知道什么」,而是關(guān)注「模型如何思考」。
這種能力的本質(zhì)是:模型可以在推理過程中進(jìn)行深度思考,動(dòng)態(tài)構(gòu)建認(rèn)知路徑,而不僅僅是檢索靜態(tài)知識(shí)。測(cè)試時(shí)階段的紅色曲線陡峭上升,表明這種方法帶來了智能水平的顯著提升。
四、認(rèn)知工程
什么是認(rèn)知工程?「認(rèn)知工程是通過超越傳統(tǒng)預(yù)訓(xùn)練方法的 Test Time Scaling (測(cè)試時(shí)擴(kuò)展) 范式,系統(tǒng)性構(gòu)建人工智能思維能力的方法論。它融合人類認(rèn)知模式提煉和 AI 自主發(fā)現(xiàn)(如強(qiáng)化學(xué)習(xí)),有意識(shí)地培育人工系統(tǒng)的深度認(rèn)知能力?!?/span>
DIKW 金字塔及其與認(rèn)知工程范式的關(guān)系
認(rèn)知工程代表了人工智能發(fā)展范式的根本轉(zhuǎn)變,其核心在于系統(tǒng)化地構(gòu)建 AI 系統(tǒng)的深度認(rèn)知能力?;?DIKW(數(shù)據(jù) - 信息 - 知識(shí) - 智慧)理論框架,這一新興領(lǐng)域致力于實(shí)現(xiàn)從知識(shí)層面向智慧層面的質(zhì)變突破。
在認(rèn)知維度上,傳統(tǒng) AI 系統(tǒng)主要停留在數(shù)據(jù)和信息處理層面,大語言模型雖然實(shí)現(xiàn)了知識(shí)層面的突破,但認(rèn)知工程更進(jìn)一步,聚焦于智慧層面的核心特征:包括通過多層級(jí)復(fù)雜推理與元認(rèn)知能力實(shí)現(xiàn)的深度思考;通過跨領(lǐng)域知識(shí)整合與新見解生成的創(chuàng)造性連接,以及根據(jù)問題復(fù)雜度自主調(diào)整思維過程的動(dòng)態(tài)適應(yīng)能力。
與傳統(tǒng) AI 范式相比,認(rèn)知工程展現(xiàn)出根本性差異:
- 在能力基礎(chǔ)上實(shí)現(xiàn)了從數(shù)據(jù) / 信息累積到知識(shí) - 智慧轉(zhuǎn)化的轉(zhuǎn)變;
- 在學(xué)習(xí)方式上從行為模仿轉(zhuǎn)向思維過程模仿;
- 在系統(tǒng)特性方面將靜態(tài)知識(shí)庫升級(jí)為動(dòng)態(tài)認(rèn)知系統(tǒng);
- 在輸出模式上完成了從知識(shí)檢索到知識(shí)創(chuàng)造的跨越。這種范式轉(zhuǎn)變標(biāo)志著 AI 發(fā)展進(jìn)入以「思維質(zhì)量」為核心的新階段。
認(rèn)知工程可以定義為:通過延長(zhǎng)推理時(shí)間和學(xué)習(xí)人類認(rèn)知過程,使大模型由第一幕的知識(shí)管理工具進(jìn)化成具備深度思考能力的認(rèn)知管理工具。這是一個(gè)從「知道什么」到「如何思考」的根本轉(zhuǎn)變。
我們可以通過知識(shí)圖譜的類比來直觀理解這一轉(zhuǎn)變。在第一幕中,大模型通過預(yù)訓(xùn)練獲取了大量的知識(shí)點(diǎn)(節(jié)點(diǎn))和它們之間的常見關(guān)聯(lián)(邊),形成了一個(gè)龐大但相對(duì)靜態(tài)的知識(shí)網(wǎng)絡(luò)。當(dāng)用戶提問時(shí),模型主要在這個(gè)預(yù)先構(gòu)建的網(wǎng)絡(luò)中檢索和組合已有信息。這就像是在一個(gè)已經(jīng)鋪好的公路網(wǎng)上行駛,只能到達(dá)那些有道路相連的地方。
而在第二幕的認(rèn)知工程中,模型獲得了一種新能力:它可以在推理過程中「修建新路」—— 也就是通過深度思考建立遠(yuǎn)距離知識(shí)點(diǎn)之間的新連接。面對(duì)一個(gè)復(fù)雜問題,比如「量子力學(xué)與心理學(xué)有何關(guān)聯(lián)?」,第二幕的模型不再僅僅檢索已知的直接聯(lián)系(如果有的話),而是能夠通過多步推理,探索這兩個(gè)領(lǐng)域之間可能存在的聯(lián)系路徑,甚至發(fā)現(xiàn)前人未曾注意到的隱含關(guān)系。
這種能力的核心在于:模型可以在推理過程中動(dòng)態(tài)構(gòu)建認(rèn)知路徑,而不僅僅是檢索靜態(tài)知識(shí)。這正是人類深度思考的本質(zhì)特征之一。
五、為什么現(xiàn)在發(fā)展認(rèn)知工程?
認(rèn)知工程的興起并非偶然,而是對(duì) AI 發(fā)展在 DIKW 金字塔中遭遇「智慧鴻溝」的直接回應(yīng)。盡管在知識(shí)檢索、內(nèi)容生成和基礎(chǔ)推理方面取得顯著進(jìn)展,大語言模型在智慧層面仍存在明顯缺陷:
- 復(fù)雜推理局限:在多步邏輯推演(如數(shù)學(xué)證明、科學(xué)問題求解)中,當(dāng)前大語言模型難以實(shí)現(xiàn)可靠的子問題分解與路徑探索。
- 知識(shí)靜態(tài)性缺陷:預(yù)訓(xùn)練模型存在知識(shí)固化問題,既無法自主更新知識(shí)體系,更缺乏提出原創(chuàng)假設(shè)的科學(xué)發(fā)現(xiàn)能力。
- 應(yīng)用需求升級(jí):從模式匹配轉(zhuǎn)向復(fù)雜決策支持,用戶需求已超越知識(shí)檢索,要求系統(tǒng)具備多視角分析與創(chuàng)新洞察。
認(rèn)知工程在此特定時(shí)刻興起,得益于多項(xiàng)技術(shù)突破的同步成熟。這些突破共同創(chuàng)造了必要條件,使 AI 得以從知識(shí)管理邁向深度認(rèn)知能力。認(rèn)知工程的崛起建立在三大關(guān)鍵技術(shù)支柱之上:
- 知識(shí)基礎(chǔ):訓(xùn)練數(shù)據(jù)從非結(jié)構(gòu)化文本升級(jí)為整合科學(xué)文獻(xiàn)、技術(shù)文檔、編程代碼庫的專業(yè)語料體系(如 Llama 2 的 2 萬億 token 知識(shí)生態(tài))。
- 測(cè)試時(shí)擴(kuò)展技術(shù):傳統(tǒng)推理方法受限于固定輸出長(zhǎng)度和單次生成范式。近期一系列技術(shù)突破顯著擴(kuò)展了模型的推理能力:思維鏈提示(CoT) 引導(dǎo)模型像人類解題那樣逐步推理;樹狀搜索允許同時(shí)探索多條推理路徑而非局限于單一思路;自我修正與驗(yàn)證技術(shù)進(jìn)一步強(qiáng)化這些能力,使模型能評(píng)估自身推理、識(shí)別潛在錯(cuò)誤并改進(jìn)方法 —— 模擬人類元認(rèn)知過程。
- 自訓(xùn)練技術(shù):通過強(qiáng)化學(xué)習(xí)框架(如 DeepSeek-R1),模型自主掌握反思 / 回溯等高級(jí)認(rèn)知技能,并在可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制中持續(xù)優(yōu)化推理策略。
六、如何使用 Test-Time Scaling 技術(shù)推動(dòng)認(rèn)知工程?
全文從兩個(gè)角度介紹了如何使用 Test-Time scaling 技術(shù)推動(dòng)認(rèn)知工程。
(1)Test-time scaling 方法
全文主要介紹了四種 Test-time scaling 方法:并行采樣、樹搜索、多輪修正和長(zhǎng)思維鏈推理。對(duì)于每種 Test-time scaling 方法,涵蓋構(gòu)建方法、擴(kuò)展規(guī)律以及如何從單個(gè)方法優(yōu)化角度提高擴(kuò)展效率。此外,文章還在多個(gè)維度上比較了這些方法的優(yōu)劣勢(shì),并討論如何有效地結(jié)合它們以提升性能。
提高 Test-time scaling 擴(kuò)展效率的方法總結(jié)
不同 Test-time scaling 方法的比較
不同 Test-time scaling 方法的集成
(2)Test-time scaling 背后的訓(xùn)練策略
對(duì)于長(zhǎng)思維鏈的 Test-time scaling 技術(shù),對(duì)于傳統(tǒng)的大語言模型,需要強(qiáng)化學(xué)習(xí)或者監(jiān)督微調(diào)技術(shù)解鎖其長(zhǎng)思維鏈能力,該文章結(jié)合最新的工作,對(duì)于強(qiáng)化學(xué)習(xí)技術(shù),從訓(xùn)練算法、獎(jiǎng)勵(lì)函數(shù)、策略模型、訓(xùn)練數(shù)據(jù)、多階段訓(xùn)練五個(gè)角度全面介紹其設(shè)計(jì)準(zhǔn)則,此外論文還提供了配套的代碼教程。
應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)解鎖長(zhǎng)思維鏈能力工作總結(jié)
解決強(qiáng)化學(xué)習(xí)訓(xùn)練常見問題的方法匯總
不同強(qiáng)化學(xué)習(xí)算法比較
不同獎(jiǎng)勵(lì)類型的比較
對(duì)于使用監(jiān)督微調(diào)技術(shù)解鎖長(zhǎng)思維鏈能力,該文章從訓(xùn)練數(shù)據(jù)來源、訓(xùn)練數(shù)據(jù)質(zhì)量、訓(xùn)練數(shù)據(jù)量、訓(xùn)練方法 、基模型五個(gè)角度全面介紹其設(shè)計(jì)準(zhǔn)則,并匯總了常見的針對(duì)不同場(chǎng)景的長(zhǎng)思維鏈資源。
七、數(shù)據(jù)工程 2.0: 認(rèn)知數(shù)據(jù)工程
傳統(tǒng)人工智能主要關(guān)注知識(shí)獲取 —— 訓(xùn)練系統(tǒng)學(xué)習(xí)人類思維的成果。然而,認(rèn)知工程要求一種根本性的不同:從思維成果轉(zhuǎn)向思維過程本身。這一轉(zhuǎn)變催生了一門新學(xué)科 —— 認(rèn)知數(shù)據(jù)工程,它徹底改變了我們對(duì)有價(jià)值訓(xùn)練數(shù)據(jù)的理解。
認(rèn)知數(shù)據(jù)來源于三個(gè)不同但互補(bǔ)的來源,每個(gè)來源都為開發(fā)過程帶來了獨(dú)特的優(yōu)勢(shì)和挑戰(zhàn):
來源 1:人類認(rèn)知投射
盡管目前缺乏直接捕捉人類思維過程的腦機(jī)接口,我們?nèi)钥梢酝ㄟ^物理世界中的投射來獲取人類認(rèn)知:
- 直接記錄的產(chǎn)物。專家問題解決過程的視頻記錄、出聲思考記錄以及詳細(xì)的研究日志,捕捉了認(rèn)知過程的展開。這些記錄不僅保留了解決方案,還保留了專家思維中的混亂現(xiàn)實(shí) —— 錯(cuò)誤的開始、修改和突破。
- 工具介導(dǎo)的認(rèn)知痕跡。復(fù)雜的認(rèn)知活動(dòng)在專用工具中留下了痕跡 —— 實(shí)驗(yàn)室筆記本、協(xié)作白板會(huì)議、軟件開發(fā)中的版本控制系統(tǒng),以及科學(xué)論文通過草稿和修訂的逐步完善。這些工具作為代理,使隱含的認(rèn)知過程變得顯性和可觀察。
- 前沿專業(yè)知識(shí)提取。最有價(jià)值的認(rèn)知模式通常存在于領(lǐng)域前沿專家的頭腦中。這些模式需要精心設(shè)計(jì)的提取方法 —— 專門的訪談技術(shù)、定制的問題場(chǎng)景和高質(zhì)量的互動(dòng),將隱性知識(shí)提煉為顯性的推理軌跡。
來源 2:AI 生成的認(rèn)知
通過適當(dāng)?shù)莫?jiǎng)勵(lì)機(jī)制和復(fù)雜的強(qiáng)化學(xué)習(xí)方法,AI 系統(tǒng)現(xiàn)在可以在環(huán)境中獨(dú)立生成有價(jià)值的認(rèn)知數(shù)據(jù)或軌跡:
- 環(huán)境與獎(jiǎng)勵(lì)的協(xié)同作用。當(dāng)提供設(shè)計(jì)良好的環(huán)境、適當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù)和強(qiáng)大的初始化模型時(shí),AI 系統(tǒng)可以通過擴(kuò)展探索發(fā)現(xiàn)新的認(rèn)知策略。這些策略可能與人類方法大不相同,但能達(dá)到同等或更優(yōu)的效果 —— 類似于 AlphaGo 著名的「第 37 手」,最初讓人類專家感到困惑,但最終證明非常有效。
- 自我對(duì)抗與對(duì)抗性發(fā)現(xiàn)。系統(tǒng)可以通過與自己競(jìng)爭(zhēng)或面對(duì)越來越復(fù)雜的場(chǎng)景,生成越來越復(fù)雜的認(rèn)知數(shù)據(jù),開發(fā)出僅靠模仿人類例子無法出現(xiàn)的推理策略。
- 認(rèn)知發(fā)現(xiàn)中的規(guī)?;?yīng)。隨著計(jì)算資源的增加,AI 系統(tǒng)可以探索由于生物限制(如記憶、注意力跨度或處理速度)而無法為人類所及的認(rèn)知路徑 —— 可能在從數(shù)學(xué)到藥物設(shè)計(jì)的各個(gè)領(lǐng)域中發(fā)現(xiàn)新的問題解決方法。
來源 3:人機(jī)協(xié)作生成
最有前景的或許是通過人機(jī)伙伴關(guān)系共同創(chuàng)造認(rèn)知數(shù)據(jù):
- 軌跡采樣與人工過濾。AI 代理可以生成多樣化的解決路徑,然后由人類專家評(píng)估和提煉,結(jié)合機(jī)器生成的多樣性和人類對(duì)質(zhì)量和相關(guān)性的判斷。
- 人工種子與 AI 擴(kuò)展。人類專家可以提供復(fù)雜領(lǐng)域中的初始推理示例,然后 AI 系統(tǒng)進(jìn)行認(rèn)知完成(即擴(kuò)展、系統(tǒng)化變化和完成)—— 創(chuàng)建比僅靠人工標(biāo)注更大的訓(xùn)練數(shù)據(jù)集。
- 迭代優(yōu)化循環(huán)。人工和 AI 的貢獻(xiàn)可以在漸進(jìn)循環(huán)中交替進(jìn)行,每一方都在對(duì)方工作的基礎(chǔ)上進(jìn)行增強(qiáng) —— 人工提供創(chuàng)造性飛躍或概念重構(gòu),AI 提供系統(tǒng)化的探索和邊緣案例。
這種認(rèn)知數(shù)據(jù)建立了一類全新的數(shù)字資源,有可能推動(dòng) AI 能力超越僅靠自然數(shù)據(jù)收集或合成生成所能達(dá)到的水平。由此產(chǎn)生的認(rèn)知數(shù)據(jù)存儲(chǔ)庫很可能變得與大規(guī)模計(jì)算資源一樣具有戰(zhàn)略價(jià)值,成為決定 AI 進(jìn)步領(lǐng)導(dǎo)地位的關(guān)鍵因素。
預(yù)訓(xùn)練階段數(shù)據(jù)工程演變趨勢(shì)(左)與后訓(xùn)練階段數(shù)據(jù)工程演變趨勢(shì)(右)
該文章還從數(shù)學(xué)、代碼、多模態(tài)、智能體、具身智能、安全對(duì)齊、檢索增強(qiáng)生成、評(píng)估等多個(gè)角度介紹了 Test-time scaling 驅(qū)動(dòng)下的認(rèn)知工程的應(yīng)用實(shí)例以及未來發(fā)展方向:
Test-time scaling 技術(shù)在不同領(lǐng)域的應(yīng)用
Test-time scaling 技術(shù)在數(shù)學(xué)領(lǐng)域工作的時(shí)間線總結(jié)
論文還提供了手把手寫 RL Scaling 的代碼和對(duì)應(yīng)使用的數(shù)據(jù)集,讓每個(gè)感興趣的人都可以掌握這門技術(shù):
八、結(jié)語
站在 2025 年的視角回望生成式 AI 的發(fā)展歷程,我們見證了一場(chǎng)前所未有的認(rèn)知革命。從第一幕的知識(shí)管理工具,到第二幕的認(rèn)知工程,AI 正在經(jīng)歷一場(chǎng)本質(zhì)的蛻變。
第一幕以大規(guī)模預(yù)訓(xùn)練和提示工程為基礎(chǔ),創(chuàng)造了能夠理解和生成人類語言的強(qiáng)大模型。這些模型擅長(zhǎng)知識(shí)檢索和簡(jiǎn)單推理,為人類提供了前所未有的信息處理工具。然而,它們?cè)谏疃人伎肌?fù)雜推理和創(chuàng)新性任務(wù)上的局限也日益明顯。
第二幕的認(rèn)知工程帶來了根本性的突破。通過測(cè)試時(shí)擴(kuò)展技術(shù),AI 首次獲得了真正的深度思考能力;這場(chǎng)認(rèn)知革命的影響深遠(yuǎn)。在短期內(nèi),它將改變軟件開發(fā)、內(nèi)容創(chuàng)作和信息分析等領(lǐng)域的工作方式;在中期,它將重塑教育體系、科學(xué)研究和商業(yè)創(chuàng)新的流程;在長(zhǎng)期,它可能會(huì)改變?nèi)祟惻c技術(shù)的關(guān)系本質(zhì),創(chuàng)造一種人機(jī)共生的新智能形態(tài)。
對(duì)于開發(fā)者,建議是:不要僅停留在 API 調(diào)用層面,深入了解認(rèn)知工程的原理,學(xué)會(huì)設(shè)計(jì)能夠激發(fā) AI 深度思考的交互;對(duì)于研究者,尋找測(cè)試時(shí)擴(kuò)展與新型架構(gòu)結(jié)合的創(chuàng)新點(diǎn),探索認(rèn)知與記憶的協(xié)同優(yōu)化;對(duì)于產(chǎn)業(yè)界,投資認(rèn)知數(shù)據(jù)的收集與生成,打造滿足行業(yè)特定需求的認(rèn)知模型。
無論你是技術(shù)創(chuàng)造者還是使用者,理解這場(chǎng)認(rèn)知革命都至關(guān)重要。我們正在從「AI as tools」向「AI as thinking partners」轉(zhuǎn)變,這不僅改變了技術(shù)的能力邊界,也改變了我們與技術(shù)協(xié)作的方式。