從Agent到AGI還有多遠？

作者：王宇龍 2025-02-14 08:40:57

本文將通過一個關(guān)于 Agent 的實驗，探討從 Agent 到 AGI 還有多遠。

一、一個探討 Agent 極限的實驗

首先來看一個簡單的題目，屏幕上展示了一串字符，任務(wù)是從中抽取一個語法正確的英文句子。請大家花十秒鐘時間嘗試一下。

為了簡化這一任務(wù)，我們對這些詞進行著色處理，幫助大家更快識別出正確的句子。

當把這個問題交給模型時，即使是像 GPT4 這樣的高級模型，也可能出現(xiàn)一些細微但關(guān)鍵的錯誤，比如遺漏字母或單詞拆分不準確。

我們的團隊致力于構(gòu)建一個能夠精確解決問題的智能體。以下是八月時的一個截圖，展示了我們的系統(tǒng)如何逐步學(xué)習(xí)并最終解決了這個難題。

為了評估系統(tǒng)能力，我們參考了一個由 HuggingFace 和 Meta 設(shè)計的評估基準（benchmark），它包括三個不同難度級別的測試。人類在這個基準上的表現(xiàn)近乎完美，得分高達 90 分，而即便是最先進的系統(tǒng)如 GPT-4 或搜索引擎，再加上 Plugin 后，仍然難以達到相同水平。然而，我們的系統(tǒng)能夠在測試集上取得最佳成績。事實上，在提交結(jié)果后六小時內(nèi)就引起了關(guān)注，Llama 團隊的 Thomas 通過推特聯(lián)系我，希望能夠了解我的方法和技術(shù)細節(jié)。

下圖中是幾個來自 GAIA Benchmark 的案例，從簡單到復(fù)雜逐步遞進，展示了智能體處理不同類型查詢的能力。第一個例子相當基礎(chǔ)，幾乎不需要深入解析。而第二個則需要更高的定位和解析能力，因為涉及到的信息檢索和理解更為復(fù)雜，在處理具體信息的過程中，需要查閱特定資料。隨著任務(wù)的深入，非專業(yè)人士可能會遇到理解障礙，甚至需要具備編程能力來讀取和解析一些復(fù)雜文件，并執(zhí)行計算以得出結(jié)果。最終步驟往往變得更加復(fù)雜。

這些問題具有以下特點，首先，雖然看似簡單，但完成它們可能需要相當長的時間——大約 5 到 20 分鐘，最多可達 50 個步驟，這些任務(wù)雖然各自簡單，但組合起來形成一個冗長且復(fù)雜的流程。更復(fù)雜的例子包含大量的學(xué)術(shù)內(nèi)容，例如某個問題可能需要經(jīng)過 12 步的搜索和分析才能從 PDF 文檔中找到答案。這類問題對我個人而言也頗具挑戰(zhàn)性，因為它們涉及許多專業(yè)術(shù)語和背景知識。

我們進行這項研究的原因并非直接與產(chǎn)品相關(guān)，而是出于個人興趣。當前使用的各種 AI 產(chǎn)品或工具，無論是 GPT 還是國內(nèi)其他 AI 產(chǎn)品，在實際部署當中，我們希望確保系統(tǒng)能夠在指定時間內(nèi)向用戶提供反饋，并盡量降低機房運營成本。然而，探索 AI 能力邊界的需求與此目標存在一定矛盾。因此，我們決定在不受任何產(chǎn)品或成本限制的情況下，評估現(xiàn)有系統(tǒng)的極限性能。這一過程中，我們不考慮成本因素，專注于觀察其效果。

另一個目的是尋找更高效的日常工具。盡管現(xiàn)有的工具如 ChatGPT 和 Perplexity 已經(jīng)非常實用，但仍存在改進空間。例如，Perplexity 能夠進行簡單的多步搜索。盡管付費版可以提供額外的支持，但仍然不足以滿足所有需求。從個人工作角度來看，調(diào)研不同領(lǐng)域的工作是一項耗時的任務(wù)，每次大約需要 1 到 2 周時間，因此希望有一個更加高效和多功能的工具來加速這一過程。

回顧智能體（agent）的定義，根據(jù)經(jīng)典本科教材，智能體是指具有主觀能動性的實體，能夠采取行動。這種主觀能動性（agency）是語言模型基礎(chǔ)智能體的核心特征。記憶和規(guī)劃能力可以通過工具調(diào)用來增強智能體的功能，使得許多原本復(fù)雜的任務(wù)變得可行。此框架的應(yīng)用使得我們可以更快地為客戶提供定制化服務(wù)，降低成本，同時應(yīng)對各種可能出現(xiàn)的問題。

在 GAIA Benchmark 排行榜上，微軟、HuggingFace 等機構(gòu)的研究成果名列前茅。我們在嘗試復(fù)現(xiàn)這些結(jié)果時，發(fā)現(xiàn)了多種智能體解決方案。通過 Google 搜索相關(guān)文獻，可以看出智能體領(lǐng)域的研究方案眾多。這表明智能體的設(shè)計和實現(xiàn)具有很大的靈活性，但也意味著選擇最優(yōu)方案并非易事?，F(xiàn)有的大多數(shù)方案都是把 SOP(standard operating procedure) 轉(zhuǎn)成 workflow，但缺乏理論指導(dǎo)來確定哪個方向能持續(xù)帶來更好的結(jié)果。例如構(gòu)建小型 Agent 醫(yī)院或 Agent 企業(yè)的過程中，哪些方案是真正有效的？這些問題在學(xué)術(shù)討論中較少涉及，更多被視為工程上的復(fù)雜框架。

架構(gòu)設(shè)計本質(zhì)上是一種搜索過程，那么如何進行有效的搜索呢？我們需要一些啟發(fā)方法。

回顧歷史，1956 年和 1957 年是關(guān)鍵兩年，這兩年萌芽了人工智能（AI）和認知科學(xué)兩個領(lǐng)域。認知科學(xué)和 AI 可以認為是同一事物的不同方面：AI 通過重建方式理解人類智能，而認知科學(xué)嘗試從分析人類來研究智能的本質(zhì)。因此，我們考慮使用認知理論作為指導(dǎo)，以避免盲目嘗試，并檢驗這些理論是否有助于建模人類智能。

Dual Process Theory 這一理論將人類智能抽象成兩套系統(tǒng)：快速、自動化且無意識的過程（如簡單算術(shù)），以及需要緩慢、有意注意和有意識思考的過程（如解釋思考過程）。后者的特點是可以向第三方報告思考過程，適用于解決更復(fù)雜的任務(wù)。

另一理論是 Global Workspace Theory。該理論認為大腦內(nèi)部存在不同的模塊，這些模塊通過某些總線或公共區(qū)域進行通訊。人類的意識范圍有限，我們同時能關(guān)注的信息量非常有限。最初這只是一個純理論概念，后來 Dehaene 提出的 Global Neural Workspace Theory 理論進一步提供了解剖學(xué)支持，使得這一理論更加清晰易懂。它本質(zhì)上提出了一個遞歸的數(shù)據(jù)結(jié)構(gòu)，而在不同 Decoder 模型中都有類似的上下文限制。

例如，早期的模型如 GPT-2 具有 4096 個 token 的上下文窗口，而更新的模型則擴展到數(shù)百萬個 token。盡管如此，實際應(yīng)用中，模型通常強調(diào)其長上下文窗口的能力。然而，用戶在實際使用時可能并不會完全利用到這么大的窗口。模型的效果會隨著使用時間的增長而逐漸下降，并非完全無損。這種衰減背后的因素眾多，例如，在處理文檔分組（document grouping）時，數(shù)據(jù)切割會影響質(zhì)量；在進行 SFT 時，缺乏高質(zhì)量、長文本的數(shù)據(jù)也會導(dǎo)致效果隨 token 長度增加而逐漸下降。

基于這些理論，我們設(shè)計了一套系統(tǒng)。其核心流程為：提出問題后，模型選擇適當?shù)墓ぞ撸ㄏ到y(tǒng)主要包含瀏覽器和 Python 執(zhí)行器兩個組件）通過這些工具選擇和提取信息，并將這些信息壓縮后放入全局工作空間（global workspace）；隨后，系統(tǒng)判斷是否需要更多信息以完成多步推理或搜索過程；當系統(tǒng)認為已獲取足夠信息來回答問題時，進入一個多代理辯論過程，最終得出結(jié)論并返回結(jié)果。

在這個過程中，全局工作空間（Global Workspace）扮演著關(guān)鍵角色。因為有大量文獻檢索結(jié)果和事實性信息，所以需要一套機制來管理這些信息。

具體來說，Sibyl 的每個模塊內(nèi)部都采用了類似 CoT（Chain-of-Thought）的方法。并且由于較多的推理流程，會產(chǎn)生大量的中間 token。我們?nèi)绾喂芾磉@個流程中產(chǎn)生的大量 token？

舉個例子，當抓取一個 PDF 文件時，模型每次僅查看一個窗口內(nèi)的內(nèi)容，窗口大小約為 5000 個 token。在獲取 5000 個 token 后，模型根據(jù)問題進行思考，并進行事實性抽?。愃瞥槿∈秸３槿〕龅氖聦嵃▉碓淳W(wǎng)頁及具體位置信息。經(jīng)過一系列思考步驟，最終生成大約 300 個左右的筆記。解決一個問題時，整套系統(tǒng)消耗的 token 數(shù)量最多不超過 10k，遠低于大多數(shù)現(xiàn)有模型所需的 token 數(shù)，這使得模型效果有顯著提升。

起初，我們采用 RAG 方案，但發(fā)現(xiàn)這種方法難以解決復(fù)雜問題，因為 RAG 會拋棄上下文中的順序信息，代價就是速度較慢且成本較高。

關(guān)鍵問題包括：

GPT-4 會犯低級錯誤，例如重復(fù)搜索同一關(guān)鍵詞，即便之前已經(jīng)找到相關(guān)信息。
缺乏系統(tǒng)性的學(xué)習(xí)機制，整個系統(tǒng)是一個靜態(tài)函數(shù)，無法根據(jù)使用情況進行自我改進。
推理過程不可靠，當推理過程過長時，失敗率顯著增加，影響問題解決的成功率。OpenAI 的 o1 出來后稍有改善。

這些問題促使我們進一步深入 Agent 和 LLM 的底層細節(jié)，探究問題的根源。

二、Agent 和 LLM 的一些底層細節(jié)

LLM 實現(xiàn) Agent 的原理其實相當簡單，下圖是一個 Chat Template 的示例。LLM 底層本質(zhì)上就是在類似的文本結(jié)構(gòu)上進行 token 預(yù)測，并實現(xiàn)了如角色定制、工具調(diào)用等功能。

下圖是經(jīng)典的Transformer架構(gòu)，包括Encoding、Decoding兩部分。Encoding 之后，進行 cross attention，在 forward 過程中，每層都執(zhí)行加操作。特別指出加操作的原因在于它不僅有助于梯度傳遞，還對訓(xùn)練穩(wěn)定性、模型可解釋性等方面有著積極作用。

例如，在多層神經(jīng)網(wǎng)絡(luò)中，每一層都會從殘差流中讀取信息，執(zhí)行特定操作后，再將這些信息添加到輸出中。Attention 機制負責在不同 token 之間復(fù)制信息，而 MLP 則專注于信息的篩選與更新。這種逐步完善 token 預(yù)測的過程，直到最終結(jié)果的生成，體現(xiàn)了深度學(xué)習(xí)模型在處理復(fù)雜任務(wù)時的內(nèi)在邏輯。

關(guān)于知識定位的問題，去年我們的一位實習(xí)生的工作展示了如何通過模型追蹤特定知識的位置。例如，確定“法國的首都是什么”這類事實性知識在模型中的存儲位置。這項工作強調(diào)了模型解釋性的重要性，即理解模型是如何以及在哪里存儲和應(yīng)用知識的。

Attention 機制的作用是將相關(guān)信息（如關(guān)于法國的信息）帶入到需要處理的位置。隨后，MLP 的任務(wù)是識別“法國的首都”這類信息，并將其填入相應(yīng)位置，從而生成一個選項。這一過程展示了模型如何逐步完善預(yù)測，直到最終輸出結(jié)果。

大型語言模型不僅具備大量預(yù)訓(xùn)練知識，還在 Inference 階段具有一定的學(xué)習(xí)能力。在推理過程中，模型能夠通過特殊的注意力頭（induction head）實現(xiàn)上下文學(xué)習(xí)（in-context learning）。具體來說，當模型嘗試用 A 來預(yù)測 B 時，注意力頭會向前搜索類似 A 的 token，并將這些 token 之后的信息復(fù)制過來，以輔助當前預(yù)測。僅靠這種注意力機制，模型就能實現(xiàn)大多數(shù)上下文學(xué)習(xí)任務(wù)，且通常只需少量層次（兩層）即可完成。

因此，模型的知識和學(xué)習(xí)能力共同構(gòu)成了其兩大核心功能。我們可以通過解釋模型的殘差流（residual stream）來理解其內(nèi)部工作原理，這有助于揭示模型在不同層次上的信息處理方式。

我非常喜歡的一項研究展示了模型在處理句子時的內(nèi)部運作。如下圖，該研究輸入給模型一個句子，觀察其預(yù)測每個詞的概率伴隨層的變化。例如，在預(yù)測逗號后的詞時，模型的不同層次逐漸完善預(yù)測，直至達到較高的準確性。研究顯示，某些層次的結(jié)果已經(jīng)足夠準確，這意味著并非所有層次都是必要的，從而為優(yōu)化推理過程提供了可能性。

由于模型采用殘差結(jié)構(gòu)，推理過程中可以裁剪掉一些最后的層而不太影響性能，這有助于降低成本。然而，現(xiàn)在的模型結(jié)構(gòu)也有一些挑戰(zhàn)：模型的層數(shù)固定，使得每次推理所需的算力和能源消耗成為常量，無法根據(jù)問題難度動態(tài)調(diào)整。這意味著對于復(fù)雜度不斷變化的問題，模型的效率可能受限。

傳統(tǒng)上，模型回答問題的方式較為直接，即輸入一個問題并立即給出答案，而無需深入思考。這種方式可能導(dǎo)致模型依賴記憶而非推理。為了解決這一問題，我們希望將推理過程盡可能地在語言空間中展開，形成更復(fù)雜的推理鏈（chain-of-thought）。這不僅能提高模型的推理能力，還能增強其靈活性和適應(yīng)性，使其更好地應(yīng)對各種復(fù)雜問題。

簡單計算任務(wù)如 1+1 是否需要兩步推理？如果詢問模型“1+1 等于多少”，它可能會給出冗長的解釋。然而，對于簡單的算術(shù)運算，我們通常不需要如此復(fù)雜的推理過程。成人只有在思考 23×32 這類問題的時候才會需要推理過程，但是三歲的孩子在計算 2+3 時也需要借助手指。因此，推理并非一個靜態(tài)的過程，而是涉及能量消耗和記憶空間的動態(tài)活動。

第二個問題是關(guān)于推理的定義。我們可以將推理總結(jié)為基于規(guī)則或知識進行計算的過程，這種計算可以理解為演繹。既然涉及到計算，就不可避免地會遇到停機問題，這部分內(nèi)容將在后續(xù)討論中展開。

前面提到了很多底層細節(jié)，這些細節(jié)往往難以記憶。因此，很多研究嘗試將論文中的概念具象化，使其更易于理解。

隨機鸚鵡（stochastic parrots）：即僅通過統(tǒng)計模式生成文本，而不是基于真正的理解或推理。

通用模式機器（general pattern machine）：能夠通過上下文學(xué)習(xí)（in-context learning）從輸入中提取模式并進行預(yù)測。

模擬器（simulator）：可以高保真地模擬訓(xùn)練數(shù)據(jù)分布及其背后的機制。但因為是有損的，所以存在一些問題。

KV Database（70%）+In Context Learning（10%）+？（20%）：這是我個人的理解。因為其大多數(shù)行為類似 KV Database，所以不可避免地存在 reversal curse。推薦閱讀一篇關(guān)于可解釋性的文章，其核心觀點指出，模型在訓(xùn)練過程中可能無法正確關(guān)聯(lián) A 和 B 的關(guān)系，但如果將它們放入上下文中，模型就能更好地理解這些關(guān)系。

在實踐過程中我們經(jīng)常發(fā)現(xiàn) prompt 不按預(yù)期工作?？梢詮膬蓚€角度來解釋這一現(xiàn)象。

首先，從模擬器視角，一個衍生理論是 The Waluigi Effect。例如，在讀偵探小說時，讀者最初認為某個角色是好人，但在故事進展中發(fā)現(xiàn)其實際上是壞人。這反映了模型在處理新信息時可能出現(xiàn)認知轉(zhuǎn)變。在訓(xùn)練過程中，模型的上下文定義可能是不完備的，就像一本小說中的人物關(guān)系需要逐步揭示一樣，當新的 token 出現(xiàn)時，模型的理解會發(fā)生變化。

另外，從 KV DB + In Context Learning 視角，數(shù)據(jù)庫中沒有相關(guān)知識，需要通過插值的方式來處理，而插值不準，可以通過 CoT 或 RAG 的方式來解決。還可能是 prompt 的邏輯過于復(fù)雜，模型無法理解，可以通過 few-shot 的方式來解決。

三、從 Agent 到 AGI 還有多遠

文章開頭提到的 benchmark 顯示，最優(yōu)秀的 Agent 方案僅能達到三四十分，距離人類的 90 分還有 60 分的差距。這 60 分的差距到底在哪里呢？

首先第一個問題是，模型和人類誰更聰明。

AlphaGo 的出現(xiàn)讓人們看到了機器的能力，但它其實除了下棋其它事情并不擅長。因此我們需要明確對“聰明”的定義。

OpenAI 在其 2023 年 2 月發(fā)布的《Planning for AGI and beyond》一文中將 AGI 定義為“在大多數(shù)具有經(jīng)濟價值的工作中表現(xiàn)超越人類的高度自主系統(tǒng)”。2024 年 7 月，OpenAI 內(nèi)部還發(fā)布了一個五級分類系統(tǒng)，用于評估其 AI 系統(tǒng)向 AGI 發(fā)展的進程：

聊天機器人（Chatbots）：具備對話能力的人工智能。
推理者（Reasoners）：能夠解決人類水平問題的人工智能。
代理（Agents）：可以代表用戶采取行動的人工智能。
創(chuàng)新者（Innovators）：能夠協(xié)助發(fā)明的人工智能。
組織者（Organizations）：能夠完成整個組織工作的人工智能。

回顧 IQ 的相關(guān)定義，最早的理論可以追溯到一百年前，一篇論文中通過大量兒童智力測試結(jié)果繪制出了分數(shù)的正態(tài)分布圖，中位數(shù)設(shè)定為 100，用以衡量個體的認知能力高低。然而，隨著時代變遷，這一標準也在改變。例如在 1987 年的研究中發(fā)現(xiàn)，從 1952 年到 1982 年間，人類的平均智商顯著提升。

隨著時間推移，心理學(xué)家開始將認知能力拆分為更細致的體系，如流體智力（fluid intelligence）和晶體智力（crystallized intelligence）。流體智力涉及解決新問題、識別模式、抽象推理及適應(yīng)新環(huán)境的能力；而晶體智力則包括累積的知識和經(jīng)驗、專業(yè)技能等。流體智力通常隨年齡增長而逐漸下降，而晶體智力則會隨著不斷積累而上升。

在實際應(yīng)用中，當前的大型語言模型更傾向于晶體智力方面的工作，即基于已有的大量知識進行回答。雖然歐文等模型聲稱具有強大的推理能力，但在面對全新的、未見過的問題時，其表現(xiàn)往往不如人意，更多依賴于記憶中的已有信息而非即時推理。

為了進一步細化認知能力的分類，心理學(xué)引入了 CHC 理論（Cattell–Horn–Carroll theory），該理論發(fā)展至今已成為一個非常復(fù)雜的系統(tǒng)。它分為三層結(jié)構(gòu)：最底層是具體子能力，如數(shù)量推理、語言能力、記憶能力等；中間層是對這些能力的歸類；最頂層則是對整個系統(tǒng)的概括性描述——g factor。g factor 并非一個實際存在的概念，而是用來表達對下面所有評測結(jié)果的一種綜合理解。

打個比方，例如劉翔作為一位優(yōu)秀的短跑運動員，如果讓他去打籃球，他學(xué)習(xí)的速度肯定比一般人快，因為他具備良好的體能。這種體能在人的身體素質(zhì)中是一個通用的因子，類似的，g factor 就是人在智能領(lǐng)域的一個通用因子。

回顧深藍計算機的例子，人們曾以為只要解決了像國際象棋這樣的特定任務(wù)，就等于解決了人類智能的問題，這里其實犯了一個錯誤。實際上，深藍使用的是有限的能力，例如一些記憶能力——對常見棋盤開局的記憶，以及快速推理能力，在一個狹窄領(lǐng)域內(nèi)做得非常迅速準確。但實際上，它缺乏許多其它方面的能力，因此盡管它可以解決很多問題，但并未準備好應(yīng)對那些尚未被當前系統(tǒng)涵蓋的問題。

現(xiàn)在大模型可能已經(jīng)有所改進，但與人類智慧仍相差甚遠。下圖指引著 AGI 的發(fā)展方向，這些未觸及的挑戰(zhàn)正是目前研究的焦點。這個圖也可以作為 AI 行業(yè)從業(yè)者的職業(yè)規(guī)劃參考指南。

ARC-AGI 是一個專門設(shè)計用來測試 AI 系統(tǒng)在解決極其困難的數(shù)學(xué)和邏輯問題方面能力的基準測試，它由 Fran?ois Chollet 于 2019 年提出。測試任務(wù)如下圖所示，由前三組圖推理出第四幅圖對應(yīng)的圖片應(yīng)該是怎樣的。這個問題對于人類來說并不難，只是一個簡單的填色問題。但對于 AI 而言，它考察了幾件事情。

首先，這是一個抽象的推理任務(wù)，它拋棄了所有的先驗知識，不需要任何書本上的知識，也不需要會寫字或說話。理論上，小孩子也能在一定程度上解決這類問題，但對于機器來說，處理記憶部分特別困難。這里考核了人類核心知識的掌握程度，包括物體表征，即能夠識別物體；還有數(shù)量表征，即對數(shù)量的理解。

這個問題之所以受到廣泛關(guān)注，是因為其他基準測試，很快即達到飽和，超過了人類的標準。而這一基準自 2019 年提出之后，其增長曲線一直很緩慢，人類的成績大約在 85 分左右，他們設(shè)定了 85 分為獎項標準。而現(xiàn)有系統(tǒng)僅能夠達到 50 多分的水平，提升非常有限。

所以，大語言模型還只是人類智力光譜中的一小片光芒。它很小，很亮，但距離實現(xiàn)全面的人工智能仍有很長的路要走。

二十世紀四十年代，馮?諾伊曼在研究自復(fù)制機的時候提出了元胞自動機的概念。元胞自動機是一個根據(jù)特定規(guī)則演化的離散系統(tǒng)。其中一種規(guī)則是 rule 30，如下圖所示，假設(shè)有一系列格子，一行一行地看，如果三個相鄰格子是黑色，則下一個變成白色。狀態(tài)由二進制表示，這樣一套規(guī)則定義了自動機的行為。由于它是基于規(guī)則的，自動機能夠在給定條件下執(zhí)行特定的操作，這與人類利用經(jīng)驗和邏輯來決策的過程形成了對比。

這一過程實際上類似于推理，一步步迭代。問題在于：當有足夠多的行后，下面會出現(xiàn)一些難以預(yù)測的模式。

其背后的理論是計算不可約性。Stephen Wolfram 有一本書非常值得推薦，名為《A New Kind of Science》。書中提出了計算不可約性的理論，即某些系統(tǒng)的動態(tài)行為無法通過任何捷徑或簡化方法來預(yù)測，必須通過一步一步的演算才能得到最終答案。即使是最簡單的規(guī)則，如這里只是 8 個 bit 的規(guī)則，也能產(chǎn)生極其復(fù)雜的行為。人類或自然界中的規(guī)則會更為復(fù)雜，因此有很多現(xiàn)象是不可知的，這意味著 AI 很難預(yù)測或模擬其他系統(tǒng)。

嘗試用計算機軟件系統(tǒng)模擬人類智能是否可行？或者在多大程度上可行？這種真實性的實現(xiàn)受到計算不可約性的影響，導(dǎo)致我們難以很好地模擬復(fù)雜的系統(tǒng)。

Wolfram 做了一個有趣的實驗，涉及八個元胞自動機規(guī)則，每個規(guī)則都很簡單。下圖是真實迭代結(jié)果。如果我們訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)，像 GPT 一樣進行 token 預(yù)測，能達到怎樣的預(yù)測結(jié)果？

隨著訓(xùn)練量的增加，我們發(fā)現(xiàn)它的表現(xiàn)確實有所改善。首先，在樣本數(shù)量很少的情況下，它可以成功地將白色部分預(yù)測為白色，盡管對黑色部分的預(yù)測效果不佳。但在訓(xùn)練過程中，對于一些復(fù)雜的事件，它也能夠做出預(yù)測。這說明通過增加更多的訓(xùn)練量，我們的確能夠擬合出一些系統(tǒng)行為，但這消耗了 800k 的參數(shù)，而實際上實現(xiàn)該功能可能 20 行代碼即可完成。二者之間的差異反映了計算阻力的問題。當我們試圖模擬人類智能時，究竟需要多少計算能力是一個非常大的問題。

因此，當我們討論推理時，簡單地創(chuàng)建一個大型模型可能還不夠，因為我們不清楚模擬人類智能所需的具體分區(qū)和計算能力。另一個更深層次的問題是我們嘗試創(chuàng)造人工智能實際上是一門科學(xué)，我們試圖歸納出人類智能的一些規(guī)律以模擬它。然而，這與科學(xué)研究相似，在初期階段容易實現(xiàn)，例如讓模型學(xué)會生成看似合理的人類語言。但實際上，它并不聰明，因為它的知識有限。神經(jīng)網(wǎng)絡(luò)可以擬合某些東西，但對于一些很多問題是難以解決的。

當人類面對星空時，是如何總結(jié)出日心說這樣一套理論的？這實際上涉及計算中可約部分的尋找。具體而言，如何從一個圖映射到另一個圖是一個問題。人類能夠?qū)崿F(xiàn)這種映射，但 AI 能否做到這一點呢？即便我們對此習(xí)以為常，實際上這對機器來說仍然是一個挑戰(zhàn)。

四、Q&A

Q1：如果一個 agent 足夠強大，例如通過調(diào)用外部工具或多個模型的組合，它在解決 RAG 問題時，兩種技術(shù)方案會是什么樣的？另外，agent 在未來將會發(fā)展到什么程度？

A1：這個問題實際上是關(guān)于生產(chǎn)系統(tǒng)中如何設(shè)計高效、低成本且效果好的系統(tǒng)。而我所做的研究中約束條件是幾乎沒有限制，因此我可以采用非常復(fù)雜的方法。工作流程是這樣的：模型看到的是瀏覽器，而瀏覽器只能看到網(wǎng)頁的一小部分內(nèi)容；接著，它決定是否滾動頁面、回退或是使用 Ctrl+F 進行搜索，甚至直接打開搜索引擎，這是一個很長的基于 agent 的搜索流程。其優(yōu)點是效果較好，但成本很高。因此，我們需要權(quán)衡效率與成本之間的關(guān)系——是追求快速發(fā)展速度還是產(chǎn)品面向的是需要快速響應(yīng)的系統(tǒng)，還是可以接受較低速度但效果尚可的系統(tǒng).

Q2：在您展示的計算不可約性圖表后面有一張圖，其中白色部分如果大部分用于學(xué)習(xí)，似乎能很快學(xué)出來。原因是不是因為它更接近于數(shù)據(jù)分布的主要模式？如果讓大部分學(xué)習(xí)這部分內(nèi)容，應(yīng)該更容易學(xué)到，假設(shè)預(yù)測下一部分全是白色，那么大概率是正確的，所以預(yù)測白色更容易，是這樣嗎？

A2：可以這么理解，因為正如您所提到的，大多數(shù)情況下，它確實很快就能適應(yīng)這些簡單的情況，這里并沒有使用大模型，實驗只用了 800k 參數(shù)，不需要大模型也能完成任務(wù)，因為這塊損失最小最容易擬合，所以它留下了這個特點。

Q3：最近很多基礎(chǔ)模型團隊都在討論他們使用大量生成的數(shù)據(jù)或模擬數(shù)據(jù)進行訓(xùn)練，這些數(shù)據(jù)并非真實數(shù)據(jù)。這種情況類似于給定一個大的參數(shù)量，但數(shù)據(jù)卻不是實際收集的。這引發(fā)了對于訓(xùn)練數(shù)據(jù)真實性與模型性能之間關(guān)系的思考。

A3：對于小模型（比如 3B 或 7B 參數(shù)量），因為它們面向的是輕量化、快速響應(yīng)的需求，本身對深度知識的要求沒那么高。此時，如果想讓模型更貼近某個具體領(lǐng)域或場景，用合成數(shù)據(jù)能帶來更好的針對性。畢竟從網(wǎng)上抓下來的數(shù)據(jù)質(zhì)量有限，而且跟具體業(yè)務(wù)不一定匹配。但合成數(shù)據(jù)需要保證質(zhì)量，至少要和目標場景的內(nèi)容相符，否則也會帶來噪音。

在做 SFT（監(jiān)督微調(diào)）時，如果缺少高質(zhì)量的人類標注數(shù)據(jù)，一些團隊會根據(jù)規(guī)則或?qū)＜医?jīng)驗來“人造”數(shù)據(jù)。這比直接讓大模型自動生成要更可控，可以把行業(yè)知識或業(yè)務(wù)邏輯融進來，快速填充數(shù)據(jù)集。不過，它依然需要一定的驗證和篩選，避免把錯誤信息大量灌進模型里。

大模型使用合成數(shù)據(jù)也有機會帶來收益，尤其在沒什么標注數(shù)據(jù)的場景，比如類似解謎或問答類任務(wù)。但大模型的容量更大，對臟數(shù)據(jù)更敏感，一旦有明顯的錯誤樣本，負面影響會更嚴重，所以需要更嚴格的質(zhì)量把控。

責任編輯：姜華來源： DataFunTalk

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從Agent到AGI還有多遠？

一、一個探討 Agent 極限的實驗

二、Agent 和 LLM 的一些底層細節(jié)

三、從 Agent 到 AGI 還有多遠

四、Q&A

從Agent到AGI還有多遠？

一、一個探討 Agent 極限的實驗

三、從 Agent 到 AGI 還有多遠

四、Q&A