大模型為啥這么慢，原來是想多了：新方向是和人一樣的思維算法

作者：機器之心 2023-09-11 13:27:00

組合人類推理之精妙與算法方法之精準，思維算法可助力 LLM 解決復(fù)雜問題。

人類直覺是一種常被 AI 研究者忽視的能力，但其精妙程度連我們自身也沒有徹底理解。弗吉尼亞理工大學和微軟的一個研究團隊在近日的一篇論文中提出了思維算法（AoT），其組合了直覺能力與算法方法的條理性，從而能在保證 LLM 性能的同時極大節(jié)省成本。

大型語言模型近來發(fā)展速度很快，其在解決一般問題、生成代碼和跟隨指令方面表現(xiàn)出了顯著的非凡能力。

盡管早期的模型依賴于直接回答策略，但當前的研究則轉(zhuǎn)向了線性推理路徑，其做法是將問題分解成子任務(wù)來發(fā)現(xiàn)解決方案，或通過修改上下文來利用外部機制來改變 token 的生成。

與人類認知類似，早期的 LLM 策略似乎模仿的是即時的 System 1（快速反應(yīng)），其特征是通過脈沖決策實現(xiàn)。相較之下，思維鏈（CoT）和 least-to-most prompting（L2M）等更新的一些方法則反映了 System 2（慢速思考）的內(nèi)省式本質(zhì)。值得注意的是，通過整合中間推理步驟，可讓 LLM 的算術(shù)推理能力獲得提升。

但是，如果任務(wù)需要更深度的規(guī)劃和更廣度的思維探索，那么這些的方法的局限性就顯現(xiàn)出來了。盡管整合了自我一致性的 CoT（CoT-SC）可使用多個 LLM 輸出來達成共識性結(jié)果，但由于缺少細致的評估，可能會導(dǎo)致模型走向錯誤方向。2023 年出現(xiàn)的思維樹（ToT）是一種值得注意的解決方案。其中使用一個 LLM 來生成想法，再使用另一個 LLM 來評估這些想法的優(yōu)點，之后續(xù)以「暫停 - 評估 - 繼續(xù)」的循環(huán)。這種基于樹搜索的迭代過程明顯是有效的，尤其是對于具有較長延續(xù)性的任務(wù)。研究者認為，這種進展是使用外部工具來增強 LLM，類似于人類使用工具來規(guī)避自身工作記憶的限制。

另一方面，這種增強過的 LLM 方法也不是沒有缺點。一個明顯的缺點是查詢數(shù)量和計算需求會大幅飆升。對 GPT-4 等在線 LLM API 的每一次查詢都會產(chǎn)生可觀的金錢開支，同時還會拉長延遲，這一局限對實時應(yīng)用而言尤為關(guān)鍵。這些查詢累積的延遲可能有損方案的整體效率?；A(chǔ)設(shè)施方面，持續(xù)的交互會給系統(tǒng)帶來壓力，這可能限制帶寬和降低模型可用性。此外，還不能忽視對環(huán)境的影響，不斷的查詢會加大已經(jīng)能耗很大的數(shù)據(jù)中心的能耗，使碳足跡進一步增大。

基于這些考量，研究者的優(yōu)化目標是大幅減少當前多查詢推理方法所使用的查詢數(shù)量，同時維持足夠的性能，使模型能應(yīng)對需要熟練使用世界知識的任務(wù)，從而引導(dǎo)人們更負責任和更熟練地使用 AI 資源。

通過思考 LLM 從 System 1 到 System 2 的演變，可以看到一個關(guān)鍵因素浮出了水面：算法。算法是富有條理的，其能提供一條幫助人們探索問題空間、制定策略和構(gòu)建解決方案的途徑。盡管許多主流文獻都將算法看作是 LLM 的外部工具，但考慮到 LLM 固有的生成式復(fù)現(xiàn)能力，我們能否引導(dǎo)這種迭代式邏輯來將一個算法內(nèi)化到 LLM 內(nèi)部？

弗吉尼亞理工大學和微軟的一個研究團隊將人類推理的復(fù)雜精妙和算法方法的富有條理的精確性聚合到了一起，試圖通過融合這兩方面來增強 LLM 內(nèi)部的推理能力。

已有的研究強調(diào)，人類在解決復(fù)雜問題時會本能地借鑒過去的經(jīng)歷，確保自己進行全面思考而不是狹隘地關(guān)注某一細節(jié)。LLM 生成范圍僅受其 token 限制限定，似乎是注定要突破人類工作記憶的阻礙。

受這一觀察啟發(fā)，研究者探究了 LLM 能否實現(xiàn)類似的對想法的分層探索，通過參考之前的中間步驟來篩除不可行的選項 —— 所有這些都在 LLM 的生成周期內(nèi)完成。而人類長于直覺敏銳，算法善于組織化和系統(tǒng)性的探索。CoT 等當前技術(shù)往往回避了這種協(xié)同性潛力，而過于關(guān)注 LLM 的現(xiàn)場精度。通過利用 LLM 的遞歸能力，研究者構(gòu)建了一種人類 - 算法混合方法。其實現(xiàn)方式是通過使用算法示例，這些示例能體現(xiàn)探索的本質(zhì) —— 從最初的候選項到經(jīng)過驗證的解決方案。

基于這些觀察，研究者提出了思維算法（Algorithm of Thoughts /AoT）。

論文：https://arxiv.org/pdf/2308.10379.pdf

從更廣義的范圍看，這種新方法有望催生出一種上下文學習新范式。這種新方法沒有使用傳統(tǒng)的監(jiān)督學習模式，即 [問題，解答] 或 [問題，用于獲得解答的后續(xù)步驟]，而是采用了一種新模式 [問題，搜索過程，解答]。很自然，當通過指令讓 LLM 使用某算法時，我們通常預(yù)計 LLM 只會簡單模仿該算法的迭代式思維。但是，有趣的是 LLM 有能力注入其自身的「直覺」，甚至能使其搜索效率超過該算法本身。

思維算法

研究者表示，其研究策略的核心是認識到當前上下文學習范式的核心短板。CoT 盡管能提升思維聯(lián)系的一致性，但偶爾也會出問題，給出錯誤的中間步驟。

為了說明這一現(xiàn)象，研究者設(shè)計了一個實驗。用算術(shù)任務(wù)（如 11 ? 2 =）查詢 text-davinci-003 時，研究者會在前面添加多個會得到同等輸出結(jié)果的上下文等式（如 15 ? 5 = 10, 8 + 2 = 10）。

結(jié)果發(fā)現(xiàn)，準確度陡然下降，這說明只是在上下文中給出正確的推理可能會在無意中損害 LLM 的基礎(chǔ)算術(shù)能力。

為了減少這種偏差，讓示例更加多樣化也許是可行的解決方案，但這可能會稍微改變輸出的分布。只是添加一些不成功的嘗試（就像是隨機搜索），可能會無意地鼓勵模型重新嘗試，而不是真正解決問題。了解了算法行為的真正本質(zhì)（其中失敗的搜索和后續(xù)的恢復(fù)以及對這些嘗試的學習都很重要），研究者整合上下文示例的方式是按照搜索算法的模式，尤其是深度優(yōu)先搜索（DFS）和廣度優(yōu)先搜索（BFS）。圖 1 給出了一個示例。

這篇論文關(guān)注的重點是與樹搜索問題類似的一大類任務(wù)。

這類任務(wù)必需對主要問題進行分解，為每一部分構(gòu)建可行的解決方案，并決定采納或放棄某些路徑，并可以選擇重新評估更有潛力的部分。

研究者的做法不是為每個子集都給出單獨的查詢，而是利用了 LLM 的迭代能力，在一次統(tǒng)一的生成式掃描中解決它們。通過限定自己僅能進行一兩次 LLM 交互，該方法可以自然地整合來自之前的上下文候選項的洞見，并解決需要對解答域進行深度探索的復(fù)雜問題。對于這些思維的大小應(yīng)當如何以及應(yīng)該為 LLM 提供何種類型的上下文示例，從而提升 token 效率，研究者也給出了自己的見解。下面將給出樹搜索算法的關(guān)鍵組件以及它們在新框架中的表現(xiàn)形式。

1. 分解成子問題。給定一個問題，就算不看實際解決問題方面，構(gòu)建一個描述可行推理路徑的搜索樹已經(jīng)是一項艱巨的任務(wù)。任何分解都不僅要考慮子任務(wù)之間的相互關(guān)系，還要考慮解決各個問題的難易程度。

以簡單的多位數(shù)加法為例：盡管對計算機而言，將數(shù)值轉(zhuǎn)換成二進制數(shù)后效率很高，但人類通常認為十進制數(shù)更加直觀。此外，即便子問題是一樣的，執(zhí)行方法也可能不同。直覺能找到解答步驟之間的捷徑，而如果沒有直覺，可能就必需更為詳細的步驟。

為了創(chuàng)建出正確的 prompt（即上下文算法示例），這些細微之處非常重要，它們決定了 LLM 為了取得可靠表現(xiàn)所需的最少 token 數(shù)量。這不僅能滿足 LLM 對上下文的限制，而也對 LLM 的能力很重要，因為我們希望 LLM 能使用相似的 token 量解決與其上下文有共鳴的問題。

2. 為子問題提議解答。現(xiàn)目前的一種主流方法涉及到直接采樣 LLM token 輸出概率。盡管這種方法對一次性答案有效（有一定的限制），但也無力應(yīng)對一些場景，比如當需要將樣本序列整合進后續(xù) prompt 中或在后續(xù) prompt 中評估時。為了盡可能減少模型查詢，研究者采用了一種不間斷的解答創(chuàng)建過程。即不帶任何生成停頓，為主要子問題直接和連續(xù)地生成解答。

這個方法存在諸多好處。第一，所有生成的解答都在同一個共享的上下文中，無需為評估每個解答生成單獨的模型查詢。第二，盡管一開始看起來挺反直覺，但孤立的 token 或 token 分組概率可能并不總能得到有意義的選擇。圖 4 給出了一個簡單的示意圖。

3. 衡量子問題的前景。如上所述，現(xiàn)有技術(shù)依靠額外的提示來識別樹節(jié)點的潛力，幫助做出有關(guān)探索方向的決策。而研究者的觀察表明，如果能將最有前途的路徑封裝在上下文示例中，LLM 會固有地傾向于優(yōu)先考慮那些有前途的候選項。這能降低對復(fù)雜 prompt 工程設(shè)計的需求并允許整合復(fù)雜精細的啟發(fā)式方法，不管這些方法是直覺式的或知識驅(qū)動的。同樣，新方法中不含脫節(jié)的 prompt，這使得能在同一個生成結(jié)果中即時評估候選項的可行性。

4. 回溯到更好的節(jié)點。決定接下來要探索的節(jié)點（包括回溯到之前的節(jié)點）本質(zhì)上取決于所選的樹搜索算法。盡管之前已有研究為搜索過程采用了編碼機制等外部方法，但這會限制其更廣泛的吸引力并需要額外的定制。這篇論文提出的新設(shè)計主要采用 DFS 方法并輔以剪枝。目標是維持有同一父節(jié)點的子節(jié)點之間的近鄰度，以此鼓勵 LLM 優(yōu)先考慮本地特征而不是遠程特征。此外，研究者還提出了基于 BFS 的 AoT 方法的性能指標。研究者表示，借助于模型從上下文示例中收集見解的固有能力，可以消除額外的定制機制的必要性。

實驗

研究者在 24 點和 5x5 迷你填詞游戲上進行了實驗，結(jié)果表明了 AoT 方法的優(yōu)越性 —— 其性能表現(xiàn)由于單 prompt 方法（如標準方法、CoT、CoT-SC），同時也能媲美利用外部機制的方法（如 ToT）。

從表 1 可以明顯看出，結(jié)合了 CoT/CoT-SC 的標準 prompt 設(shè)計方法明顯落后于通過 LLM 使用的樹搜索方法。

表 3 凸顯了 AoT 在迷你填詞任務(wù)上的有效性，其填詞成功率超過之前使用各種 prompt 技術(shù)的方法。

但是，它比 ToT 差。一個重要的觀察是 ToT 使用的查詢量巨大，超過了 AoT 百倍以上。另一個讓 AoT 遜于 ToT 的因素是算法示例中固有的回溯能力沒有充分得到激活。如果能完全解鎖該能力，會導(dǎo)致生成階段顯著延長。相比之下，ToT 的優(yōu)勢在于可以利用外部記憶來進行回溯。

討論

AoT 能否超越它模仿的 DFS？

如圖 5 所示，AoT 所使用的節(jié)點整體上比 DFS 版本更少。DFS 在選擇后續(xù)要探究的子樹時采用了一種統(tǒng)一的策略，而 AoT 的 LLM 則集成了其固有的啟發(fā)式方法。這種對基本算法的放大體現(xiàn)了 LLM 遞歸推理能力的優(yōu)勢。

算法的選擇會如何影響 AoT 的效能？

表 5 給出了實驗發(fā)現(xiàn)，可以看到這三種 AoT 變體都優(yōu)于單查詢的 CoT。

這一結(jié)果符合預(yù)期，因為無論算法是什么，它都會進行搜索并重新審視潛在的錯誤 —— 要么是通過隨機搜索變體中的隨機嘗試，要么是通過 DFS 或 BFS 配置中的回溯。值得注意的是，AoT (DFS) 和 AoT (BFS) 這兩個結(jié)構(gòu)化搜索的版本的效率都優(yōu)于 AoT (Random)，這突顯了算法洞察在解答發(fā)現(xiàn)中的優(yōu)勢。但是，AoT (BFS) 落后于 AoT (DFS)。通過更進一步分析 AoT (BFS) 的錯誤，研究者發(fā)現(xiàn)，相比于 AoT (DFS)，AoT (BFS) 更難識別最佳操作。

那么，算法示例中的搜索步數(shù)怎么調(diào)節(jié) AoT 的行為？

圖 6 給出了總搜索步數(shù)的影響。其中 AoT (Long) 和 AoT (Short) 分別是相對于原始 AoT 的生成結(jié)果更長和更短的版本。

結(jié)果表明，搜索步數(shù)會為 LLM 的搜索速度引入隱含的偏差。值得注意的是，即使在采取錯誤的步驟時，強調(diào)探索有潛力的方向是很重要的。

責任編輯：張燕妮來源：機器之心

數(shù)據(jù)訓(xùn)練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型為啥這么慢，原來是想多了：新方向是和人一樣的思維算法

思維算法

實驗

討論

大模型為啥這么慢，原來是想多了：新方向是和人一樣的思維算法