自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理

發(fā)布于 2024-6-14 09:47
瀏覽
0收藏

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區(qū)

論文鏈接: https://arxiv.org/abs/2406.04271

代碼鏈接: https://github.com/YangLing0818/buffer-of-thought-llm


近年來,大語言模型(LLMs)如GPT-4、PaLM和LLaMA在各種推理任務(wù)中展現(xiàn)了驚人的性能。然而,盡管這些模型在規(guī)模和性能上不斷提升,它們在處理復(fù)雜推理任務(wù)時仍面臨一定的挑戰(zhàn)。


為了解決這些問題,我們提出了一種名為Buffer of Thoughts(BoT)的新型思維增強推理框架。BoT的核心在于引入一個輕量級的meta-buffer,其中存儲了一系列從不同問題解決過程中提煉出的高層次thought-template。這些模板可以在解決類似問題時被檢索和實例化,從而大幅提升推理的準確性、效率和魯棒性。

Buffer of Thoughts框架

與以往的方法不同,我們創(chuàng)新性地提出了一個緩存思維鏈框架,如下圖所示:

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區(qū)

Buffer-of-Thought和之前prompt-based方法對比

  1. Problem Distiller:該模塊負責(zé)從問題描述中提取關(guān)鍵信息和潛在約束,并將其轉(zhuǎn)化為易于理解和推理的格式。通過這種方式,BoT能夠更好地聚焦于問題的關(guān)鍵點,減少推理過程中的錯誤。
  2. Meta Buffer:該模塊存儲了大量的高層次思維模板,這些模板涵蓋了文本理解、創(chuàng)造性語言生成、常識推理、數(shù)學(xué)推理、代碼編程和應(yīng)用調(diào)度等不同類別。每個模板都是從歷史任務(wù)中提煉出來的,能夠在相似任務(wù)中復(fù)用,從而提高推理的通用性和靈活性。
  3. Buffer Manager:該模塊負責(zé)動態(tài)更新元緩沖區(qū),從已解決的問題中提煉新的高層次思維模板,持續(xù)提升模型的推理能力。通過這種方式,BoT能夠不斷學(xué)習(xí)和進化,適應(yīng)更多樣化的任務(wù)需求。

在面對復(fù)雜的推理任務(wù)時,具體推理流程如下:

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區(qū)

  1. 問題提煉:首先,BoT會利用problem distiller從問題描述中提取關(guān)鍵信息和潛在約束,并將其轉(zhuǎn)化為易于理解和推理的格式。
  2. 模板檢索:接下來,BoT會在meta buffer中檢索與當前問題最相關(guān)的思維模板。這些模板包含了解決類似問題的高層次策略和步驟。
  3. 實例化推理:然后,BoT會根據(jù)檢索到的thought template實例化具體的推理結(jié)構(gòu),并結(jié)合問題提煉器提取的信息進行推理。
  4. 動態(tài)更新:最后,BoT會利用buffer manager將新的問題解決過程提煉成高層次思維模板,并動態(tài)更新到元緩沖區(qū)中,以便未來復(fù)用

我們在10個具有挑戰(zhàn)性的推理任務(wù)上進行了廣泛的實驗,包括Game of 24、Geometric shapes、Checkmate In One等。實驗結(jié)果表明,BoT在這些任務(wù)上顯著超越了現(xiàn)有的最先進方法。例如,在Game of 24上,BoT的準確率達到82.4%,相比于傳統(tǒng)Chain-of-Thought提升了11%。在Geometric shapes任務(wù)上,BoT的準確率高達93.6%,相比于現(xiàn)有方法提升了20%。


此外,BoT在推理效率和魯棒性上也表現(xiàn)出色。與Multi-query prompting方法相比,**BoT的推理成本僅為其12%**,但推理準確率顯著提升。同時,BoT在面對不同任務(wù)時表現(xiàn)出更高的成功率,平均成功率比第二好的方法高出10%。

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區(qū)

模型大小與性能的權(quán)衡分析

如下圖所示,在Game of 24、word list sorting和Checkmate-in-One任務(wù)中,Llama3-8B和Llama-70B模型可能會產(chǎn)生較差的結(jié)果。然而,配備了我們的BoT后,這兩個模型的準確率顯著提高。值得注意的是,BoT+Llama3-8B在某些任務(wù)上可以超越單獨使用Llama3-70B模型的結(jié)果。我們的BoT使得較小的模型能夠展示出接近甚至超越較大模型的能力,顯著縮小了它們之間的推理能力差距。此外,它大大減少了大型語言模型在處理復(fù)雜問題時所需的推理成本。

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區(qū)

魯棒性分析-相比較之前的思維鏈思維鏈,BoT的推理魯棒性也更好:

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區(qū)

BoT魯棒性分析

時間成本分布分析

如圖所示,我們測量了BoT推理框架中各組件在不同任務(wù)中的平均時間成本。提取任務(wù)信息和模板檢索所需的時間相對較短,而實例化推理所需的時間較長。總體而言,考慮到不同組件的復(fù)雜性,我們的BoT在時間成本分布上實現(xiàn)了相對平衡,展示了BoT框架的效率。

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區(qū)

BoT的提出為大語言模型的推理能力帶來了革命性提升。通過利用預(yù)先積累的高質(zhì)量思維模板,BoT不僅顯著提高了推理準確性,還大幅降低了推理成本,為未來的智能推理系統(tǒng)提供了新的研究方向和應(yīng)用前景。


本文轉(zhuǎn)自 AI生成未來 ,作者:大仲馬


原文鏈接:??https://mp.weixin.qq.com/s/JfLekhDJvv8gx9phOGY1uQ??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦