多智能體微調(diào):用多樣化推理鏈實現(xiàn)語言模型的自我提升
圖片
1. 問題:單一模型自我提升的瓶頸
近年來,大語言模型(LLMs)如GPT-4取得了顯著進展,但這些模型的性能仍然受限于已有的訓練數(shù)據(jù)。盡管通過生成合成數(shù)據(jù)進行自我微調(diào)成為提升模型的主流方法,但隨著微調(diào)輪次的增加,性能提升會迅速進入“收益遞減”狀態(tài),模型的多樣性和推理能力難以進一步提高。這種瓶頸限制了語言模型在復雜推理任務中的表現(xiàn)。
圖片
2. 方法:多智能體協(xié)作微調(diào)(Multiagent Finetuning)
論文提出了一種全新框架——多智能體微調(diào)(Multiagent Finetuning),通過組建由多個語言模型組成的“智能體社會”,實現(xiàn)協(xié)作與自我提升:
智能體角色分工:將模型分為“生成智能體”和“評論智能體”。生成智能體負責提供初步答案,評論智能體對其進行批判性評估和改進,形成高質(zhì)量反饋閉環(huán)。
數(shù)據(jù)獨立性與多樣性:每個智能體基于獨立的數(shù)據(jù)子集進行微調(diào),從而在推理鏈中實現(xiàn)角色的專業(yè)化與結果的多樣化。
多智能體辯論機制:智能體間進行“辯論”以協(xié)同優(yōu)化最終答案,確保整體推理鏈的邏輯性和準確性。
通過這一分級協(xié)作的方法,模型能夠持續(xù)改進,克服單一模型方法中的多樣性喪失問題。
圖片
3. 結果:性能顯著提升
實驗表明,多智能體微調(diào)在多種推理任務上顯著超越現(xiàn)有基線方法,包括單一模型微調(diào)、基于投票的多智能體方法和其他辯論機制:
在開源模型(Phi-3、Mistral、LLaMA-3)和專有模型(GPT-3.5)上均實現(xiàn)了大幅性能提升。
在復雜任務如數(shù)學推理(MATH)和通用問題求解(GSM)中,多智能體微調(diào)方法不僅增強了準確性,還保留了豐富的推理鏈條和內(nèi)容多樣性。
即便在僅使用500個微調(diào)樣本的情況下,效果仍超越了多輪單一模型微調(diào)方法。
圖片
4. 意義:為語言模型的未來開辟新路徑
多智能體微調(diào)為語言模型的自我提升提供了全新的思路,不僅解決了單一模型在微調(diào)過程中性能瓶頸的問題,還展示了多智能體協(xié)作在復雜推理任務中的強大潛力。未來,這一方法可與人類反饋強化學習(RLHF)等技術結合,用于進一步優(yōu)化語言模型的泛化能力和實用性。
圖片
總結:從“單兵作戰(zhàn)”到“團隊協(xié)作”,多智能體微調(diào)讓語言模型自我提升的邊界更加廣闊,為復雜推理任務帶來了新可能。
論文標題:Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
論文鏈接:???https://arxiv.org/abs/2501.05707??
本文轉載自 ??AI帝國??,作者: 無影寺
