DianJin-R1:金融領(lǐng)域推理增強(qiáng)大模型,全面超越DeepSeek-R1
大型語言模型(LLMs)在推理能力上的進(jìn)展引發(fā)了對其在復(fù)雜任務(wù)中表現(xiàn)的關(guān)注,尤其是在金融領(lǐng)域。DianJin-R1是一個針對金融領(lǐng)域的推理增強(qiáng)框架,通過推理增強(qiáng)監(jiān)督和強(qiáng)化學(xué)習(xí),提升金融推理任務(wù)的表現(xiàn)。
DianJin-R1模型在金融測試集(CFLUE、FinQA、CCC)上顯著優(yōu)于基礎(chǔ)模型,尤其在CFLUE和CCC上表現(xiàn)突出,DianJin-R1-32B在CFLUE上準(zhǔn)確率從77.95提升至86.74,CCC上從56.50提升至96.00,超越DeepSeek-R1。
摘要
DianJin-R1是一個針對金融領(lǐng)域的推理增強(qiáng)框架,旨在解決大語言模型在該領(lǐng)域的推理挑戰(zhàn)。該框架使用DianJin-R1Data數(shù)據(jù)集,結(jié)合CFLUE、FinQA和中國合規(guī)檢查(CCC)數(shù)據(jù),涵蓋多樣的金融推理場景。模型DianJin-R1-7B和DianJin-R1-32B基于Qwen2.5進(jìn)行微調(diào),采用結(jié)構(gòu)化格式生成推理步驟和最終答案。通過應(yīng)用群體相對策略優(yōu)化(GRPO)強(qiáng)化學(xué)習(xí),模型獲得了結(jié)構(gòu)化輸出和答案正確性的雙重獎勵信號。
在五個基準(zhǔn)測試上,DianJin-R1模型在復(fù)雜金融任務(wù)中表現(xiàn)優(yōu)于非推理模型,尤其在真實(shí)世界的CCC數(shù)據(jù)集上,單次推理模型的表現(xiàn)超過多代理系統(tǒng)。DianJin-R1展示了通過結(jié)構(gòu)化監(jiān)督和獎勵對齊學(xué)習(xí)提升金融推理的有效性,提供了可擴(kuò)展的實(shí)際應(yīng)用解決方案。
簡介
大型語言模型(LLMs)在推理能力上的進(jìn)展引發(fā)了對其在復(fù)雜任務(wù)中表現(xiàn)的關(guān)注,尤其是在金融領(lǐng)域。DianJin-R1模型通過推理增強(qiáng)監(jiān)督和強(qiáng)化學(xué)習(xí),提升金融推理任務(wù)的表現(xiàn)。構(gòu)建了高質(zhì)量的推理數(shù)據(jù)集DianJin-R1-Data,來源包括CFLUE、FinQA和合規(guī)性數(shù)據(jù)集CCC。采用GPT-4o進(jìn)行驗(yàn)證,確保生成答案與推理步驟的一致性。
DianJin-R1-7B和DianJin-R1-32B模型通過結(jié)構(gòu)化輸出格式進(jìn)行監(jiān)督微調(diào),并使用GRPO強(qiáng)化學(xué)習(xí)算法優(yōu)化推理質(zhì)量。在CFLUE、FinQA、CCC等基準(zhǔn)測試中,DianJin-R1模型表現(xiàn)優(yōu)于非推理模型,尤其在金融領(lǐng)域。實(shí)際應(yīng)用中,基于LLMs的多代理系統(tǒng)在CCC數(shù)據(jù)集上進(jìn)行條件合規(guī)檢查,整合中間推理步驟以得出最終判斷。DianJin-R1結(jié)合高質(zhì)量監(jiān)督、結(jié)構(gòu)化推理生成和獎勵驅(qū)動的強(qiáng)化學(xué)習(xí),提供了一種可擴(kuò)展的金融推理增強(qiáng)策略。
DianJin-R1-Data建設(shè)
數(shù)據(jù)源
CFLUE數(shù)據(jù)集。包含38,638道金融考試多選題,經(jīng)過長度、難度和模糊性三步篩選,確保問題清晰且具備深度推理能力,適合評估LLMs的金融推理能力。
FinQA數(shù)據(jù)集。包含8,281個金融問答對,經(jīng)過相同的長度和難度篩選,適合評估英語金融推理。
CCC數(shù)據(jù)集。內(nèi)部數(shù)據(jù)集,評估服務(wù)代理的合規(guī)性,包含客戶與服務(wù)代理的對話,經(jīng)過人工審核,確保合規(guī)與非合規(guī)案例的平衡分布。
推理數(shù)據(jù)集構(gòu)建
針對CCC、CFLUE和FinQA數(shù)據(jù)集的差異,采用不同的推理構(gòu)建方法。
CFLUE問題的推理生成
定義DCFLUE MCQ為包含問題、解釋和答案的多選題數(shù)據(jù)集。使用GPT-4o將DCFLUE MCQ中的多選題轉(zhuǎn)換為開放式問題,生成DCFLUE OE數(shù)據(jù)集。利用DeepSeek-R1生成推理鏈和預(yù)測答案,并用GPT-4o驗(yàn)證答案和推理的一致性。滿足條件的實(shí)例保留為有效推理樣本,未滿足的實(shí)例最多重試3次,最終未成功的實(shí)例歸為難題樣本。
生成的推理增強(qiáng)數(shù)據(jù)集為RCFLUE MQC,難題數(shù)據(jù)集為GCFLUE MQC。對DCFLUE OE應(yīng)用相同流程,生成RCFLUE OE和GCFLUE OE數(shù)據(jù)集。
FinQA問題的推理生成
FinQA數(shù)據(jù)集的QA對已為開放式格式,表示為D FinQA。將CFLUE中的推理生成過程應(yīng)用于D FinQA,得到推理增強(qiáng)數(shù)據(jù)集R FinQA。生成的非推理數(shù)據(jù)集為G FinQA。
基于多Agent的CCC對話推理生成
CCC數(shù)據(jù)集DCCC包含對話x_i及其對應(yīng)的合規(guī)性判斷答案y_i,判斷過程復(fù)雜,需遵循指導(dǎo)原則。開發(fā)了一個工作流程,從開始節(jié)點(diǎn)到兩個結(jié)果節(jié)點(diǎn),評估合規(guī)性違規(guī)與否。
使用多代理LLM系統(tǒng)生成推理,采用Qwen2.5-72B-Instruct為每個條件節(jié)點(diǎn)生成中間推理鏈(CoTs)和答案。最終答案a_i由結(jié)果節(jié)點(diǎn)決定,若與金標(biāo)準(zhǔn)答案y_i匹配,則合并中間推理鏈生成統(tǒng)一推理r_i。若不匹配,最多重試T次,生成的推理增強(qiáng)數(shù)據(jù)集為RCC,未增強(qiáng)數(shù)據(jù)集為GCC。
模型訓(xùn)練
訓(xùn)練大型語言模型(LLMs)進(jìn)行金融推理分為兩個階段:
- 通過監(jiān)督微調(diào)(SFT)學(xué)習(xí)推理。
- 通過強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)推理能力。
使用SFT學(xué)習(xí)推理
使用R CFLUE MCQ、RCFLUE OE、R FinQA和RCCC數(shù)據(jù)集對LLMs進(jìn)行微調(diào),以生成推理鏈(CoT)和最終答案。每個訓(xùn)練實(shí)例包含問題x、推理路徑r和答案y。在微調(diào)過程中,問題x作為模型輸入,推理r和答案y作為目標(biāo)輸出,幫助模型學(xué)習(xí)生成連貫的推理步驟和正確的解決方案。
使用強(qiáng)化學(xué)習(xí)增加推理能力
GCFLUE MCQ數(shù)據(jù)集用于強(qiáng)化學(xué)習(xí)(RL),旨在提升推理能力。采用Group Relative Policy Optimization(GRPO)算法,結(jié)合兩種獎勵機(jī)制:
- 格式獎勵:輸出需包含一個推理段(...)和一個最終答案(...),格式正確得1分,錯誤得0分。
- 準(zhǔn)確性獎勵:若標(biāo)簽內(nèi)內(nèi)容與參考答案完全一致,得1分;否則得0分,鼓勵生成準(zhǔn)確答案。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
DianJin-R1-Data的統(tǒng)計(jì)信息總結(jié)在表1中,CFLUE MCQ占SFT數(shù)據(jù)的大部分,數(shù)據(jù)經(jīng)過洗牌以防止過擬合。
模型訓(xùn)練分為兩個階段,使用NVIDIA A100 GPU,7B模型在單節(jié)點(diǎn)8 GPU上訓(xùn)練,32B模型在4節(jié)點(diǎn)32 GPU上訓(xùn)練。SFT階段使用DeepSpeed的Zero-3優(yōu)化,學(xué)習(xí)率1.0 × 10^-5,序列長度16K,bf16精度,訓(xùn)練3個epoch,梯度累積16步。RL階段每個樣本進(jìn)行8次回合,訓(xùn)練批量大小1024,回合批量大小256,學(xué)習(xí)率1.0 × 10^-6,采樣溫度0.6,訓(xùn)練5個epoch。
評估模型使用三個金融基準(zhǔn)數(shù)據(jù)集:CFLUE、FinQA和自有數(shù)據(jù)集CCC,以及兩個推理能力評估基準(zhǔn):MATH500和GPQA-Diamond。報(bào)告準(zhǔn)確率,即正確回答問題的比例,并計(jì)算所有測試集的平均準(zhǔn)確率。CFLUE和CCC為中文數(shù)據(jù)集,其余為英文。FinQA和CCC的答案正確性由GPT-4o評估,其他數(shù)據(jù)集通過規(guī)則方法提取答案并與標(biāo)準(zhǔn)答案比較。
基線模型分為兩類:一類為無明確推理能力的通用LLM(如GPT-4o、DeepSeekV3等);另一類為具備推理能力的通用LLM(如DeepSeek-R1及其衍生模型)。
結(jié)果
DianJin-R1模型在金融測試集(CFLUE、FinQA、CCC)上顯著優(yōu)于基礎(chǔ)模型,尤其在CFLUE和CCC上表現(xiàn)突出,DianJin-R1-32B在CFLUE上準(zhǔn)確率從77.95提升至86.74,CCC上從56.50提升至96.00,超越DeepSeek-R1。
在一般領(lǐng)域測試集(MATH-500、GPQA-Diamond)上,DianJin-R1模型也有提升,但由于未使用一般領(lǐng)域推理數(shù)據(jù),表現(xiàn)仍低于大型模型或經(jīng)過一般推理數(shù)據(jù)微調(diào)的模型。
一般推理模型(如DeepSeek-R1、QwQ-32B)在一般推理基準(zhǔn)上表現(xiàn)優(yōu)異,但在金融基準(zhǔn)上不一定更好,DeepSeek-R1在CFLUE和CCC上優(yōu)于DeepSeek-V3,但在FinQA上表現(xiàn)下降,DeepSeek-R1-Distill-Qwen-7B在所有金融測試集上均不及Qwen-2.5-7B-Instruct。
討論
SFT顯著提升了模型在所有數(shù)據(jù)集上的表現(xiàn),增強(qiáng)了推理能力。RL在所有數(shù)據(jù)集上均有改善,唯獨(dú)FinQA例外,可能因RL實(shí)例為中文,F(xiàn)inQA為英文,未來將加入英文示例。
SFT使用的三個數(shù)據(jù)源為CFLUE、FinQA和CCC,其中CFLUE對性能影響最大,包含31,000多個推理實(shí)例,單獨(dú)使用時準(zhǔn)確率從59.26提升至65.67。添加FinQA或CCC主要提升各自測試集的表現(xiàn),對整體影響有限。
多代理LLM系統(tǒng)用于檢測CCC數(shù)據(jù)集中的合規(guī)性違規(guī),采用條件節(jié)點(diǎn)的推理生成工作流程。引入多代理方法后,準(zhǔn)確率從55.50提升至95.00,顯示出結(jié)構(gòu)化推理的有效性,但平均每個實(shí)例需8.15次API調(diào)用。DianJin-R1-7B和DianJin-R1-32B模型在僅一次API調(diào)用的情況下,表現(xiàn)出與多代理方法相當(dāng)或更優(yōu)的性能,體現(xiàn)了有效推理和組織推理路徑的能力。
總結(jié)和未來工作
DianJin-R1是一個針對金融領(lǐng)域的大型語言模型的推理增強(qiáng)框架,結(jié)合結(jié)構(gòu)化監(jiān)督和強(qiáng)化學(xué)習(xí)算法(GRPO),提升復(fù)雜金融和合規(guī)任務(wù)的表現(xiàn)。實(shí)驗(yàn)表明,推理感知訓(xùn)練顯著提高了模型的準(zhǔn)確性和可解釋性。
本文轉(zhuǎn)載自???靈度智能???,作者:靈度智能
