自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型 原創(chuàng)

發(fā)布于 2025-4-7 06:34
瀏覽
0收藏

摘要

推理大語(yǔ)言模型(LLMs)正在各個(gè)領(lǐng)域快速發(fā)展,但其處理復(fù)雜金融問(wèn)題的能力仍需深入探索。本文介紹了Fin-R1,一個(gè)專(zhuān)為金融推理設(shè)計(jì)的大語(yǔ)言模型。該模型參數(shù)規(guī)模輕量(70億),顯著降低了部署成本,同時(shí)有效解決了金融領(lǐng)域的三大痛點(diǎn):碎片化的金融數(shù)據(jù)、不可控的推理邏輯以及薄弱的業(yè)務(wù)泛化能力。為提升模型推理能力,我們首先通過(guò)從多個(gè)權(quán)威數(shù)據(jù)集蒸餾和篩選,構(gòu)建了Fin-R1-Data——一個(gè)包含約60,091條完整思維鏈(CoT)的高質(zhì)量數(shù)據(jù)集,涵蓋推理和非推理金融場(chǎng)景。隨后,我們基于該數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練。這種兩階段框架顯著增強(qiáng)了模型執(zhí)行復(fù)雜金融推理任務(wù)的能力,使其在金融AI應(yīng)用中能夠做出更準(zhǔn)確且可解釋的決策。盡管Fin-R1僅有70億參數(shù)的緊湊結(jié)構(gòu),但在覆蓋多種金融業(yè)務(wù)場(chǎng)景的權(quán)威基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,平均得分75.2,綜合排名第二,顯著優(yōu)于其他大規(guī)模推理LLMs。值得注意的是,F(xiàn)in-R1優(yōu)于DeepSeek-R1-Distill-Llama-70B,展現(xiàn)了其高效性和有效性。在專(zhuān)注于金融推理的ConvFinQA和FinQA任務(wù)中,F(xiàn)in-R1分別取得了85.0和76.0的先進(jìn)水平得分。在實(shí)際應(yīng)用中,F(xiàn)in-R1在金融合規(guī)和機(jī)器人投顧等領(lǐng)域展現(xiàn)了強(qiáng)大的自動(dòng)化推理和決策能力,為長(zhǎng)期困擾金融行業(yè)的挑戰(zhàn)提供了高效解決方案。代碼已開(kāi)源:https://github.com/SUFE-AIFLM-Lab/Fin-R1。

1 引言

近年來(lái),大語(yǔ)言模型(LLMs)的快速迭代顯著推動(dòng)了人工智能向通用人工智能(AGI)的演進(jìn)。OpenAI的o1系列模型通過(guò)“探索-反思-迭代”機(jī)制擴(kuò)展“思維鏈”推理過(guò)程的長(zhǎng)度,增強(qiáng)了解決復(fù)雜推理任務(wù)的能力。類(lèi)似的o1類(lèi)LLMs,如QwQ和Marco-o1,在數(shù)學(xué)、編程和邏輯推理等多種任務(wù)中取得了顯著進(jìn)步。金融領(lǐng)域的o1模型復(fù)現(xiàn)版本,如XuanYuan-FinX1-Preview和Fino1,也展示了LLMs在模擬人類(lèi)認(rèn)知過(guò)程和處理復(fù)雜任務(wù)方面的巨大潛力。DeepSeek-R1采用了與o1類(lèi)模型完全不同的方法,通過(guò)純強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)大語(yǔ)言模型的推理能力。經(jīng)過(guò)數(shù)千步的無(wú)監(jiān)督RL訓(xùn)練,結(jié)合少量冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練框架,該模型在基準(zhǔn)測(cè)試中展現(xiàn)出涌現(xiàn)的推理能力。同時(shí),這種訓(xùn)練策略進(jìn)一步優(yōu)化了模型的推理性能和可讀性,證明了RL驅(qū)動(dòng)方法在提升大規(guī)模語(yǔ)言模型推理能力方面的有效性。

然而,通用推理模型應(yīng)用于金融領(lǐng)域時(shí),仍面臨垂直場(chǎng)景適配的挑戰(zhàn)。金融推理任務(wù)通常涉及法律條款、經(jīng)濟(jì)指標(biāo)和數(shù)學(xué)建模等知識(shí),不僅需要跨學(xué)科知識(shí)的整合,還要求推理邏輯可驗(yàn)證且步驟清晰。在真實(shí)金融業(yè)務(wù)場(chǎng)景中應(yīng)用LLMs時(shí),常遇到以下問(wèn)題:  

1. 金融數(shù)據(jù)碎片化:數(shù)據(jù)不一致不僅增加了預(yù)處理復(fù)雜度,還可能導(dǎo)致信息冗余或缺失,削弱模型對(duì)金融領(lǐng)域的全面理解和推理能力。  

2. 黑盒推理邏輯:現(xiàn)有模型的復(fù)雜結(jié)構(gòu)使其推理過(guò)程難以直觀解釋?zhuān)c金融監(jiān)管對(duì)透明性和可追溯性的要求相矛盾,限制了模型在關(guān)鍵金融業(yè)務(wù)中的應(yīng)用。  

3. 金融場(chǎng)景泛化能力不足:現(xiàn)有模型在不同場(chǎng)景中表現(xiàn)不穩(wěn)定,難以及時(shí)遷移和泛化到新業(yè)務(wù)場(chǎng)景,導(dǎo)致高風(fēng)險(xiǎn)金融應(yīng)用中輸出不可靠。

為解決通用推理模型在金融領(lǐng)域的挑戰(zhàn),本文提出Fin-R1——專(zhuān)為金融推理設(shè)計(jì)的大語(yǔ)言模型。通過(guò)重構(gòu)高質(zhì)量金融推理數(shù)據(jù)集并采用兩階段訓(xùn)練框架,F(xiàn)in-R1有效解決了金融數(shù)據(jù)碎片化、推理邏輯不可控和業(yè)務(wù)泛化能力弱三大核心問(wèn)題。主要貢獻(xiàn)如下:  

- 高質(zhì)量金融推理數(shù)據(jù)集:提出Fin-R1-Data,一個(gè)從多權(quán)威金融數(shù)據(jù)集蒸餾篩選的高質(zhì)量CoT數(shù)據(jù)集,專(zhuān)為專(zhuān)業(yè)金融推理場(chǎng)景設(shè)計(jì),覆蓋中英文金融垂直領(lǐng)域的多維專(zhuān)業(yè)知識(shí)。  

- 顯式金融推理大語(yǔ)言模型:提出Fin-R1,基于多維金融業(yè)務(wù)數(shù)據(jù)集訓(xùn)練,精準(zhǔn)滿(mǎn)足金融行業(yè)對(duì)決策過(guò)程、數(shù)值嚴(yán)謹(jǐn)性和業(yè)務(wù)泛化能力的核心需求。  

- 兩階段模型構(gòu)建框架:提出包含高質(zhì)量CoT數(shù)據(jù)集構(gòu)建和SFT+RL模型訓(xùn)練的兩階段工作流框架,顯著提升模型金融推理性能。

報(bào)告結(jié)構(gòu)如下:第2節(jié)詳細(xì)描述方法框架;第3節(jié)簡(jiǎn)述多金融基準(zhǔn)測(cè)試的實(shí)驗(yàn)結(jié)果;第4節(jié)總結(jié)技術(shù)貢獻(xiàn)并展望未來(lái)研究方向。

2 方法  

 2.1 概述  

我們提出了如圖1所示的兩階段模型構(gòu)建框架。在數(shù)據(jù)生成階段,我們基于DeepSeek-R1進(jìn)行數(shù)據(jù)蒸餾,并采用LLM-as-Judge(Xu et al., 2023)的數(shù)據(jù)過(guò)濾方法,構(gòu)建高質(zhì)量金融推理數(shù)據(jù)集Fin-R1-Data。在模型訓(xùn)練階段,我們基于Qwen2.5-7B-Instruct構(gòu)建金融推理模型Fin-R1,通過(guò)監(jiān)督微調(diào)(SFT)和組相對(duì)策略?xún)?yōu)化算法(GRPO)(Shao et al., 2024)提升模型推理能力并規(guī)范化輸出格式。  


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖1:Fin-R1構(gòu)建流程示意圖。展示了Fin-R1的兩階段構(gòu)建框架:數(shù)據(jù)生成階段(使用DeepSeek-R1生成CoT數(shù)據(jù),并通過(guò)Qwen2.5-72B-Instruct進(jìn)行質(zhì)量過(guò)濾)和模型訓(xùn)練階段(包括Fin-R1的SFT預(yù)訓(xùn)練和GRPO優(yōu)化)。右側(cè)突出顯示了Fin-R1在金融代碼生成、專(zhuān)業(yè)知識(shí)和業(yè)務(wù)知識(shí)方面的性能表現(xiàn)。

2.2 數(shù)據(jù)構(gòu)建  

我們的目標(biāo)是開(kāi)發(fā)Fin-R1-Data,一個(gè)專(zhuān)為金融領(lǐng)域設(shè)計(jì)的高質(zhì)量監(jiān)督微調(diào)(SFT)數(shù)據(jù)集。為此,我們?cè)O(shè)計(jì)了穩(wěn)健且全面的數(shù)據(jù)構(gòu)建流程,包括數(shù)據(jù)蒸餾和數(shù)據(jù)過(guò)濾,以確保數(shù)據(jù)集的準(zhǔn)確性和可靠性。數(shù)據(jù)構(gòu)建的詳細(xì)流程如圖2所示。              


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖2:第一階段數(shù)據(jù)構(gòu)建流程:(1)數(shù)據(jù)蒸餾,(2)答案檢查(通過(guò)LLM評(píng)估DeepSeek-R1生成答案的準(zhǔn)確性),(3)推理選擇(通過(guò)LLM評(píng)估和評(píng)分推理軌跡以確保邏輯連貫性和質(zhì)量)。"Reasoning"表示推理輸出,"Thinking"指評(píng)判模型的評(píng)估過(guò)程。

2.2.1 數(shù)據(jù)來(lái)源  

Fin-R1-Data共包含60,091條獨(dú)立條目,涵蓋中英雙語(yǔ)內(nèi)容。數(shù)據(jù)集主要由開(kāi)源數(shù)據(jù)集和專(zhuān)有數(shù)據(jù)集兩部分組成。開(kāi)源數(shù)據(jù)集包括:  

- Ant_Finance(Alipay Team, 2023)  

- FinanceIQ(Duxiaoman DI Team, 2023b)  

- Quant-Trading-Instruct (FinanceQT)(Malik, 2024)  

- ConvFinQA(Chen et al., 2022)  

- FinQA(Chen et al., 2021)      

- Twitter-Financial-News-Sentiment (TFNS)(Anonymous, 2024)  

- Finance-Instruct-500K(Flowers, 2025)  

- FinCorpus(Duxiaoman DI Team, 2023a)  

- FinCUGE(Lu et al., 2023)  

專(zhuān)有數(shù)據(jù)集部分為金融研究生入學(xué)考試(FinPEE)數(shù)據(jù)集,包含350道金融研究生入學(xué)考試的計(jì)算題。FinPEE的構(gòu)建遵循嚴(yán)格的多階段流程:  

1. 首先以PDF格式收集數(shù)據(jù),并使用Mineru(Wang et al., 2024a)批量轉(zhuǎn)換為Markdown格式。  

2. 隨后通過(guò)正則化技術(shù)提取結(jié)構(gòu)化問(wèn)答對(duì)(Q-A)。  

3. 為確保數(shù)據(jù)完整性和準(zhǔn)確性,所有提取的Q-A對(duì)均經(jīng)過(guò)人工審查和驗(yàn)證,最終形成高質(zhì)量的金融研究生考試題目數(shù)據(jù)集。  

Fin-R1-Data的組成結(jié)構(gòu)如圖3所示。  


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖3:Fin-R1-Data的組成結(jié)構(gòu):(1)金融代碼,(2)金融專(zhuān)業(yè)知識(shí),(3)金融推理知識(shí),(4)金融非推理知識(shí)。

表1系統(tǒng)展示了Fin-R1-Data中各類(lèi)別的描述、數(shù)據(jù)來(lái)源及比例分布。數(shù)據(jù)集主要由金融非推理業(yè)務(wù)知識(shí)和金融推理業(yè)務(wù)知識(shí)構(gòu)成,合計(jì)占比77.9%。這兩類(lèi)數(shù)據(jù)全面覆蓋了真實(shí)金融業(yè)務(wù)場(chǎng)景的廣泛操作流程。此外,金融專(zhuān)業(yè)知識(shí)是數(shù)據(jù)集的重要組成部分,涵蓋多個(gè)金融子領(lǐng)域的關(guān)鍵概念,占比21.9%。Fin-R1-Data還包含專(zhuān)門(mén)用于量化交易策略開(kāi)發(fā)的金融代碼數(shù)據(jù),但僅占0.2%。 

表1:Fin-R1-Data的類(lèi)別及來(lái)源    


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

 2.2.2 數(shù)據(jù)處理  

數(shù)據(jù)處理包括數(shù)據(jù)蒸餾和數(shù)據(jù)過(guò)濾兩個(gè)階段。  

數(shù)據(jù)蒸餾階段的參數(shù)配置嚴(yán)格遵循DeepSeek-R1官方規(guī)范,具體設(shè)置如下:  

1. 溫度(temperature)設(shè)為0.6。  

2. 對(duì)于數(shù)學(xué)數(shù)據(jù),使用標(biāo)準(zhǔn)化提示:“請(qǐng)用\boxed{}包裹最終答案”,以確保答案格式一致。  

3. 為保持與目標(biāo)推理模式對(duì)齊,在生成數(shù)據(jù)前強(qiáng)制在每個(gè)輸出開(kāi)頭追加“\n”。  

數(shù)據(jù)過(guò)濾階段包含兩個(gè)主要部分:      

1. 答案檢查(評(píng)估模型生成答案的準(zhǔn)確性):僅保留與參考答案完全匹配的響應(yīng)。若DeepSeek-R1生成的答案與數(shù)據(jù)集提供的標(biāo)準(zhǔn)答案不符,則直接丟棄。對(duì)于客觀題,采用精確匹配確保正確性;對(duì)于主觀題,采用LLM-as-Judge評(píng)估答案有效性。  

2. 推理篩選(評(píng)估推理軌跡的質(zhì)量):從Xie et al.(2024)的研究中提煉出七個(gè)關(guān)鍵維度——內(nèi)部一致性、術(shù)語(yǔ)重疊率、推理步驟數(shù)量、邏輯連貫性、內(nèi)容多樣性、任務(wù)領(lǐng)域相關(guān)性和任務(wù)指令對(duì)齊性,用于全面評(píng)估模型的推理軌跡數(shù)據(jù)。  

為確保過(guò)濾過(guò)程的穩(wěn)健性,我們對(duì)比了人工標(biāo)注者與模型的評(píng)分相關(guān)性。結(jié)果顯示,Qwen2.5-72B-Instruct的評(píng)分與人工判斷高度一致,僅存在微小偏差,而GPT-4o的偏差較大(詳見(jiàn)附錄A.2)。因此,我們選擇Qwen2.5-72B-Instruct評(píng)估推理軌跡質(zhì)量,并基于評(píng)分篩選高質(zhì)量軌跡,最終形成用于監(jiān)督微調(diào)(SFT)的優(yōu)化數(shù)據(jù)集。圖4展示了高質(zhì)量與低質(zhì)量推理軌跡的對(duì)比示例。  


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

  

Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖4:高質(zhì)量和低質(zhì)量推理選擇過(guò)濾的示例

 2.3 訓(xùn)練方法  

Fin-R1首先通過(guò)監(jiān)督微調(diào)(SFT)使用高質(zhì)量金融推理數(shù)據(jù)集進(jìn)行訓(xùn)練,以增強(qiáng)其推理能力。在此基礎(chǔ)上,我們采用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)組相對(duì)策略?xún)?yōu)化(GRPO),結(jié)合金融問(wèn)答數(shù)據(jù)和雙獎(jiǎng)勵(lì)機(jī)制,提升答案格式和內(nèi)容的準(zhǔn)確性。圖5直觀總結(jié)了整體訓(xùn)練框架,展示了監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的協(xié)同整合。  


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖5:第二階段訓(xùn)練構(gòu)建流程。SFT階段:基礎(chǔ)模型使用結(jié)構(gòu)化推理增強(qiáng)數(shù)據(jù)集進(jìn)行SFT,重點(diǎn)提升金融推理能力。RL階段:應(yīng)用GRPO算法,引入組計(jì)算機(jī)制提供兩種獎(jiǎng)勵(lì)信號(hào)——格式正確性和內(nèi)容準(zhǔn)確性。

2.3.1 訓(xùn)練數(shù)據(jù)模板      

SFT訓(xùn)練數(shù)據(jù):在監(jiān)督微調(diào)階段,訓(xùn)練數(shù)據(jù)集V中的每個(gè)樣本v包含三個(gè)部分,即v = (x, c, y),其中:  

- x表示問(wèn)題  

- c表示推理軌跡,格式化為...  

- y表示答案,格式化為...  

在SFT階段,x作為訓(xùn)練集輸入,c和y作為訓(xùn)練集輸出。此階段使模型學(xué)習(xí)結(jié)構(gòu)化金融推理模式,優(yōu)化參數(shù)以生成格式良好的推理軌跡和準(zhǔn)確答案。  

RL訓(xùn)練數(shù)據(jù):在強(qiáng)化學(xué)習(xí)階段,每個(gè)樣本v = (x, y),其中x為問(wèn)題,y為模型輸出(僅含答案,不含推理軌跡)。強(qiáng)化學(xué)習(xí)通過(guò)提升答案準(zhǔn)確性和格式合規(guī)性進(jìn)一步優(yōu)化輸出質(zhì)量。  

2.3.2 監(jiān)督微調(diào)(SFT)

我們首先在Qwen2.5-7B-Instruct模型上進(jìn)行監(jiān)督微調(diào),特別針對(duì)金融推理的關(guān)鍵方面進(jìn)行優(yōu)化。這一微調(diào)過(guò)程有效緩解了通用模型在金融推理任務(wù)中出現(xiàn)的推理失敗問(wèn)題。訓(xùn)練數(shù)據(jù)由ConvFinQA和FinQA數(shù)據(jù)集組成。經(jīng)過(guò)SFT后,模型在金融推理方面表現(xiàn)出顯著提升的性能,詳見(jiàn)表2。

2.3.3 組相對(duì)策略?xún)?yōu)化(GRPO)

在強(qiáng)化學(xué)習(xí)階段,我們采用組相對(duì)策略?xún)?yōu)化(GRPO)算法。    

對(duì)于每次訓(xùn)練迭代,我們從舊策略π_old中采樣G個(gè)候選輸出{α_i}^G_i=1。每個(gè)輸出獲得獎(jiǎng)勵(lì)r_i,據(jù)此我們計(jì)算組相對(duì)優(yōu)勢(shì)A_i:

A_i = (r_i - μ_{r})/σ_{r}

其中μ_{r}和σ_{r}分別表示組內(nèi)獎(jiǎng)勵(lì)值的均值和標(biāo)準(zhǔn)差。超過(guò)組平均值的輸出將獲得更高的優(yōu)勢(shì)值以進(jìn)行優(yōu)先優(yōu)化。策略更新通過(guò)最大化以下目標(biāo)函數(shù)實(shí)現(xiàn):

J_GRPO(θ) = E_{v~P(V),{α_i}^G_i=1~π_{θ,old}(O|v)} 

[1/G Σ^G_i=1 (min(r^ratio_i A_i, clip(r^ratio_i,1-ε,1+ε)A_i) - βD_KL(π_θ||π_ref))]

其中:

- r^ratio_i = π_θ(α_i|v)/π_{θ,old}(α_i|v)表示重要性采樣比率

- A_i表示組相對(duì)優(yōu)勢(shì)

- clip(r^ratio_i,1-ε,1+ε)將更新幅度限制在信任區(qū)域內(nèi)

- D_KL(π_θ||π_ref)是KL散度

- β是超參數(shù)    


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

2.3.4 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

在基于GRPO訓(xùn)練獎(jiǎng)勵(lì)模型的過(guò)程中,我們采用兩種獎(jiǎng)勵(lì)機(jī)制:格式獎(jiǎng)勵(lì)和準(zhǔn)確度獎(jiǎng)勵(lì)。

格式獎(jiǎng)勵(lì):我們鼓勵(lì)輸出包含...標(biāo)簽內(nèi)的推理步驟序列和...標(biāo)簽內(nèi)的簡(jiǎn)明最終答案。如果所有四個(gè)標(biāo)簽恰好出現(xiàn)一次且標(biāo)簽外無(wú)額外內(nèi)容,則給予1分格式獎(jiǎng)勵(lì)分,否則為0分。格式獎(jiǎng)勵(lì)函數(shù)定義如下:    


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)


準(zhǔn)確度獎(jiǎng)勵(lì):在金融場(chǎng)景中,我們發(fā)現(xiàn)難以通過(guò)基于規(guī)則的方法窮盡列舉答案正則表達(dá)式。因此采用Qwen2.5-Max作為答案評(píng)估的評(píng)判者。從模型輸出中提取...標(biāo)簽內(nèi)的內(nèi)容作為標(biāo)準(zhǔn)答案。如果標(biāo)簽內(nèi)輸出與標(biāo)準(zhǔn)答案語(yǔ)義一致,則獎(jiǎng)勵(lì)1分,否則為0分。準(zhǔn)確度獎(jiǎng)勵(lì)函數(shù)定義如下:


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

2.4 評(píng)估

2.4.1 評(píng)估數(shù)據(jù)集

我們通過(guò)系統(tǒng)驗(yàn)證五個(gè)代表性開(kāi)源異構(gòu)數(shù)據(jù)集建立金融領(lǐng)域多任務(wù)基準(zhǔn)框架:FinQA、ConvFinQA、Ant-Finance、TFNS和Finance-Instruct-500k。為控制成本并保持?jǐn)?shù)據(jù)分布相對(duì)統(tǒng)一,每個(gè)評(píng)估集隨機(jī)采樣1,000條數(shù)據(jù)進(jìn)行評(píng)估,若不足1,000條則評(píng)估全部。

2.4.2 評(píng)估方法    

本研究采用的金融評(píng)估數(shù)據(jù)集(除Finance-Instruct-500k外)均采用客觀題形式,具有確定唯一的參考答案。鑒于數(shù)值計(jì)算問(wèn)題可能導(dǎo)致模型輸出與參考答案在表示形式上存在差異(如圖6所示,表現(xiàn)為百分?jǐn)?shù)與小數(shù)表示的等效轉(zhuǎn)換問(wèn)題或有效數(shù)字保留差異),我們采用大語(yǔ)言模型作為自動(dòng)評(píng)估評(píng)判者進(jìn)行答案檢查,采用Zhu等人(2024)提出的提示設(shè)計(jì)和評(píng)估方法。


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖6:模型輸出與真實(shí)答案的差異展示。圖5(a)展示小數(shù)位差異,圖5(b)展示表達(dá)形式差異。

3 實(shí)驗(yàn)

3.1 基線(xiàn)模型

為全面評(píng)估Fin-R1在金融場(chǎng)景中的推理能力,我們與多個(gè)最先進(jìn)模型進(jìn)行了全面對(duì)比評(píng)估,包括:DeepSeek-R1、Fin-R1-SFT、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B、Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct和Qwen-2.5-32B-Instruct。這些模型涵蓋了從輕量級(jí)到高性能架構(gòu)的完整譜系,綜合考慮了推理能力和計(jì)算資源消耗等因素。

3.2 結(jié)果    

在覆蓋多個(gè)金融業(yè)務(wù)場(chǎng)景的綜合基準(zhǔn)評(píng)估中,F(xiàn)in-R1盡管只有輕量級(jí)的7B參數(shù)量,仍展現(xiàn)出顯著的性能優(yōu)勢(shì)。它以平均75.2分的成績(jī)總體排名第二,僅比DeepSeek-R1(78.2分)低3分,同時(shí)以6分優(yōu)勢(shì)超越DeepSeek-R1-Distill-Llama-70B(69.2分)。Fin-R1在兩個(gè)推理任務(wù)中排名第一:FinQA(76.0分)和ConvFinQA(85.0分),超越了所有競(jìng)爭(zhēng)模型。雖然Fin-R1主要針對(duì)FinQA和ConvFinQA進(jìn)行了專(zhuān)門(mén)訓(xùn)練,但在其他金融基準(zhǔn)測(cè)試(Ant_Finance、TFNS和Finance-Instruct-500K)中也表現(xiàn)出顯著性能提升,表明該模型具有強(qiáng)大的跨任務(wù)泛化能力。

表2:不同金融基準(zhǔn)測(cè)試中的評(píng)估結(jié)果


Fin-R1:通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

4 結(jié)論與未來(lái)工作

我們提出了金融推理大語(yǔ)言模型Fin-R1,有效解決了金融AI應(yīng)用中的三大核心挑戰(zhàn):碎片化的金融數(shù)據(jù)、不可控的推理邏輯和薄弱的業(yè)務(wù)泛化能力。通過(guò)構(gòu)建高質(zhì)量金融推理CoT數(shù)據(jù)集Fin-R1-Data,再通過(guò)SFT和RL訓(xùn)練模型,形成了金融領(lǐng)域內(nèi)的兩階段工作流框架。Fin-R1在ConvFinQA和FinQA上分別取得85.0和76.0分的先進(jìn)水平表現(xiàn)。未來(lái)我們將聚焦于金融科技領(lǐng)域的整合與創(chuàng)新:一方面優(yōu)化金融多模態(tài)場(chǎng)景架構(gòu),深化其在尖端領(lǐng)域的應(yīng)用探索;另一方面推動(dòng)LLMs在金融領(lǐng)域的廣泛應(yīng)用,深化與金融應(yīng)用的整合以增強(qiáng)風(fēng)險(xiǎn)管理和監(jiān)管合規(guī),最終擴(kuò)展模型的實(shí)際效用。

局限性    

盡管模型在金融領(lǐng)域取得了顯著改進(jìn),我們的研究仍存在三個(gè)主要局限:

1. 訓(xùn)練數(shù)據(jù)集覆蓋范圍有限:當(dāng)前訓(xùn)練數(shù)據(jù)僅局限于ConvFinQA和FinQA

2. 單模態(tài)架構(gòu)限制:純文本架構(gòu)難以處理包含視覺(jué)元素的財(cái)務(wù)報(bào)告

3. 封閉場(chǎng)景關(guān)注偏差:當(dāng)前評(píng)估主要針對(duì)有明確標(biāo)準(zhǔn)答案的推理問(wèn)題

我們相信這些改進(jìn)將顯著提升模型在真實(shí)金融場(chǎng)景中的適用性和有效性。 


本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:Zhaowei Liu等

原文鏈接:??https://mp.weixin.qq.com/s/3fFOE_gh_dOxyLZ4mLQ41w??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-4-7 06:34:20修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦