自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="cmpkw"></cite>

<sub id="cmpkw"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型原創(chuàng)

發(fā)布于 2025-4-7 06:34

瀏覽

0收藏

摘要

推理大語(yǔ)言模型（LLMs）正在各個(gè)領(lǐng)域快速發(fā)展，但其處理復(fù)雜金融問(wèn)題的能力仍需深入探索。本文介紹了Fin-R1，一個(gè)專(zhuān)為金融推理設(shè)計(jì)的大語(yǔ)言模型。該模型參數(shù)規(guī)模輕量（70億），顯著降低了部署成本，同時(shí)有效解決了金融領(lǐng)域的三大痛點(diǎn)：碎片化的金融數(shù)據(jù)、不可控的推理邏輯以及薄弱的業(yè)務(wù)泛化能力。為提升模型推理能力，我們首先通過(guò)從多個(gè)權(quán)威數(shù)據(jù)集蒸餾和篩選，構(gòu)建了Fin-R1-Data——一個(gè)包含約60,091條完整思維鏈（CoT）的高質(zhì)量數(shù)據(jù)集，涵蓋推理和非推理金融場(chǎng)景。隨后，我們基于該數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練。這種兩階段框架顯著增強(qiáng)了模型執(zhí)行復(fù)雜金融推理任務(wù)的能力，使其在金融AI應(yīng)用中能夠做出更準(zhǔn)確且可解釋的決策。盡管Fin-R1僅有70億參數(shù)的緊湊結(jié)構(gòu)，但在覆蓋多種金融業(yè)務(wù)場(chǎng)景的權(quán)威基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，平均得分75.2，綜合排名第二，顯著優(yōu)于其他大規(guī)模推理LLMs。值得注意的是，F(xiàn)in-R1優(yōu)于DeepSeek-R1-Distill-Llama-70B，展現(xiàn)了其高效性和有效性。在專(zhuān)注于金融推理的ConvFinQA和FinQA任務(wù)中，F(xiàn)in-R1分別取得了85.0和76.0的先進(jìn)水平得分。在實(shí)際應(yīng)用中，F(xiàn)in-R1在金融合規(guī)和機(jī)器人投顧等領(lǐng)域展現(xiàn)了強(qiáng)大的自動(dòng)化推理和決策能力，為長(zhǎng)期困擾金融行業(yè)的挑戰(zhàn)提供了高效解決方案。代碼已開(kāi)源：https://github.com/SUFE-AIFLM-Lab/Fin-R1。

1 引言

近年來(lái)，大語(yǔ)言模型（LLMs）的快速迭代顯著推動(dòng)了人工智能向通用人工智能（AGI）的演進(jìn)。OpenAI的o1系列模型通過(guò)“探索-反思-迭代”機(jī)制擴(kuò)展“思維鏈”推理過(guò)程的長(zhǎng)度，增強(qiáng)了解決復(fù)雜推理任務(wù)的能力。類(lèi)似的o1類(lèi)LLMs，如QwQ和Marco-o1，在數(shù)學(xué)、編程和邏輯推理等多種任務(wù)中取得了顯著進(jìn)步。金融領(lǐng)域的o1模型復(fù)現(xiàn)版本，如XuanYuan-FinX1-Preview和Fino1，也展示了LLMs在模擬人類(lèi)認(rèn)知過(guò)程和處理復(fù)雜任務(wù)方面的巨大潛力。DeepSeek-R1采用了與o1類(lèi)模型完全不同的方法，通過(guò)純強(qiáng)化學(xué)習(xí)（RL）增強(qiáng)大語(yǔ)言模型的推理能力。經(jīng)過(guò)數(shù)千步的無(wú)監(jiān)督RL訓(xùn)練，結(jié)合少量冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練框架，該模型在基準(zhǔn)測(cè)試中展現(xiàn)出涌現(xiàn)的推理能力。同時(shí)，這種訓(xùn)練策略進(jìn)一步優(yōu)化了模型的推理性能和可讀性，證明了RL驅(qū)動(dòng)方法在提升大規(guī)模語(yǔ)言模型推理能力方面的有效性。

然而，通用推理模型應(yīng)用于金融領(lǐng)域時(shí)，仍面臨垂直場(chǎng)景適配的挑戰(zhàn)。金融推理任務(wù)通常涉及法律條款、經(jīng)濟(jì)指標(biāo)和數(shù)學(xué)建模等知識(shí)，不僅需要跨學(xué)科知識(shí)的整合，還要求推理邏輯可驗(yàn)證且步驟清晰。在真實(shí)金融業(yè)務(wù)場(chǎng)景中應(yīng)用LLMs時(shí)，常遇到以下問(wèn)題：

1. 金融數(shù)據(jù)碎片化：數(shù)據(jù)不一致不僅增加了預(yù)處理復(fù)雜度，還可能導(dǎo)致信息冗余或缺失，削弱模型對(duì)金融領(lǐng)域的全面理解和推理能力。

2. 黑盒推理邏輯：現(xiàn)有模型的復(fù)雜結(jié)構(gòu)使其推理過(guò)程難以直觀解釋?zhuān)c金融監(jiān)管對(duì)透明性和可追溯性的要求相矛盾，限制了模型在關(guān)鍵金融業(yè)務(wù)中的應(yīng)用。

3. 金融場(chǎng)景泛化能力不足：現(xiàn)有模型在不同場(chǎng)景中表現(xiàn)不穩(wěn)定，難以及時(shí)遷移和泛化到新業(yè)務(wù)場(chǎng)景，導(dǎo)致高風(fēng)險(xiǎn)金融應(yīng)用中輸出不可靠。

為解決通用推理模型在金融領(lǐng)域的挑戰(zhàn)，本文提出Fin-R1——專(zhuān)為金融推理設(shè)計(jì)的大語(yǔ)言模型。通過(guò)重構(gòu)高質(zhì)量金融推理數(shù)據(jù)集并采用兩階段訓(xùn)練框架，F(xiàn)in-R1有效解決了金融數(shù)據(jù)碎片化、推理邏輯不可控和業(yè)務(wù)泛化能力弱三大核心問(wèn)題。主要貢獻(xiàn)如下：

- 高質(zhì)量金融推理數(shù)據(jù)集：提出Fin-R1-Data，一個(gè)從多權(quán)威金融數(shù)據(jù)集蒸餾篩選的高質(zhì)量CoT數(shù)據(jù)集，專(zhuān)為專(zhuān)業(yè)金融推理場(chǎng)景設(shè)計(jì)，覆蓋中英文金融垂直領(lǐng)域的多維專(zhuān)業(yè)知識(shí)。

- 顯式金融推理大語(yǔ)言模型：提出Fin-R1，基于多維金融業(yè)務(wù)數(shù)據(jù)集訓(xùn)練，精準(zhǔn)滿(mǎn)足金融行業(yè)對(duì)決策過(guò)程、數(shù)值嚴(yán)謹(jǐn)性和業(yè)務(wù)泛化能力的核心需求。

- 兩階段模型構(gòu)建框架：提出包含高質(zhì)量CoT數(shù)據(jù)集構(gòu)建和SFT+RL模型訓(xùn)練的兩階段工作流框架，顯著提升模型金融推理性能。

報(bào)告結(jié)構(gòu)如下：第2節(jié)詳細(xì)描述方法框架；第3節(jié)簡(jiǎn)述多金融基準(zhǔn)測(cè)試的實(shí)驗(yàn)結(jié)果；第4節(jié)總結(jié)技術(shù)貢獻(xiàn)并展望未來(lái)研究方向。

2 方法

2.1 概述

我們提出了如圖1所示的兩階段模型構(gòu)建框架。在數(shù)據(jù)生成階段，我們基于DeepSeek-R1進(jìn)行數(shù)據(jù)蒸餾，并采用LLM-as-Judge（Xu et al., 2023）的數(shù)據(jù)過(guò)濾方法，構(gòu)建高質(zhì)量金融推理數(shù)據(jù)集Fin-R1-Data。在模型訓(xùn)練階段，我們基于Qwen2.5-7B-Instruct構(gòu)建金融推理模型Fin-R1，通過(guò)監(jiān)督微調(diào)（SFT）和組相對(duì)策略?xún)?yōu)化算法（GRPO）（Shao et al., 2024）提升模型推理能力并規(guī)范化輸出格式。

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖1：Fin-R1構(gòu)建流程示意圖。展示了Fin-R1的兩階段構(gòu)建框架：數(shù)據(jù)生成階段（使用DeepSeek-R1生成CoT數(shù)據(jù)，并通過(guò)Qwen2.5-72B-Instruct進(jìn)行質(zhì)量過(guò)濾）和模型訓(xùn)練階段（包括Fin-R1的SFT預(yù)訓(xùn)練和GRPO優(yōu)化）。右側(cè)突出顯示了Fin-R1在金融代碼生成、專(zhuān)業(yè)知識(shí)和業(yè)務(wù)知識(shí)方面的性能表現(xiàn)。

2.2 數(shù)據(jù)構(gòu)建

我們的目標(biāo)是開(kāi)發(fā)Fin-R1-Data，一個(gè)專(zhuān)為金融領(lǐng)域設(shè)計(jì)的高質(zhì)量監(jiān)督微調(diào)（SFT）數(shù)據(jù)集。為此，我們?cè)O(shè)計(jì)了穩(wěn)健且全面的數(shù)據(jù)構(gòu)建流程，包括數(shù)據(jù)蒸餾和數(shù)據(jù)過(guò)濾，以確保數(shù)據(jù)集的準(zhǔn)確性和可靠性。數(shù)據(jù)構(gòu)建的詳細(xì)流程如圖2所示。

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖2：第一階段數(shù)據(jù)構(gòu)建流程：(1)數(shù)據(jù)蒸餾，(2)答案檢查（通過(guò)LLM評(píng)估DeepSeek-R1生成答案的準(zhǔn)確性），(3)推理選擇（通過(guò)LLM評(píng)估和評(píng)分推理軌跡以確保邏輯連貫性和質(zhì)量）。"Reasoning"表示推理輸出，"Thinking"指評(píng)判模型的評(píng)估過(guò)程。

2.2.1 數(shù)據(jù)來(lái)源

Fin-R1-Data共包含60,091條獨(dú)立條目，涵蓋中英雙語(yǔ)內(nèi)容。數(shù)據(jù)集主要由開(kāi)源數(shù)據(jù)集和專(zhuān)有數(shù)據(jù)集兩部分組成。開(kāi)源數(shù)據(jù)集包括：

- Ant_Finance（Alipay Team, 2023）

- FinanceIQ（Duxiaoman DI Team, 2023b）

- Quant-Trading-Instruct (FinanceQT)（Malik, 2024）

- ConvFinQA（Chen et al., 2022）

- FinQA（Chen et al., 2021）

- Twitter-Financial-News-Sentiment (TFNS)（Anonymous, 2024）

- Finance-Instruct-500K（Flowers, 2025）

- FinCorpus（Duxiaoman DI Team, 2023a）

- FinCUGE（Lu et al., 2023）

專(zhuān)有數(shù)據(jù)集部分為金融研究生入學(xué)考試（FinPEE）數(shù)據(jù)集，包含350道金融研究生入學(xué)考試的計(jì)算題。FinPEE的構(gòu)建遵循嚴(yán)格的多階段流程：

1. 首先以PDF格式收集數(shù)據(jù)，并使用Mineru（Wang et al., 2024a）批量轉(zhuǎn)換為Markdown格式。

2. 隨后通過(guò)正則化技術(shù)提取結(jié)構(gòu)化問(wèn)答對(duì)（Q-A）。

3. 為確保數(shù)據(jù)完整性和準(zhǔn)確性，所有提取的Q-A對(duì)均經(jīng)過(guò)人工審查和驗(yàn)證，最終形成高質(zhì)量的金融研究生考試題目數(shù)據(jù)集。

Fin-R1-Data的組成結(jié)構(gòu)如圖3所示。

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖3：Fin-R1-Data的組成結(jié)構(gòu)：(1)金融代碼，(2)金融專(zhuān)業(yè)知識(shí)，(3)金融推理知識(shí)，(4)金融非推理知識(shí)。

表1系統(tǒng)展示了Fin-R1-Data中各類(lèi)別的描述、數(shù)據(jù)來(lái)源及比例分布。數(shù)據(jù)集主要由金融非推理業(yè)務(wù)知識(shí)和金融推理業(yè)務(wù)知識(shí)構(gòu)成，合計(jì)占比77.9%。這兩類(lèi)數(shù)據(jù)全面覆蓋了真實(shí)金融業(yè)務(wù)場(chǎng)景的廣泛操作流程。此外，金融專(zhuān)業(yè)知識(shí)是數(shù)據(jù)集的重要組成部分，涵蓋多個(gè)金融子領(lǐng)域的關(guān)鍵概念，占比21.9%。Fin-R1-Data還包含專(zhuān)門(mén)用于量化交易策略開(kāi)發(fā)的金融代碼數(shù)據(jù)，但僅占0.2%。

表1：Fin-R1-Data的類(lèi)別及來(lái)源

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

2.2.2 數(shù)據(jù)處理

數(shù)據(jù)處理包括數(shù)據(jù)蒸餾和數(shù)據(jù)過(guò)濾兩個(gè)階段。

數(shù)據(jù)蒸餾階段的參數(shù)配置嚴(yán)格遵循DeepSeek-R1官方規(guī)范，具體設(shè)置如下：

1. 溫度（temperature）設(shè)為0.6。

2. 對(duì)于數(shù)學(xué)數(shù)據(jù)，使用標(biāo)準(zhǔn)化提示：“請(qǐng)用\boxed{}包裹最終答案”，以確保答案格式一致。

3. 為保持與目標(biāo)推理模式對(duì)齊，在生成數(shù)據(jù)前強(qiáng)制在每個(gè)輸出開(kāi)頭追加“\n”。

數(shù)據(jù)過(guò)濾階段包含兩個(gè)主要部分：

1. 答案檢查（評(píng)估模型生成答案的準(zhǔn)確性）：僅保留與參考答案完全匹配的響應(yīng)。若DeepSeek-R1生成的答案與數(shù)據(jù)集提供的標(biāo)準(zhǔn)答案不符，則直接丟棄。對(duì)于客觀題，采用精確匹配確保正確性；對(duì)于主觀題，采用LLM-as-Judge評(píng)估答案有效性。

2. 推理篩選（評(píng)估推理軌跡的質(zhì)量）：從Xie et al.（2024）的研究中提煉出七個(gè)關(guān)鍵維度——內(nèi)部一致性、術(shù)語(yǔ)重疊率、推理步驟數(shù)量、邏輯連貫性、內(nèi)容多樣性、任務(wù)領(lǐng)域相關(guān)性和任務(wù)指令對(duì)齊性，用于全面評(píng)估模型的推理軌跡數(shù)據(jù)。

為確保過(guò)濾過(guò)程的穩(wěn)健性，我們對(duì)比了人工標(biāo)注者與模型的評(píng)分相關(guān)性。結(jié)果顯示，Qwen2.5-72B-Instruct的評(píng)分與人工判斷高度一致，僅存在微小偏差，而GPT-4o的偏差較大（詳見(jiàn)附錄A.2）。因此，我們選擇Qwen2.5-72B-Instruct評(píng)估推理軌跡質(zhì)量，并基于評(píng)分篩選高質(zhì)量軌跡，最終形成用于監(jiān)督微調(diào)（SFT）的優(yōu)化數(shù)據(jù)集。圖4展示了高質(zhì)量與低質(zhì)量推理軌跡的對(duì)比示例。

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖4：高質(zhì)量和低質(zhì)量推理選擇過(guò)濾的示例

2.3 訓(xùn)練方法

Fin-R1首先通過(guò)監(jiān)督微調(diào)（SFT）使用高質(zhì)量金融推理數(shù)據(jù)集進(jìn)行訓(xùn)練，以增強(qiáng)其推理能力。在此基礎(chǔ)上，我們采用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)組相對(duì)策略?xún)?yōu)化（GRPO），結(jié)合金融問(wèn)答數(shù)據(jù)和雙獎(jiǎng)勵(lì)機(jī)制，提升答案格式和內(nèi)容的準(zhǔn)確性。圖5直觀總結(jié)了整體訓(xùn)練框架，展示了監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的協(xié)同整合。

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖5：第二階段訓(xùn)練構(gòu)建流程。SFT階段：基礎(chǔ)模型使用結(jié)構(gòu)化推理增強(qiáng)數(shù)據(jù)集進(jìn)行SFT，重點(diǎn)提升金融推理能力。RL階段：應(yīng)用GRPO算法，引入組計(jì)算機(jī)制提供兩種獎(jiǎng)勵(lì)信號(hào)——格式正確性和內(nèi)容準(zhǔn)確性。

2.3.1 訓(xùn)練數(shù)據(jù)模板

SFT訓(xùn)練數(shù)據(jù)：在監(jiān)督微調(diào)階段，訓(xùn)練數(shù)據(jù)集V中的每個(gè)樣本v包含三個(gè)部分，即v = (x, c, y)，其中：

- x表示問(wèn)題

- c表示推理軌跡，格式化為...

- y表示答案，格式化為...

在SFT階段，x作為訓(xùn)練集輸入，c和y作為訓(xùn)練集輸出。此階段使模型學(xué)習(xí)結(jié)構(gòu)化金融推理模式，優(yōu)化參數(shù)以生成格式良好的推理軌跡和準(zhǔn)確答案。

RL訓(xùn)練數(shù)據(jù)：在強(qiáng)化學(xué)習(xí)階段，每個(gè)樣本v = (x, y)，其中x為問(wèn)題，y為模型輸出（僅含答案，不含推理軌跡）。強(qiáng)化學(xué)習(xí)通過(guò)提升答案準(zhǔn)確性和格式合規(guī)性進(jìn)一步優(yōu)化輸出質(zhì)量。

2.3.2 監(jiān)督微調(diào)(SFT)

我們首先在Qwen2.5-7B-Instruct模型上進(jìn)行監(jiān)督微調(diào)，特別針對(duì)金融推理的關(guān)鍵方面進(jìn)行優(yōu)化。這一微調(diào)過(guò)程有效緩解了通用模型在金融推理任務(wù)中出現(xiàn)的推理失敗問(wèn)題。訓(xùn)練數(shù)據(jù)由ConvFinQA和FinQA數(shù)據(jù)集組成。經(jīng)過(guò)SFT后，模型在金融推理方面表現(xiàn)出顯著提升的性能，詳見(jiàn)表2。

2.3.3 組相對(duì)策略?xún)?yōu)化(GRPO)

在強(qiáng)化學(xué)習(xí)階段，我們采用組相對(duì)策略?xún)?yōu)化(GRPO)算法。

對(duì)于每次訓(xùn)練迭代，我們從舊策略π_old中采樣G個(gè)候選輸出{α_i}^G_i=1。每個(gè)輸出獲得獎(jiǎng)勵(lì)r_i，據(jù)此我們計(jì)算組相對(duì)優(yōu)勢(shì)A_i：

A_i = (r_i - μ_{r})/σ_{r}

其中μ_{r}和σ_{r}分別表示組內(nèi)獎(jiǎng)勵(lì)值的均值和標(biāo)準(zhǔn)差。超過(guò)組平均值的輸出將獲得更高的優(yōu)勢(shì)值以進(jìn)行優(yōu)先優(yōu)化。策略更新通過(guò)最大化以下目標(biāo)函數(shù)實(shí)現(xiàn)：

J_GRPO(θ) = E_{v～P(V),{α_i}^G_i=1～π_{θ,old}(O|v)}

[1/G Σ^G_i=1 (min(r^ratio_i A_i, clip(r^ratio_i,1-ε,1+ε)A_i) - βD_KL(π_θ||π_ref))]

其中：

- r^ratio_i = π_θ(α_i|v)/π_{θ,old}(α_i|v)表示重要性采樣比率

- A_i表示組相對(duì)優(yōu)勢(shì)

- clip(r^ratio_i,1-ε,1+ε)將更新幅度限制在信任區(qū)域內(nèi)

- D_KL(π_θ||π_ref)是KL散度

- β是超參數(shù)

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

2.3.4 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

在基于GRPO訓(xùn)練獎(jiǎng)勵(lì)模型的過(guò)程中，我們采用兩種獎(jiǎng)勵(lì)機(jī)制：格式獎(jiǎng)勵(lì)和準(zhǔn)確度獎(jiǎng)勵(lì)。

格式獎(jiǎng)勵(lì)：我們鼓勵(lì)輸出包含...標(biāo)簽內(nèi)的推理步驟序列和...標(biāo)簽內(nèi)的簡(jiǎn)明最終答案。如果所有四個(gè)標(biāo)簽恰好出現(xiàn)一次且標(biāo)簽外無(wú)額外內(nèi)容，則給予1分格式獎(jiǎng)勵(lì)分，否則為0分。格式獎(jiǎng)勵(lì)函數(shù)定義如下：

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

準(zhǔn)確度獎(jiǎng)勵(lì)：在金融場(chǎng)景中，我們發(fā)現(xiàn)難以通過(guò)基于規(guī)則的方法窮盡列舉答案正則表達(dá)式。因此采用Qwen2.5-Max作為答案評(píng)估的評(píng)判者。從模型輸出中提取...標(biāo)簽內(nèi)的內(nèi)容作為標(biāo)準(zhǔn)答案。如果標(biāo)簽內(nèi)輸出與標(biāo)準(zhǔn)答案語(yǔ)義一致，則獎(jiǎng)勵(lì)1分，否則為0分。準(zhǔn)確度獎(jiǎng)勵(lì)函數(shù)定義如下：

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

2.4 評(píng)估

2.4.1 評(píng)估數(shù)據(jù)集

我們通過(guò)系統(tǒng)驗(yàn)證五個(gè)代表性開(kāi)源異構(gòu)數(shù)據(jù)集建立金融領(lǐng)域多任務(wù)基準(zhǔn)框架：FinQA、ConvFinQA、Ant-Finance、TFNS和Finance-Instruct-500k。為控制成本并保持?jǐn)?shù)據(jù)分布相對(duì)統(tǒng)一，每個(gè)評(píng)估集隨機(jī)采樣1,000條數(shù)據(jù)進(jìn)行評(píng)估，若不足1,000條則評(píng)估全部。

2.4.2 評(píng)估方法

本研究采用的金融評(píng)估數(shù)據(jù)集(除Finance-Instruct-500k外)均采用客觀題形式，具有確定唯一的參考答案。鑒于數(shù)值計(jì)算問(wèn)題可能導(dǎo)致模型輸出與參考答案在表示形式上存在差異(如圖6所示，表現(xiàn)為百分?jǐn)?shù)與小數(shù)表示的等效轉(zhuǎn)換問(wèn)題或有效數(shù)字保留差異)，我們采用大語(yǔ)言模型作為自動(dòng)評(píng)估評(píng)判者進(jìn)行答案檢查，采用Zhu等人(2024)提出的提示設(shè)計(jì)和評(píng)估方法。

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

圖6：模型輸出與真實(shí)答案的差異展示。圖5(a)展示小數(shù)位差異，圖5(b)展示表達(dá)形式差異。

3 實(shí)驗(yàn)

3.1 基線(xiàn)模型

為全面評(píng)估Fin-R1在金融場(chǎng)景中的推理能力，我們與多個(gè)最先進(jìn)模型進(jìn)行了全面對(duì)比評(píng)估，包括：DeepSeek-R1、Fin-R1-SFT、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B、Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct和Qwen-2.5-32B-Instruct。這些模型涵蓋了從輕量級(jí)到高性能架構(gòu)的完整譜系，綜合考慮了推理能力和計(jì)算資源消耗等因素。

3.2 結(jié)果

在覆蓋多個(gè)金融業(yè)務(wù)場(chǎng)景的綜合基準(zhǔn)評(píng)估中，F(xiàn)in-R1盡管只有輕量級(jí)的7B參數(shù)量，仍展現(xiàn)出顯著的性能優(yōu)勢(shì)。它以平均75.2分的成績(jī)總體排名第二，僅比DeepSeek-R1(78.2分)低3分，同時(shí)以6分優(yōu)勢(shì)超越DeepSeek-R1-Distill-Llama-70B(69.2分)。Fin-R1在兩個(gè)推理任務(wù)中排名第一：FinQA(76.0分)和ConvFinQA(85.0分)，超越了所有競(jìng)爭(zhēng)模型。雖然Fin-R1主要針對(duì)FinQA和ConvFinQA進(jìn)行了專(zhuān)門(mén)訓(xùn)練，但在其他金融基準(zhǔn)測(cè)試(Ant_Finance、TFNS和Finance-Instruct-500K)中也表現(xiàn)出顯著性能提升，表明該模型具有強(qiáng)大的跨任務(wù)泛化能力。

表2：不同金融基準(zhǔn)測(cè)試中的評(píng)估結(jié)果

Fin-R1：通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)金融推理的大語(yǔ)言模型-AI.x社區(qū)

4 結(jié)論與未來(lái)工作

我們提出了金融推理大語(yǔ)言模型Fin-R1，有效解決了金融AI應(yīng)用中的三大核心挑戰(zhàn)：碎片化的金融數(shù)據(jù)、不可控的推理邏輯和薄弱的業(yè)務(wù)泛化能力。通過(guò)構(gòu)建高質(zhì)量金融推理CoT數(shù)據(jù)集Fin-R1-Data，再通過(guò)SFT和RL訓(xùn)練模型，形成了金融領(lǐng)域內(nèi)的兩階段工作流框架。Fin-R1在ConvFinQA和FinQA上分別取得85.0和76.0分的先進(jìn)水平表現(xiàn)。未來(lái)我們將聚焦于金融科技領(lǐng)域的整合與創(chuàng)新：一方面優(yōu)化金融多模態(tài)場(chǎng)景架構(gòu)，深化其在尖端領(lǐng)域的應(yīng)用探索；另一方面推動(dòng)LLMs在金融領(lǐng)域的廣泛應(yīng)用，深化與金融應(yīng)用的整合以增強(qiáng)風(fēng)險(xiǎn)管理和監(jiān)管合規(guī)，最終擴(kuò)展模型的實(shí)際效用。

局限性

盡管模型在金融領(lǐng)域取得了顯著改進(jìn)，我們的研究仍存在三個(gè)主要局限：

1. 訓(xùn)練數(shù)據(jù)集覆蓋范圍有限：當(dāng)前訓(xùn)練數(shù)據(jù)僅局限于ConvFinQA和FinQA

2. 單模態(tài)架構(gòu)限制：純文本架構(gòu)難以處理包含視覺(jué)元素的財(cái)務(wù)報(bào)告

3. 封閉場(chǎng)景關(guān)注偏差：當(dāng)前評(píng)估主要針對(duì)有明確標(biāo)準(zhǔn)答案的推理問(wèn)題

我們相信這些改進(jìn)將顯著提升模型在真實(shí)金融場(chǎng)景中的適用性和有效性。

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ，作者：Zhaowei Liu等

原文鏈接：??https://mp.weixin.qq.com/s/3fFOE_gh_dOxyLZ4mLQ41w??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

強(qiáng)化學(xué)習(xí)

大語(yǔ)言模型

已于2025-4-7 06:34:20修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景

AI探索時(shí)代 ? 2769瀏覽 ? 0回復(fù)
為啥強(qiáng)化學(xué)習(xí)開(kāi)始成為了大語(yǔ)言模型（LLM）的新寵？

智駐未來(lái) ? 2299瀏覽 ? 0回復(fù)
DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署

老蛀蟲(chóng) ? 3201瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動(dòng)語(yǔ)言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek-R1：通過(guò)強(qiáng)化學(xué)習(xí)激發(fā)大語(yǔ)言模型的推理潛能

柏企閱文 ? 3885瀏覽 ? 0回復(fù)
外國(guó)專(zhuān)家解讀DeepSeek：預(yù)算有限，如何復(fù)制R1推理模型？純強(qiáng)化學(xué)習(xí)不現(xiàn)實(shí)！

51CTO技術(shù)棧 ? 1539瀏覽 ? 0回復(fù)
ReFT：通過(guò)強(qiáng)化微調(diào)增強(qiáng)LLMs

Halo咯咯 ? 2189瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 3882瀏覽 ? 0回復(fù)
斯坦福大學(xué)團(tuán)隊(duì)使用多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練社交推理語(yǔ)言模型

xuxiangda ? 1827瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與軟件工程：開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 1594瀏覽 ? 0回復(fù)
白話(huà)DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

后向傳播 ? 2609瀏覽 ? 0回復(fù)
32B逆襲671BDeepSeek R1！阿里推理模型炸翻了：小到筆記本就能run,成本僅1/10！又是強(qiáng)化學(xué)習(xí)帶來(lái)驚喜！

51CTO技術(shù)棧 ? 1655瀏覽 ? 0回復(fù)
Logic-RL：基于規(guī)則強(qiáng)化學(xué)習(xí)的推理釋放

頓數(shù)AI ? 1707瀏覽 ? 0回復(fù)
Search-R1：強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力

十一月雨_55 ? 1460瀏覽 ? 0回復(fù)
ReSearch: 突破性強(qiáng)化學(xué)習(xí)框架實(shí)現(xiàn)大模型推理搜索能力無(wú)縫整合

頓數(shù)AI ? 1400瀏覽 ? 0回復(fù)
MedSAM2: 3D醫(yī)療圖像和視頻的全能分割模型、DeepResearcher: 通過(guò)真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)深度研究

sbf_2000 ? 794瀏覽 ? 0回復(fù)
NL2SQL新突破：SQL-R1用強(qiáng)化學(xué)習(xí)打破傳統(tǒng)局限

Halo咯咯 ? 671瀏覽 ? 0回復(fù)
DianJin-R1：金融領(lǐng)域推理增強(qiáng)大模型，全面超越DeepSeek-R1

靈度智能 ? 297瀏覽 ? 0回復(fù)
清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力？

柏企閱文 ? 438瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ChatDiT：一個(gè)用于任務(wù)無(wú)關(guān)自由形式聊天的無(wú)訓(xùn)練基線(xiàn)擴(kuò)散變換器 1天前發(fā)布
大型語(yǔ)言模型容易被無(wú)關(guān)上下文分散注意力(ICLM) 1天前發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線(xiàn)！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： LawLLM：面向美國(guó)法律體系的法律大語(yǔ)言模型

下一篇： PixelFlow：基于流的像素空間生成模型

社區(qū)精華內(nèi)容

目錄