自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

上財(cái)開源首個(gè)金融領(lǐng)域R1類推理大模型,7B模型媲美DeepSeek-R1 671B滿血版性能

人工智能 新聞
近日,上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院張立文教授與其領(lǐng)銜的金融大語言模型課題組(SUFE-AIFLM-Lab)聯(lián)合數(shù)據(jù)科學(xué)和統(tǒng)計(jì)研究院、財(cái)躍星辰、滴水湖高級(jí)金融學(xué)院正式發(fā)布首款 DeepSeek-R1 類推理型人工智能金融大模型。

該項(xiàng)目由上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院張立文教授與上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院博士生郭鑫、碩士生劉趙偉和課題組核心成員蔡維格、牛晉怡、曾凌峰、婁方齊、王子璇、胥佳杰、趙學(xué)前、楊子緯,以及財(cái)躍星辰白祚博士和團(tuán)隊(duì)成員陳德智、許晟、李超共同完成。

近日,上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院張立文教授與其領(lǐng)銜的金融大語言模型課題組(SUFE-AIFLM-Lab)聯(lián)合數(shù)據(jù)科學(xué)和統(tǒng)計(jì)研究院、財(cái)躍星辰、滴水湖高級(jí)金融學(xué)院正式發(fā)布首款 DeepSeek-R1 類推理型人工智能金融大模型:Fin-R1,以僅 7B 的輕量化參數(shù)規(guī)模展現(xiàn)出卓越性能,全面超越參評的同規(guī)模模型并以 75 的平均得分位居第二,與參數(shù)量為 671B 的行業(yè)標(biāo)桿 DeepSeek-R1 平均分差距僅為 3.0%。

Fin-R1 基于 Qwen2.5-7B-Instruct 模型開發(fā),通過構(gòu)建高質(zhì)量金融推理數(shù)據(jù)集與兩階段混合框架訓(xùn)練,實(shí)現(xiàn)了金融推理的邏輯閉環(huán),其技術(shù)創(chuàng)新表明高校在垂直領(lǐng)域大模型研發(fā)中實(shí)現(xiàn)了從技術(shù)突破到產(chǎn)業(yè)落地的閉環(huán),標(biāo)志著高校在金融科技領(lǐng)域的自主創(chuàng)新邁入新高度。

圖片

  • Github 地址:https://github.com/SUFE-AIFLM-Lab/Fin-R1
  • 技術(shù)報(bào)告:https://arxiv.org/abs/2503.16252
  • 模型地址:https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1

1、簡介

當(dāng)前推理型大語言模型在眾多領(lǐng)域正迅速發(fā)展,然而當(dāng)通用推理模型落地金融領(lǐng)域時(shí),仍面臨垂直場景適配性不足的挑戰(zhàn)。金融推理任務(wù)常涉及法律條款、經(jīng)濟(jì)指標(biāo)、數(shù)理建模等知識(shí),不僅需要跨學(xué)科知識(shí)融合,更要求可驗(yàn)證的、分步驟的決策邏輯。在實(shí)際的金融業(yè)務(wù)場景中,模型應(yīng)用普遍面臨知識(shí)整合困難、決策過程不透明、業(yè)務(wù)泛化能力不足等問題。

為此,我們從多個(gè)權(quán)威數(shù)據(jù)源蒸餾并篩選出約 60k 條面向金融專業(yè)場景的高質(zhì)量 COT 數(shù)據(jù)集 Fin-R1-Data,該數(shù)據(jù)集涵蓋中英文金融垂直領(lǐng)域的多維度專業(yè)知識(shí)并根據(jù)具體任務(wù)內(nèi)容將其分為金融代碼、金融專業(yè)知識(shí)、金融非推理類業(yè)務(wù)知識(shí)和金融推理類業(yè)務(wù)知識(shí)四大模塊,可有效支撐銀行、證券以及信托等多個(gè)金融核心業(yè)務(wù)場景。在 Fin-R1-Data 數(shù)據(jù)的基礎(chǔ)上我們以 Qwen2.5-7B-Instruct 為基座進(jìn)行指令微調(diào) (SFT) 預(yù)熱和強(qiáng)化學(xué)習(xí) (RL) 訓(xùn)練得到金融推理大模型 Fin-R1。我們通過構(gòu)建金融高質(zhì)量 CoT 數(shù)據(jù)集與結(jié)合指令微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練的兩階段工作框架為模型在金融領(lǐng)域的應(yīng)用提供了堅(jiān)實(shí)的理論支撐、決策邏輯以及技術(shù)實(shí)現(xiàn)能力,同時(shí)能有效提升模型的金融復(fù)雜推理能力和泛化能力,使模型在金融推理任務(wù)中展現(xiàn)出卓越性能。

圖片

圖 1 Fin-R1 應(yīng)用場景示例

Fin-R1 的總體工作流程如下:我們首先通過構(gòu)建 60k 規(guī)模的金融推理數(shù)據(jù)集 Fin-R1-Data,幫助模型重構(gòu)知識(shí)體系,然后采用 "兩步驟訓(xùn)練框架" 塑造模型認(rèn)知和推理能力,最后在多個(gè)金融基準(zhǔn)測試上驗(yàn)證模型的性能突破,實(shí)現(xiàn)了從 “數(shù)據(jù)構(gòu)建 - 模型訓(xùn)練 - 性能驗(yàn)證 - 模型部署 - 場景應(yīng)用” 的完整技術(shù)閉環(huán)。

圖片

圖 2 Fin-R1 總體工作流程

2、場景應(yīng)用 —— 強(qiáng)大的多場景適配能力

金融代碼是指在金融領(lǐng)域中用于實(shí)現(xiàn)各種金融模型、算法和分析任務(wù)的計(jì)算機(jī)編程代碼,涵蓋了從簡單的財(cái)務(wù)計(jì)算到復(fù)雜的金融衍生品定價(jià)、風(fēng)險(xiǎn)評估和投資組合優(yōu)化等多個(gè)方面,以方便金融專業(yè)人士進(jìn)行數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)值計(jì)算和可視化等工作。

圖片

金融計(jì)算是對金融領(lǐng)域的各種問題進(jìn)行定量分析和計(jì)算的過程,其核心在于通過建立數(shù)學(xué)模型和運(yùn)用數(shù)值方法來解決實(shí)際金融問題,可為金融決策提供科學(xué)依據(jù),幫助金融機(jī)構(gòu)和投資者更好地管理風(fēng)險(xiǎn)、優(yōu)化資源配置和提高投資回報(bào)率。 

圖片

英語金融計(jì)算強(qiáng)調(diào)在跨語言環(huán)境下使用英語進(jìn)行金融模型的構(gòu)建和計(jì)算,并能夠以英語撰寫金融分析報(bào)告和與國際同行進(jìn)行溝通交流。

圖片

金融安全合規(guī)聚焦于防范金融犯罪與遵守監(jiān)管要求,幫助企業(yè)建立健全的合規(guī)管理體系,定期進(jìn)行合規(guī)檢查和審計(jì),確保業(yè)務(wù)操作符合相關(guān)法規(guī)要求。

智能風(fēng)控利用 AI 與大數(shù)據(jù)技術(shù)識(shí)別和管理金融風(fēng)險(xiǎn),與傳統(tǒng)風(fēng)控手段相比,智能風(fēng)控具有更高的效率、準(zhǔn)確性和實(shí)時(shí)性,它通過對海量金融數(shù)據(jù)的深度挖掘和分析,能夠發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)模式和異常交易行為,從而及時(shí)預(yù)警和采取相應(yīng)的風(fēng)險(xiǎn)控制措施。

圖片

ESG 分析通過評估企業(yè)在環(huán)境(Environmental)、社會(huì)(Social)、治理(Governance)的表現(xiàn),衡量其可持續(xù)發(fā)展能力,確保投資活動(dòng)不僅能夠獲得財(cái)務(wù)回報(bào),還能促進(jìn)可持續(xù)發(fā)展和社會(huì)責(zé)任的履行。金融機(jī)構(gòu)和企業(yè)也通過提升自身的 ESG 績效,來滿足投資者和社會(huì)對企業(yè)更高的期望和要求。

圖片

3、數(shù)據(jù)構(gòu)建 —— 破解知識(shí)碎片難題

傳統(tǒng)的金融數(shù)據(jù)分散、標(biāo)注成本高,而且缺乏對復(fù)雜推理邏輯的針對性設(shè)計(jì),導(dǎo)致模型難以適配金融業(yè)務(wù)場景,為將 DeepSeek-R1 的推理能力遷移至金融場景并解決高質(zhì)量金融推理數(shù)據(jù)問題,我們用 Deepseek - R1(滿血版)針對涵蓋行業(yè)語料(FinCorpus、Ant_Finance),專業(yè)認(rèn)知(FinPEE),業(yè)務(wù)知識(shí)(FinCUGE、FinanceIQ、Finance-Instruct-500K),表格解析(FinQA),市場洞察(TFNS),多輪交互(ConvFinQA)以及量化投資(FinanceQT)的多個(gè)數(shù)據(jù)集進(jìn)行領(lǐng)域知識(shí)蒸餾篩選,構(gòu)建了約 60k 條面向?qū)I(yè)金融推理場景的高質(zhì)量 COT 數(shù)據(jù)集 Fin-R1-Data 。

圖片

圖 3 Fin-R1 數(shù)據(jù)生成流程

3.1 數(shù)據(jù)蒸餾

在蒸餾過程中,我們構(gòu)建了基于 Deepseek - R1 的數(shù)據(jù)蒸餾框架。在蒸餾過程中,嚴(yán)格遵循 DeepSeek - R1 官方規(guī)范配置參數(shù),具體參數(shù)配置如下:

  • 將 temperature 設(shè)定為 0.6;
  • 針對數(shù)學(xué)類型數(shù)據(jù),采用 "請用 \\boxed {{}} 格式包裹最終答案" 作為標(biāo)準(zhǔn)化提示詞;
  • 防止跳出思維模式,強(qiáng)制在每個(gè)輸出的開頭增加 "\n",再開始生成數(shù)據(jù)。

3.2 數(shù)據(jù)篩選

為了保證數(shù)據(jù)質(zhì)量,項(xiàng)目組首創(chuàng) “答案 + 推理邏輯” 雙輪打分機(jī)制,雙輪質(zhì)檢,嚴(yán)把數(shù)據(jù)關(guān)。

  • 第一輪:用規(guī)則匹配和 Qwen2.5-72B-Instruct 對答案準(zhǔn)確性進(jìn)行打分,確保數(shù)據(jù) “零錯(cuò)誤”;
  • 第二輪:深度校驗(yàn)推理邏輯的一致性和術(shù)語合規(guī)性,讓 AI 的 “思維鏈條” 嚴(yán)絲合縫。
  • 第三輪:引入金融專家團(tuán)隊(duì)對關(guān)鍵數(shù)據(jù)進(jìn)行人工復(fù)核,保障訓(xùn)練數(shù)據(jù)高質(zhì)量。

圖片

圖 4 Fin-R1 數(shù)據(jù)分布

圖片

表 1 Fin-R1 數(shù)據(jù)量表

4、模型訓(xùn)練 ——“劃重點(diǎn) - 考試 - 打分” 

4.1 特訓(xùn)成果:金融界的 "最強(qiáng)大腦"

針對金融領(lǐng)域復(fù)雜推理任務(wù),我們利用 Qwen2.5-7B-Instruct 進(jìn)行兩步驟微調(diào)訓(xùn)練得到金融推理大語言模型 Fin-R1 。首先通過高質(zhì)量金融推理數(shù)據(jù)的 SFT (Supervised Fine-Tuning) 幫助模型重構(gòu)知識(shí)體系,然后在 GRPO(Group Relative Policy Optimization) 算法的基礎(chǔ)上結(jié)合格式獎(jiǎng)勵(lì)和準(zhǔn)確度獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí),以此提升金融推理任務(wù)的準(zhǔn)確性和泛化能力。Fin-R1 能夠完整地呈現(xiàn)思考過程,為金融決策提供深入且有價(jià)值的洞察,更為金融投資、風(fēng)險(xiǎn)管理、智能投顧以及量化交易等金融業(yè)務(wù)領(lǐng)域提供了可靠的技術(shù)底座。未來,這樣的 "金融特訓(xùn)營" 模式有望在更多專業(yè)領(lǐng)域復(fù)制推廣。

4.2 微調(diào)訓(xùn)練(SFT 指令微調(diào))

針對非推理類模型在 RL 訓(xùn)練過程中存在訓(xùn)練不穩(wěn)定等問題,研究團(tuán)隊(duì)對 AI 進(jìn)行專項(xiàng)知識(shí)補(bǔ)課,像教學(xué)生一樣訓(xùn)練模型,讓非推理類模型掌握金融推理的基本功。使用金融推理數(shù)據(jù)集對模型進(jìn)行定向訓(xùn)練(SFT),使模型初步具備長思維鏈思考模式,降低模型訓(xùn)練難度,保證訓(xùn)練穩(wěn)定性。

4.3 實(shí)戰(zhàn)優(yōu)化(RL 強(qiáng)化學(xué)習(xí))

通過考試和專家打分(RL 強(qiáng)化學(xué)習(xí)),不斷糾正 AI 在復(fù)雜場景中的判斷失誤,確保每個(gè)決策都經(jīng)得起推敲。在模型掌握基礎(chǔ)知識(shí)后,通過 "考試 + 專家打分" 機(jī)制(RL)持續(xù)提升專業(yè)性:

  • 智能考官把關(guān):引入 Qwen2.5-Max 作為驗(yàn)證器用于檢查答案對錯(cuò),比傳統(tǒng)正則表達(dá)式方式準(zhǔn)確度更高。
  • 雙軌打分制:采用 “基于規(guī)則的格式獎(jiǎng)勵(lì) “和” 基于模型驗(yàn)證的準(zhǔn)確性獎(jiǎng)勵(lì) “兩種獎(jiǎng)勵(lì)訓(xùn)練模型,實(shí)現(xiàn)金融文本生成 “形神兼?zhèn)洹薄?/span>

圖片

圖 5 Fin-R1 模型訓(xùn)練流程

5、性能驗(yàn)證 —— 專業(yè)場景性能超越,驗(yàn)證技術(shù)閉環(huán)價(jià)值

在覆蓋多項(xiàng)金融業(yè)務(wù)場景的權(quán)威評測中,我們考慮模型的推理能力與資源消耗,將 Fin-R1 與涵蓋輕量級(jí)和高性能的不同模型進(jìn)行了全面評估。最終 Fin-R1 以僅 7B 的輕量化參數(shù)規(guī)模展現(xiàn)出顯著的性能優(yōu)勢,以 75.2 的平均得分位居第二,全面超越同規(guī)模參評模型,同時(shí)與行業(yè)標(biāo)桿 DeepSeek-R1 平均分差距僅 3.0, 且超越 DeepSeek-R1-Distill-Llama-70B(69.2)6.0 分。此外,F(xiàn)in-R1 在聚焦真實(shí)金融表格數(shù)值推理任務(wù)的 FinQA 以及多輪交互場景的 ConvFinQA 兩大關(guān)鍵任務(wù)測試上分別以 76.0 和 85.0 的得分在參評模型中登頂?shù)谝?,展現(xiàn)出了模型在金融推理場景及金融多輪交互場景中的強(qiáng)大處理能力。

Fin-R1 的評測表現(xiàn)不僅反映出模型在投顧服務(wù)、投資者會(huì)議等多輪交互場景中具有長對話跟蹤能力,能避免傳統(tǒng)模型常見的上下文遺忘或邏輯跳躍問題并生成邏輯連貫的漸進(jìn)式建議,同時(shí)展現(xiàn)出模型在處理財(cái)務(wù)報(bào)表重組、財(cái)務(wù)比率交叉驗(yàn)證時(shí)的強(qiáng)大數(shù)值推理能力。精準(zhǔn)覆蓋金融行業(yè)對可解釋性、合規(guī)性、數(shù)值嚴(yán)謹(jǐn)性的核心訴求。具體評測結(jié)果如下:  

圖片

表 2 Fin-R1 及其他模型在各數(shù)據(jù)集上的評測表現(xiàn)

6、模型部署

Github 現(xiàn)已提供 "開箱即用" 的本地化部署方案,只需運(yùn)行一個(gè)安裝腳本,就能在單張 4090 顯卡上輕松部署 Fin-R1 模型。無論是銀行風(fēng)控還是量化交易,用戶都能快速上手,解決各類金融場景問題,真正實(shí)現(xiàn) "一鍵部署,金融 AI 觸手可及"!

7、總結(jié)

Fin-R1 從訓(xùn)練框架到模型權(quán)重均開源,計(jì)算資源需求量小,個(gè)人電腦即可部署,更加適用于金融場景,并且通過兩階段訓(xùn)練框架,解決了金融數(shù)據(jù)碎片化和推理邏輯不可控等問題,在各大金融基準(zhǔn)測試中表現(xiàn)卓越,展現(xiàn)出強(qiáng)大的推理能力和業(yè)務(wù)泛化能力,為金融智能化發(fā)展提供了有力支持。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-10 08:30:00

AI模型訓(xùn)練

2025-03-07 08:30:00

2025-04-03 06:30:00

2025-04-03 15:57:48

2025-03-06 17:29:21

2025-03-07 08:50:03

2025-02-12 12:45:59

2025-03-06 10:14:39

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2025-04-11 12:04:58

2025-03-06 09:55:49

2025-03-17 12:13:26

AI模型生成

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-03-19 10:10:43

2025-02-03 13:55:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)