自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

看不懂新開源的DS-Prover V2版本?解讀來了,攻克像人類一樣數(shù)學證明,達到SoTA水平,不知道如何測?樣題來了

原創(chuàng)
人工智能
miniF2F 是一個面向大型語言模型(LLM)數(shù)學推理能力評測的基準數(shù)據(jù)集,全名是 mini Formal to Formal。它源自更早的 F2F(Formal-to-Formal) 項目,但體量更小,便于在不同模型上快速評測。

五一凌晨,DeepSeek終于更新了新開源的 DeepSeek-Prover V2的自述文件。速覽一下:

- 解決近 90% 的 miniF2F 問題(88.9%)

- 顯著提高 PutnamBench 上的 SoTA 性能

- 在正式版本中對 AIME 24 和 25 問題取得了驚艷的通過率

點評:亮點上來看,DeepSeek-Prove V2模型在死磕LLM在推理數(shù)學問題上能給出答案但卻給不出嚴格正確的推理步驟的問題。而且在一中先進模型中達到了SoTA的水平,圖四是前十榜單。

AIME這個測試集大家很清楚了,這里不再贅述。這里重點科普下miniF2F測試。

miniF2F 是什么?

miniF2F 是一個面向大型語言模型(LLM)數(shù)學推理能力評測的基準數(shù)據(jù)集,全名是 mini Formal to Formal。它源自更早的 F2F(Formal-to-Formal) 項目,但體量更小,便于在不同模型上快速評測。

它是一組高中及大學初等數(shù)學題目,覆蓋以下領域:代數(shù)、數(shù)論、微積分、幾何、離散數(shù)學等等。這些題目用自然語言表述(類似“證明對于任意正整數(shù)n,有…”),目標是評測 LLM 能否像人類數(shù)學家一樣,通過推理過程得出正式的數(shù)學證明。

舉個簡化版的例子,miniF2F的題目是這樣的——

證明:對于任意正整數(shù) n,2n + 1 是奇數(shù)。

LLM 要能輸出嚴謹證明,比如:

對于任意正整數(shù) n,有 2n 是偶數(shù),偶數(shù)加 1 是奇數(shù),因此 2n + 1 是奇數(shù)。

如果你做 LLM 評測、數(shù)學任務微調或者學術方向,這個數(shù)據(jù)集是很重要的 benchmark。

DS如何做到的?

DS開發(fā)了一種簡單而高效的遞歸定理證明流程,利用V3模型作為統(tǒng)一工具,既用于子目標分解,也用于形式化處理,并引導V3 將定理分解為高層次的證明草圖,同時在 Lean 4 中形式化這些證明步驟,從而生成一系列子目標。

使用較小的 7B 模型來處理每個子目標的證明搜索,以降低相關的計算負擔。一旦復雜問題的分解步驟被解決,將完整的逐步形式化證明與 DeepSeek-V3 的相應思維鏈配對,創(chuàng)建冷啟動推理數(shù)據(jù)。

想要測評或者試用的朋友可以跑起來了,當然建議跑7B模型了,671B不是一般設備能跑的。model_id = "DeepSeek-Prover-V2-7B"

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2023-10-30 17:23:54

數(shù)據(jù)模型

2020-10-11 21:39:35

計算機互聯(lián)網(wǎng) 技術

2020-09-30 17:12:09

人工智能技術數(shù)據(jù)

2025-03-04 09:00:00

2022-07-28 14:46:01

人工智能機器人計算機科學

2020-01-09 17:03:29

人工智能技術算法

2011-05-11 11:10:10

網(wǎng)游病毒營銷病毒

2022-02-24 13:59:59

AI智能體研究

2015-03-16 12:50:44

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務價值

2023-04-05 14:19:07

FlinkRedisNoSQL

2023-06-14 15:02:18

AI模型

2023-09-04 14:28:33

FlarumDiscourse開源

2021-05-01 06:28:32

Windows10操作系統(tǒng)微軟

2023-01-10 08:30:05

2016-10-08 00:24:53

httptcp實時

2021-09-07 10:29:11

JavaScript模塊CSS

2017-05-22 10:33:14

PythonJuliaCython

2013-12-17 09:02:03

Python調試

2022-12-21 15:56:23

代碼文檔工具
點贊
收藏

51CTO技術棧公眾號