自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擊敗DeepSeek-R1!豆包新推理模型僅用前者參數(shù)量1/3!還將開源兩個(gè)基準(zhǔn),瞄準(zhǔn)通用推理能力!

原創(chuàng) 精選
人工智能
Seed-Thinking-v1.5 在數(shù)學(xué)、科學(xué)和邏輯推理等“硬核”任務(wù)中表現(xiàn)穩(wěn)定:在 AIME 2024 上取得了 86.7 分,在 Codeforces 上達(dá)到 55.0 分,在 GPQA 上達(dá)到 77.3 分,展現(xiàn)出在 STEM 領(lǐng)域和編程任務(wù)中的出色推理表現(xiàn)。

剛剛,字節(jié)旗下的豆包團(tuán)隊(duì)發(fā)布了他們最新的推理模型Seed-Thinking-v1.5!

亮點(diǎn)很突出:200B參數(shù)擊敗DeepSeek R1(671B),不到后者參數(shù)量的三分之一!

與其他最新的超大杯推理模型相比,Seed-Thinking-v1.5 是一個(gè)相對(duì)小型的專家混合(MoE)模型——激活參數(shù)為 20B,總參數(shù)規(guī)模為 200B。

Seed-Thinking-v1.5 在數(shù)學(xué)、科學(xué)和邏輯推理等“硬核”任務(wù)中表現(xiàn)穩(wěn)定:在 AIME 2024 上取得了 86.7 分,在 Codeforces 上達(dá)到 55.0 分,在 GPQA 上達(dá)到 77.3 分,展現(xiàn)出在 STEM 領(lǐng)域和編程任務(wù)中的出色推理表現(xiàn)。

除了推理任務(wù),該方法還展現(xiàn)出對(duì)多種任務(wù)的優(yōu)秀泛化能力。例如,在非推理任務(wù)上的勝率比 DeepSeek R1 高出 8%,表明其適用范圍更廣。

此外,為了更好評(píng)估模型通用推理能力,字節(jié)專門開發(fā)了兩個(gè)內(nèi)部基準(zhǔn):BeyondAIME 和 Codeforces。這兩個(gè)基準(zhǔn)之后會(huì)開源,以支持后續(xù)研究。

報(bào)告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2025-04-11 12:04:58

2025-03-06 17:29:21

2025-02-13 08:51:23

DeepSeek大模型

2025-03-06 10:14:39

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-06 09:55:49

2025-02-08 09:44:11

DeepSeekAI模型

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-21 10:34:49

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-04-14 09:27:00

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-01-21 11:53:53

2025-03-19 09:20:00

2025-02-17 08:43:00

模型推理訓(xùn)練

2025-02-24 14:05:00

LLM模型AI

2025-03-05 00:22:00

2025-02-12 12:45:59

2025-03-07 08:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)