自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智源更新大模型排行榜:豆包大模型“客觀評測”排名國產(chǎn)第一

人工智能
6月中旬,智源研究院旗下的 FlagEval 大模型評測平臺發(fā)布最新榜單:在有標準答案的“客觀評測”中,GPT-4 以76.11分在閉源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同時也是得分最高的國產(chǎn)大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。

6月中旬,智源研究院旗下的 FlagEval 大模型評測平臺發(fā)布最新榜單:在有標準答案的“客觀評測”中,GPT-4 以76.11分在閉源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同時也是得分最高的國產(chǎn)大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在開放問答等“主觀評測”中,Doubao-Pro 同樣排名第二,得分超過 GPT-4o 和 GPT-4。

豆包大模型在 FlagEval 客觀評測中獲綜合評分第二(2024年6月)

FlagEval 大模型評測平臺由智源研究院與多個高校團隊共建,以人類認知能力的發(fā)展階梯為基準,對齊大模型所能達到的認知水平。FlagEval 構建了大量原創(chuàng)的非公開評測集,確保評測質(zhì)量和公正性。自2023年6月上線以來,F(xiàn)lagEval 已完成了1000多次覆蓋全球大模型的評測。

Doubao-Pro 是由字節(jié)跳動自主研發(fā)的大語言模型,于5月15日正式發(fā)布。本期 FlagEval 大模型排行榜,是豆包大模型在公開評測中的首次亮相。

測試成績顯示,豆包大模型的數(shù)學能力、知識運用、任務解決等多項能力在客觀評測和主觀評測中都有著出色表現(xiàn)。其中,知識運用和數(shù)學能力得分排名客觀評測第一、主觀評測前三,任務解決測試得分在主客觀評測中均排名前三。

數(shù)學能力是評估大模型是否“聰明”的一個重要維度。此前,復旦大學自然語言處理實驗室就2024 年高考數(shù)學題對13家主流大模型產(chǎn)品進行評測,豆包的數(shù)學高考新課標 II 卷答題獲得最高分,客觀題正確率達到 74.66%,成績優(yōu)于GPT-4o及國內(nèi)多款大模型產(chǎn)品。

圖片來源:復旦NLP實驗室公眾號

據(jù)悉,豆包大模型是國內(nèi)使用量最大、應用場景最豐富的大模型之一,日均處理 token 達到千億級。其同名AI對話助手“豆包”,在蘋果APP Store和各大安卓應用市場的AIGC類應用中下載量排名第一。目前,豆包大模型正在通過字節(jié)跳動旗下的火山引擎向企業(yè)市場開放服務,已經(jīng)與OPPO、榮耀、小米、三星、華碩等智能終端廠商建立合作。

責任編輯:鳶瑋 來源: 字節(jié)跳動
相關推薦

2024-10-31 13:40:00

AI模型

2023-07-22 13:09:51

模型開源

2023-09-18 16:24:33

數(shù)據(jù)研究

2009-04-10 09:06:45

福布斯硬件企業(yè)排行榜

2024-01-26 13:18:00

AI訓練

2024-07-26 16:12:35

火山引擎豆包大模型上汽乘用車

2024-05-24 13:36:49

2014-11-26 10:49:32

編程語言

2023-06-09 12:56:17

AlpacaWizardLMVicuna

2023-05-04 14:55:02

模型AI

2014-11-26 09:40:02

編程語言Ruby

2009-04-10 08:56:42

福布斯軟件企業(yè)排行榜

2024-05-30 14:23:00

2024-06-28 11:04:32

點贊
收藏

51CTO技術棧公眾號