自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="cuywu"><p id="cuywu"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

智源更新大模型排行榜：豆包大模型“客觀評測”排名國產(chǎn)第一

2024-06-19 11:45:34

6月中旬，智源研究院旗下的 FlagEval 大模型評測平臺發(fā)布最新榜單：在有標準答案的“客觀評測”中，GPT-4 以76.11分在閉源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同時也是得分最高的國產(chǎn)大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。

6月中旬，智源研究院旗下的 FlagEval 大模型評測平臺發(fā)布最新榜單：在有標準答案的“客觀評測”中，GPT-4 以76.11分在閉源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同時也是得分最高的國產(chǎn)大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在開放問答等“主觀評測”中，Doubao-Pro 同樣排名第二，得分超過 GPT-4o 和 GPT-4。

豆包大模型在 FlagEval 客觀評測中獲綜合評分第二（2024年6月）

FlagEval 大模型評測平臺由智源研究院與多個高校團隊共建，以人類認知能力的發(fā)展階梯為基準，對齊大模型所能達到的認知水平。FlagEval 構建了大量原創(chuàng)的非公開評測集，確保評測質(zhì)量和公正性。自2023年6月上線以來，F(xiàn)lagEval 已完成了1000多次覆蓋全球大模型的評測。

Doubao-Pro 是由字節(jié)跳動自主研發(fā)的大語言模型，于5月15日正式發(fā)布。本期 FlagEval 大模型排行榜，是豆包大模型在公開評測中的首次亮相。

測試成績顯示，豆包大模型的數(shù)學能力、知識運用、任務解決等多項能力在客觀評測和主觀評測中都有著出色表現(xiàn)。其中，知識運用和數(shù)學能力得分排名客觀評測第一、主觀評測前三，任務解決測試得分在主客觀評測中均排名前三。

數(shù)學能力是評估大模型是否“聰明”的一個重要維度。此前，復旦大學自然語言處理實驗室就2024 年高考數(shù)學題對13家主流大模型產(chǎn)品進行評測，豆包的數(shù)學高考新課標 II 卷答題獲得最高分，客觀題正確率達到 74.66%，成績優(yōu)于GPT-4o及國內(nèi)多款大模型產(chǎn)品。

圖片來源：復旦NLP實驗室公眾號

據(jù)悉，豆包大模型是國內(nèi)使用量最大、應用場景最豐富的大模型之一，日均處理 token 達到千億級。其同名AI對話助手“豆包”，在蘋果APP Store和各大安卓應用市場的AIGC類應用中下載量排名第一。目前，豆包大模型正在通過字節(jié)跳動旗下的火山引擎向企業(yè)市場開放服務，已經(jīng)與OPPO、榮耀、小米、三星、華碩等智能終端廠商建立合作。

責任編輯：鳶瑋來源：字節(jié)跳動

FlagEval 豆包大模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<blockquote id="j6spw"></blockquote>}

<cite id="j6spw"></cite>

<sub id="j6spw"><p id="j6spw"></p></sub>