自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<wbr id="yxzoq"><var id="yxzoq"><th id="yxzoq"></th></var></wbr><s id="yxzoq"><nav id="yxzoq"></nav></s>

<var id="yxzoq"></var>

<pre id="yxzoq"><tt id="yxzoq"><option id="yxzoq"></option></tt></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了

發(fā)布于 2024-4-23 09:42

瀏覽

0收藏

如果試題太簡單，學(xué)霸和學(xué)渣都能考90分，拉不開差距……

隨著Claude 3、Llama 3甚至之后GPT-5等更強(qiáng)模型發(fā)布，業(yè)界急需一款更難、更有區(qū)分度的基準(zhǔn)測試。

大模型競技場背后組織LMSYS推出下一代基準(zhǔn)測試Arena-Hard，引起廣泛關(guān)注。

Llama 3的兩個(gè)指令微調(diào)版本實(shí)力到底如何，也有了最新參考。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

與之前大家分?jǐn)?shù)都相近的MT Bench相比，Arena-Hard區(qū)分度從22.6%提升到87.4%，孰強(qiáng)孰弱一目了然。

Arena-Hard利用競技場實(shí)時(shí)人類數(shù)據(jù)構(gòu)建，與人類偏好一致率也高達(dá)89.1%。

除了上面兩個(gè)指標(biāo)都達(dá)到SOTA之外，還有一個(gè)額外的好處：

實(shí)時(shí)更新的測試數(shù)據(jù)包含人類新想出的、AI在訓(xùn)練階段從未見過的提示詞，減輕潛在的數(shù)據(jù)泄露。

并且新模型發(fā)布后，無需再等待一周左右時(shí)間讓人類用戶參與投票，只需花費(fèi)25美元快速運(yùn)行測試管線，即可得到結(jié)果。

有網(wǎng)友評(píng)價(jià)，使用真實(shí)用戶提示詞而不是高中考試來測試，真的很重要。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

新基準(zhǔn)測試如何運(yùn)作？

簡單來說，通過大模型競技場20萬個(gè)用戶查詢中，挑選500個(gè)高質(zhì)量提示詞作為測試集。

首先，挑選過程中確保多樣性，也就是測試集應(yīng)涵蓋廣泛的現(xiàn)實(shí)世界話題。

為了確保這一點(diǎn)，團(tuán)隊(duì)采用BERTopic中主題建模管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）轉(zhuǎn)換每個(gè)提示，使用 UMAP 降低維度，并使用基于層次結(jié)構(gòu)的模型聚類算法 (HDBSCAN) 來識(shí)別聚類，最后使用GPT-4-turbo進(jìn)行匯總。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

同時(shí)確保入選的提示詞具有高質(zhì)量，有七個(gè)關(guān)鍵指標(biāo)來衡量：

具體性：提示詞是否要求特定的輸出？
領(lǐng)域知識(shí)：提示詞是否涵蓋一個(gè)或多個(gè)特定領(lǐng)域？
復(fù)雜性：提示詞是否有多層推理、組成部分或變量？
解決問題：提示詞是否直接讓AI展示主動(dòng)解決問題的能力？
創(chuàng)造力：提示詞是否涉及解決問題的一定程度的創(chuàng)造力？
技術(shù)準(zhǔn)確性：提示詞是否要求響應(yīng)具有技術(shù)準(zhǔn)確性？
實(shí)際應(yīng)用：提示詞是否與實(shí)際應(yīng)用相關(guān)？

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

使用GPT-3.5-Turbo和GPT-4-Turbo對(duì)每個(gè)提示進(jìn)行從 0 到 7 的注釋，判斷滿足多少個(gè)條件。然后根據(jù)提示的平均得分給每個(gè)聚類評(píng)分。

高質(zhì)量的問題通常與有挑戰(zhàn)性的話題或任務(wù)相關(guān)，比如游戲開發(fā)或數(shù)學(xué)證明。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

新基準(zhǔn)測試準(zhǔn)嗎？

Arena-Hard目前還有一個(gè)弱點(diǎn)：使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應(yīng)提示。

可以看出，最新兩個(gè)版本的GPT-4分?jǐn)?shù)高過Claude 3 Opus一大截，但在人類投票分?jǐn)?shù)中差距并沒有那么明顯。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

其實(shí)關(guān)于這一點(diǎn)，最近已經(jīng)有研究論證，前沿模型都會(huì)偏好自己的輸出。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

研究團(tuán)隊(duì)還發(fā)現(xiàn)，AI天生就可以判斷出一段文字是不是自己寫的，經(jīng)過微調(diào)后自我識(shí)別的能力還能增強(qiáng)，并且自我識(shí)別能力與自我偏好線性相關(guān)。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

那么使用Claude 3來打分會(huì)使結(jié)果產(chǎn)生什么變化？LMSYS也做了相關(guān)實(shí)驗(yàn)。

首先，Claude系列的分?jǐn)?shù)確實(shí)會(huì)提高。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

但令人驚訝的是，它更喜歡幾種開放模型如Mixtral和零一萬物Yi，甚至對(duì)GPT-3.5的評(píng)分都有明顯提高。

總體而言，使用Claude 3打分的區(qū)分度和與人類結(jié)果的一致性都不如GPT-4。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

所以也有很多網(wǎng)友建議，使用多個(gè)大模型來綜合打分。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

除此之外，團(tuán)隊(duì)還做了更多消融實(shí)驗(yàn)來驗(yàn)證新基準(zhǔn)測試的有效性。

比如在提示詞中加入“讓答案盡可能詳盡”，平均輸出長度更高，分?jǐn)?shù)確實(shí)會(huì)提高。

但把提示詞換成“喜歡閑聊”，平均輸出長度也有提高，但分?jǐn)?shù)提升就不明顯。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

此外在實(shí)驗(yàn)過程中還有很多有意思的發(fā)現(xiàn)。

比如GPT-4來打分非常嚴(yán)格，如果回答中有錯(cuò)誤會(huì)狠狠扣分；而Claude 3即使識(shí)別出小錯(cuò)誤也會(huì)寬大處理。

對(duì)于代碼問題，Claude 3傾向于提供簡單結(jié)構(gòu)、不依賴外部代碼庫，能幫助人類學(xué)習(xí)編程的答案；而GPT-4-Turbo更傾向最實(shí)用的答案，不管其教育價(jià)值如何。

另外即使設(shè)置溫度為0，GPT-4-Turbo也可能產(chǎn)生略有不同的判斷。

從層次結(jié)構(gòu)可視化的前64個(gè)聚類中也可以看出，大模型競技場用戶的提問質(zhì)量和多樣性確實(shí)是高。

新測試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了-AI.x社區(qū)

這里面也許就有你的貢獻(xiàn)。

Arena-Hard GitHub：??https://github.com/lm-sys/arena-hard???
Arena-Hard HuggingFace：???https://huggingface.co/spaces/lmsys/arena-hard-browser???
大模型競技場：???https://arena.lmsys.org??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/-lZKrLWICRdnabzvoqvGKw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

最強(qiáng)開源大模型易主，號(hào)稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？

liutao988 ? 3283瀏覽 ? 0回復(fù)
最新「進(jìn)化算法」全自動(dòng)組合開源模型，刷榜多項(xiàng)基準(zhǔn)測試

duhorse ? 1933瀏覽 ? 0回復(fù)
Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術(shù)棧 ? 3904瀏覽 ? 0回復(fù)
或與 Llama 3 發(fā)布有關(guān)？

開發(fā)者阿橙 ? 3071瀏覽 ? 0回復(fù)
大模型競技場全面測評(píng)結(jié)果出爐：Llama3 70B成開源模型中最強(qiáng)王者！

AIGC最前線 ? 5716瀏覽 ? 0回復(fù)
英偉達(dá)開源3400億巨獸，98%合成數(shù)據(jù)訓(xùn)出最強(qiáng)開源通用模型！性能對(duì)標(biāo)GPT-4o

duhorse ? 2687瀏覽 ? 0回復(fù)
【LLM】CRAG - 綜合性RAG基準(zhǔn)測試

sbf_2000 ? 3986瀏覽 ? 0回復(fù)
太逼真了！Gen-3 Alpha重磅發(fā)布，Sora最強(qiáng)競爭對(duì)手！

Aceryt ? 2770瀏覽 ? 0回復(fù)
Llama-2 vs. Llama-3：利用微型基準(zhǔn)測試（井字游戲）評(píng)估大模型

Baihai_IDP ? 2596瀏覽 ? 0回復(fù)
最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開源引領(lǐng)新時(shí)代

輕薄滴假象 ? 2199瀏覽 ? 0回復(fù)
蘋果發(fā)布新基準(zhǔn)，重新定義大模型強(qiáng)弱！

51CTO技術(shù)棧 ? 1914瀏覽 ? 0回復(fù)
Meta剛開源llama 3.2多模態(tài)，就被打敗了！

NLP前沿1 ? 2595瀏覽 ? 0回復(fù)
騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主

恰似驚鴻 ? 1993瀏覽 ? 0回復(fù)
探索Llama 3：迄今為止最強(qiáng)的開源大型語言模型！

echo_ning ? 1898瀏覽 ? 0回復(fù)
最強(qiáng)開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2049瀏覽 ? 0回復(fù)
Pixtral Large：124B的最強(qiáng)開源多模態(tài)大模型

kede96 ? 2515瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準(zhǔn)測試中超越了 GPT-4o

Halo咯咯 ? 1.0w瀏覽 ? 0回復(fù)
xAI 發(fā)布地表最強(qiáng)大模型Grok 3，同時(shí)宣布將開源Grok2

Syrupup ? 1543瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強(qiáng)MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1180瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡直不要太方便

下一篇：實(shí)時(shí)可編輯3D重建！鼠標(biāo)拖拽就能控制，港大VAST浙大聯(lián)合出品

社區(qū)精華內(nèi)容

目錄

<cite id="zeynu"><track id="zeynu"><span id="zeynu"></span></track></cite>

<blockquote id="zeynu"><p id="zeynu"><th id="zeynu"></th></p></blockquote>

^{<sub id="zeynu"></sub>}