自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="nantj"></u>

<thead id="nantj"></thead>

<pre id="nantj"></pre>

<del id="nantj"><b id="nantj"></b></del>

<tr id="nantj"><fieldset id="nantj"></fieldset></tr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Arena-Hard：開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)

發(fā)布于 2024-4-23 13:26

瀏覽

0收藏

開(kāi)發(fā)一個(gè)安全、準(zhǔn)確的大模型評(píng)估基準(zhǔn)通常需要包含三個(gè)重要內(nèi)容：1）穩(wěn)定識(shí)別模型的能力；2）反映真實(shí)世界使用情況中的人類偏好；3）經(jīng)常更新以避免過(guò)擬合或測(cè)試集泄漏。

但傳統(tǒng)的基準(zhǔn)測(cè)試通常是靜態(tài)的或閉源的，同時(shí)大模型的技術(shù)發(fā)展和功能迭代比較，這凸顯了建立具有高可分離性評(píng)估基準(zhǔn)的必要性。

大模型研究組織Lmsys Org則開(kāi)源了Arena-Hard。這是一個(gè)全新高質(zhì)量大模型評(píng)估基準(zhǔn)。

開(kāi)源地址：https://github.com/lm-sys/arena-hard

Arena-Hard：開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

Lmsys將新的基準(zhǔn)測(cè)試平臺(tái) Arena Hard v0.1 與當(dāng)前領(lǐng)先的聊天大模型基準(zhǔn)測(cè)試 MT Bench 進(jìn)行比較。

結(jié)果顯示，Arena Hard v0.1 相對(duì)于 MT Bench 提供了明顯更強(qiáng)的可分離性，且置信區(qū)間更窄。它還與 Chatbot Arena（僅限英文）的人類偏好排名具有更高的一致性（89.1%）。

Arena-Hard：開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

Arena-hard-v0.1與廣泛采用的大模型基準(zhǔn)相比顯示出最高的可分離性 (87.4%)，并且也便宜且運(yùn)行速度快（25 美元）。

Arena-Hard：開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

Arena-hard-v0.1構(gòu)建了一個(gè)管道，可以從通過(guò) Chatbot Arena 收集的 200,000 個(gè)用戶查詢的數(shù)據(jù)集中自動(dòng)提取高質(zhì)量提示。這包括多樣性，提示集應(yīng)涵蓋廣泛的現(xiàn)實(shí)世界主題；提示質(zhì)量，每個(gè)提示都應(yīng)具有高質(zhì)量來(lái)衡量大模型的水平。

Arena-Hard：開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

為了確保提示多樣性，Lmsys在BERTopic中采用主題建模管道，首先使用 OpenAI 的嵌入 (text-embedding-3-small) 轉(zhuǎn)換每個(gè)提示，使用 UMAP 降維，并使用基于層次的聚類算法 (HDBSCAN) 來(lái)識(shí)別聚類然后使用 GPT-4-turbo 進(jìn)行總結(jié)。這有助于Lmsys識(shí)別涵蓋廣泛領(lǐng)域的 4000 多個(gè)主題。

但主題集群在大模型基準(zhǔn)測(cè)試中具有不同的質(zhì)量和可分離性。Lmsys為大模型開(kāi)發(fā)了一個(gè)經(jīng)過(guò)校準(zhǔn)的系統(tǒng)提示，幫助其根據(jù)七個(gè)關(guān)鍵標(biāo)準(zhǔn)例如，特異性、領(lǐng)域知識(shí)、問(wèn)題解決能力等選擇高質(zhì)量的用戶查詢。

Arena-Hard：開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

大模型Judge（GPT-3.5-Turbo、GPT-4-Turbo）對(duì)每個(gè)提示進(jìn)行注釋，從 0 到 7，以指示滿足多少個(gè)標(biāo)準(zhǔn)。然后，Lmsys根據(jù)提示的平均得分對(duì)每個(gè)簇進(jìn)行評(píng)分。

下面，Lmsys展示了從低到高平均分?jǐn)?shù)的主題集群示例。例如，游戲開(kāi)發(fā)或數(shù)學(xué)證明。另一方面，得分較低的集群指向瑣碎或模糊的問(wèn)題，例如“設(shè)計(jì)風(fēng)格和影響”。

Arena-Hard：開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

為了了解提示分?jǐn)?shù)是否與可分離性相關(guān)，Lmsys對(duì)每個(gè)分?jǐn)?shù)采樣 50 個(gè)提示，并比較 GPT-4 和 Llama-70b 的響應(yīng)，并以 GPT-4-Turbo 作為判斷。

Lmsys表示高潛在得分與 GPT-4 對(duì) Llama-70b 的勝率之間存在很強(qiáng)的相關(guān)性。在其他模型對(duì)中也觀察到類似的趨勢(shì)，例如Claude Sonnet 與 Haiku 以及Mistral-large 與 Mixtral。

Arena-Hard：開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ，作者：AIGC開(kāi)放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/fwsrEzdmVV2Wc-Qp7-hGMg??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

ICLR 2024 Spotlight | 無(wú)懼中間步驟，MUSTARD可生成高質(zhì)量數(shù)學(xué)推理數(shù)據(jù)

輕薄滴假象 ? 3071瀏覽 ? 0回復(fù)
Meta 聯(lián)合紐約大學(xué)和華盛頓大學(xué)提出MetaCLIP，帶你揭開(kāi)CLIP的高質(zhì)量數(shù)據(jù)之謎。

輕薄滴假象 ? 2467瀏覽 ? 0回復(fù)
七個(gè)高質(zhì)量潤(rùn)色論文和文章的指令

數(shù)師兄 ? 3256瀏覽 ? 0回復(fù)
CVPR 2024｜讓圖像擴(kuò)散模型生成高質(zhì)量360度場(chǎng)景，只需要一個(gè)語(yǔ)言模型

輕薄滴假象 ? 2989瀏覽 ? 0回復(fù)
Advanced RAG 08：使用 Self-RAG 打造高質(zhì)量、可追溯的 RAG System

Baihai_IDP ? 2819瀏覽 ? 0回復(fù)
僅需1分鐘，文本生成高質(zhì)量3D模型—Meta 3D-Gen

Aceryt ? 2921瀏覽 ? 0回復(fù)
大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS

NLP工作站 ? 3493瀏覽 ? 0回復(fù)
快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst

angel ? 2834瀏覽 ? 0回復(fù)
1890美元訓(xùn)出11.6億參數(shù)高質(zhì)量文生圖模型

duhorse ? 2090瀏覽 ? 0回復(fù)
國(guó)外驚訝，中國(guó)文生視頻模型超高質(zhì)量！

Aceryt ? 2939瀏覽 ? 0回復(fù)
如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？

NLP工作站 ? 2304瀏覽 ? 0回復(fù)
視頻生成更高質(zhì)量，更連貫！關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開(kāi)源

angel ? 2804瀏覽 ? 0回復(fù)
中科大&科大訊飛重磅開(kāi)源OpenMusic：音樂(lè)生成更高質(zhì)量，更有樂(lè)感

angel ? 3301瀏覽 ? 0回復(fù)
3D生成基礎(chǔ)模型來(lái)了！只需5秒，高質(zhì)量3D資產(chǎn)規(guī)模化生成！南洋理工等重磅開(kāi)源3DTopia-XL

angel ? 2290瀏覽 ? 0回復(fù)
LLaMA-Omni：專為與大型語(yǔ)言模型（LLMs）進(jìn)行低延遲、高質(zhì)量的語(yǔ)音交互而設(shè)計(jì)

Halo咯咯 ? 3216瀏覽 ? 0回復(fù)
大模型訓(xùn)練之訓(xùn)練數(shù)據(jù)準(zhǔn)備，即怎么準(zhǔn)備高質(zhì)量的訓(xùn)練數(shù)據(jù)集？

AI探索時(shí)代 ? 3002瀏覽 ? 0回復(fù)
關(guān)于打造高質(zhì)量RAG系統(tǒng)的問(wèn)題記錄

AI探索時(shí)代 ? 832瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 465瀏覽 ? 0回復(fù)
關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究

AI探索時(shí)代 ? 183瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來(lái)啦 6天前發(fā)布
字節(jié)跳動(dòng)開(kāi)源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門推薦

微軟開(kāi)源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險(xiǎn)降50% 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇： Leonardo新增圖片樣式引導(dǎo)，能精準(zhǔn)控制生成圖片啦！

下一篇： ChatGPT能預(yù)測(cè)未來(lái)特定事件，準(zhǔn)確率高達(dá)97%

社區(qū)精華內(nèi)容

目錄

<tfoot id="lrtuf"></tfoot>

<cite id="lrtuf"></cite>

<s id="lrtuf"></s>