自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Arena-Hard:開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)

發(fā)布于 2024-4-23 13:26
瀏覽
0收藏

開(kāi)發(fā)一個(gè)安全、準(zhǔn)確的大模型評(píng)估基準(zhǔn)通常需要包含三個(gè)重要內(nèi)容:1)穩(wěn)定識(shí)別模型的能力;2)反映真實(shí)世界使用情況中的人類偏好;3)經(jīng)常更新以避免過(guò)擬合或測(cè)試集泄漏。

但傳統(tǒng)的基準(zhǔn)測(cè)試通常是靜態(tài)的或閉源的,同時(shí)大模型的技術(shù)發(fā)展和功能迭代比較,這凸顯了建立具有高可分離性評(píng)估基準(zhǔn)的必要性。

大模型研究組織Lmsys Org則開(kāi)源了Arena-Hard。這是一個(gè)全新高質(zhì)量大模型評(píng)估基準(zhǔn)。

開(kāi)源地址:https://github.com/lm-sys/arena-hard

Arena-Hard:開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

Lmsys將新的基準(zhǔn)測(cè)試平臺(tái) Arena Hard v0.1 與當(dāng)前領(lǐng)先的聊天 大模型基準(zhǔn)測(cè)試 MT Bench 進(jìn)行比較。

結(jié)果顯示,Arena Hard v0.1 相對(duì)于 MT Bench 提供了明顯更強(qiáng)的可分離性,且置信區(qū)間更窄。它還與 Chatbot Arena(僅限英文)的人類偏好排名具有更高的一致性(89.1%)。

Arena-Hard:開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

Arena-hard-v0.1與廣泛采用的大模型基準(zhǔn)相比顯示出最高的可分離性 (87.4%),并且也便宜且運(yùn)行速度快(25 美元)。

Arena-Hard:開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

Arena-hard-v0.1構(gòu)建了一個(gè)管道,可以從通過(guò) Chatbot Arena 收集的 200,000 個(gè)用戶查詢的數(shù)據(jù)集中自動(dòng)提取高質(zhì)量提示。這包括多樣性,提示集應(yīng)涵蓋廣泛的現(xiàn)實(shí)世界主題;提示質(zhì)量,每個(gè)提示都應(yīng)具有高質(zhì)量來(lái)衡量大模型的水平。

Arena-Hard:開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

為了確保提示多樣性,Lmsys在BERTopic中采用主題建模管道,首先使用 OpenAI 的嵌入 (text-embedding-3-small) 轉(zhuǎn)換每個(gè)提示,使用 UMAP 降維,并使用基于層次的聚類算法 (HDBSCAN) 來(lái)識(shí)別聚類然后使用 GPT-4-turbo 進(jìn)行總結(jié)。這有助于Lmsys識(shí)別涵蓋廣泛領(lǐng)域的 4000 多個(gè)主題。

但主題集群在大模型基準(zhǔn)測(cè)試中具有不同的質(zhì)量和可分離性。Lmsys為大模型開(kāi)發(fā)了一個(gè)經(jīng)過(guò)校準(zhǔn)的系統(tǒng)提示,幫助其根據(jù)七個(gè)關(guān)鍵標(biāo)準(zhǔn)例如,特異性、領(lǐng)域知識(shí)、問(wèn)題解決能力等選擇高質(zhì)量的用戶查詢。

Arena-Hard:開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

大模型Judge(GPT-3.5-Turbo、GPT-4-Turbo)對(duì)每個(gè)提示進(jìn)行注釋,從 0 到 7,以指示滿足多少個(gè)標(biāo)準(zhǔn)。然后,Lmsys根據(jù)提示的平均得分對(duì)每個(gè)簇進(jìn)行評(píng)分。

下面,Lmsys展示了從低到高平均分?jǐn)?shù)的主題集群示例。例如,游戲開(kāi)發(fā)或數(shù)學(xué)證明。另一方面,得分較低的集群指向瑣碎或模糊的問(wèn)題,例如“設(shè)計(jì)風(fēng)格和影響”。

Arena-Hard:開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)

為了了解提示分?jǐn)?shù)是否與可分離性相關(guān),Lmsys對(duì)每個(gè)分?jǐn)?shù)采樣 50 個(gè)提示,并比較 GPT-4 和 Llama-70b 的響應(yīng),并以 GPT-4-Turbo 作為判斷。

Lmsys表示高潛在得分與 GPT-4 對(duì) Llama-70b 的勝率之間存在很強(qiáng)的相關(guān)性。在其他模型對(duì)中也觀察到類似的趨勢(shì),例如Claude Sonnet 與 Haiku 以及Mistral-large 與 Mixtral。

Arena-Hard:開(kāi)源高質(zhì)量大模型評(píng)估基準(zhǔn)-AI.x社區(qū)


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/fwsrEzdmVV2Wc-Qp7-hGMg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦