自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

給大模型評分的基準(zhǔn)靠譜嗎?Anthropic來了次大評估

人工智能 新聞
在大模型(LLM)盛行的當(dāng)下,評估 AI 系統(tǒng)成為了重要的一環(huán),在評估過程中都會遇到哪些困難,Anthropic 的一篇文章為我們揭開了答案。

現(xiàn)階段,大多數(shù)圍繞人工智能 (AI)對社會影響的討論可歸結(jié)為 AI 系統(tǒng)的某些屬性,例如真實性、公平性、濫用的可能性等。但現(xiàn)在面臨的問題是,許多研究人員并沒有完全意識到建立穩(wěn)健可靠的模型評估是多么困難。當(dāng)今許多現(xiàn)有的評估套件在各個方面的表現(xiàn)都很有限。

AI 初創(chuàng)公司 Anthropic 近日在其官方網(wǎng)站上貼出了一篇文章《評估 AI 系統(tǒng)所面臨的挑戰(zhàn)》。文中寫道,他們花了很長的時間來構(gòu)建對 AI 系統(tǒng)的評估,從而更好地理解 AI 系統(tǒng)。

圖片

文章地址:https://www.anthropic.com/index/evaluating-ai-systems

本文主要從以下幾個方面展開討論:

  • 多項選擇評估(Multiple choice evaluations);
  • 利用第三方評估框架,如 BIG-bench 和 HELM;
  • 讓工作人員來衡量模型是有益的還是有害的;
  • 讓領(lǐng)域?qū)<覍ο嚓P(guān)威脅進(jìn)行紅隊分析(red team);
  • 使用生成式 AI 來開發(fā)評估方法;
  • 與非營利組織合作,審核模型是否具有危害。

多項選擇評估面臨的挑戰(zhàn)

多項選擇評估看似簡單,其實不然。本文討論了模型在 MMLU(Measuring Multitask Language Understanding)和 BBQ(Bias Benchmark for QA)基準(zhǔn)上的挑戰(zhàn)。

MMLU 數(shù)據(jù)集

MMLU 是一個包含 57 個多選問答任務(wù)的英文評測數(shù)據(jù)集,涵蓋數(shù)學(xué)、歷史、法律等,是目前主流的 LLM 評測數(shù)據(jù)集。準(zhǔn)確率越高,意味著模型的能力越強(qiáng)。但本文發(fā)現(xiàn)使用 MMLU 存在四個挑戰(zhàn):

1. 由于 MMLU 被廣泛使用,因而就不可避免的遇到這種情況,模型在訓(xùn)練過程中更容易將 MMLU 數(shù)據(jù)納入進(jìn)來。這和學(xué)生在考試前看到題目是一樣的 —— 這是作弊。

2. 對簡單的格式變化敏感,例如將選項從 (A) 更改為 (1),或者在選項和答案之間添加額外的空格,這些做法都可能導(dǎo)致評估準(zhǔn)確率約有 5% 的浮動。

3. 一些開發(fā)人員有針對性的來提高 MMLU 分?jǐn)?shù),例如少樣本學(xué)習(xí)或思維鏈推理。因此,在比較各個實驗室的 MMLU 分?jǐn)?shù)時必須非常小心。

4.MMLU 可能沒有經(jīng)過仔細(xì)的校對 —— 有研究者在 MMLU 中發(fā)現(xiàn)了標(biāo)簽錯誤或無法回答的例子。

由于上述問題,因而在進(jìn)行這種簡單且標(biāo)準(zhǔn)化的評估時,有必要事先做出判斷和思考。本文表明,在使用 MMLU 中遇到的挑戰(zhàn)通常也適用于其他類似的多項選擇評估。

BBQ

多項選擇評估還可以衡量一些 AI 危害。具體而言,Anthropic 的研究者為了在自家模型 Claude 中衡量這些危害,他們使用了 BBQ 基準(zhǔn)(用于評估模型對人群偏見的常用基準(zhǔn))。在將此基準(zhǔn)與幾個類似的評估進(jìn)行比較后,本文才確信 BBQ 提供了一個很好的衡量社會偏見的方法。這項工作花了他們幾個月的時間。

本文表示,實施 BBQ 比預(yù)期要困難得多。首先是找不到一個可用的 BBQ 開源實現(xiàn),Anthropic 最好的工程師花了一個星期的時間來執(zhí)行和測試評估。與 MMLU 中按照準(zhǔn)確率評估不同,BBQ 中的 bias 得分需要細(xì)微差別和經(jīng)驗來定義、計算和解釋。

BBQ bias 得分范圍從 - 1 到 1,其中 1 表示有明顯的刻板偏見,0 表示沒有偏見,-1 表示有明顯的反刻板偏見。在實現(xiàn) BBQ 之后,本文發(fā)現(xiàn)一些模型 bias 得分為 0,這一結(jié)果也讓研究者感到樂觀,表明他們在減少有偏見的模型輸出方面取得了進(jìn)展。

第三方評估框架

最近,第三方一直在積極開發(fā)評估套件。到目前為止,Anthropic 已經(jīng)參與了其中的兩個項目:BIG-bench 和斯坦福大學(xué)的 HELM(Holistic Evaluation of Language Models)。盡管第三方評估看起來很有用,但這兩個項目都面臨新的挑戰(zhàn)。

BIG-bench

BIG-bench 包含 204 項評估,由 450 多名研究者合作完成,涵蓋從科學(xué)到社會推理的一系列主題。Anthropic 表示他們在使用這個基準(zhǔn)時遇到了一些挑戰(zhàn):為了安裝 BIG-bench,他們耗費了大量的時間。BIG-bench 不像 MMLU 那樣即插即用 —— 它甚至比使用 BBQ 更多的努力來實施。

BIG-bench 無法有效的擴(kuò)展,想要全部完成 204 項評估具有很大的挑戰(zhàn)性。因而需要重新編寫,以便與使用的基礎(chǔ)設(shè)施很好地配合,工作量巨大。

此外,在實施過程中,本文發(fā)現(xiàn)評估中存在一些 bug,使用起來非常不便利,因此 Anthropic 的研究人員在這次實驗后放棄了它。

HELM:自上而下地策劃一組評估

BIG-bench 是一項「自下而上」的工作,任何人都可以提交任何任務(wù),然后由一組專家組織者進(jìn)行有限的審查。而 HELM 則采用「自上而下」的方法,由專家決定用什么任務(wù)評估模型。 

具體來說,HELM 在推理場景、含虛假信息場景等多個場景中評估模型,采用準(zhǔn)確性、穩(wěn)健性、公平性等標(biāo)準(zhǔn)指標(biāo)。Anthropic 為 HELM 開發(fā)人員提供 API 訪問權(quán)限,以便在其模型上運行基準(zhǔn)測試。

相比于 BIG-bench,HELM 有兩個優(yōu)勢:1)它不需要進(jìn)行大量的工程工作,2)可以依靠專家來選擇和解釋特定的高質(zhì)量評估。

然而,HELM 也帶來了一些挑戰(zhàn)。適用于評估其他模型的方法不一定適用于 Anthropic 的模型,反之亦然。例如,Anthropic 的 Claude 系列模型經(jīng)過訓(xùn)練,遵循特定的文本格式,稱為 Human/Assistant 格式。Anthropic 內(nèi)部評估其模型時會遵循這種特定格式。如果不遵循這種格式,Claude 有時就會給出不尋常的回答,從而使標(biāo)準(zhǔn)評估指標(biāo)的結(jié)果不太可信。

此外,HELM 需要很長的時間才能完成,評估新模型可能需要幾個月的時間,并且需要與外部各方進(jìn)行協(xié)調(diào)和溝通。

人工智能系統(tǒng)是為了與人進(jìn)行開放式動態(tài)交互而設(shè)計的,那么如何對模型進(jìn)行更接近現(xiàn)實應(yīng)用的評估?

眾包人員進(jìn)行 A/B 測試

目前,領(lǐng)域內(nèi)主要(但不完全)依賴一種基本類型的人類評估 —— 在眾包平臺上進(jìn)行 A/B 測試,人們在其中與兩個模型進(jìn)行開放式對話,并從模型 A 或 B 中選擇響應(yīng)更有幫助或更無害,根據(jù)模型的有用性或無害性對模型進(jìn)行排名。這種評估方法的優(yōu)點是與現(xiàn)實環(huán)境相對應(yīng),并允許對不同的模型進(jìn)行排名。

然而,這種評估方法有一些局限性,實驗運行起來既昂貴又耗時。

首先,這種方法需要與第三方眾包平臺合作并為其付費,為模型構(gòu)建自定義 Web 界面,為 A/B 測試人員設(shè)計詳細(xì)的說明,還要分析和存儲結(jié)果數(shù)據(jù),并解決雇用眾包人員帶來的道德挑戰(zhàn)。

在無害性測試情況下,實驗還存在使人們接觸有害輸出的風(fēng)險。人類評估的結(jié)果可能還會因人類評估者的特征存在很大差異,包括人類評估者的創(chuàng)造力水平、動機(jī)以及識別所測試系統(tǒng)潛在缺陷的能力。

此外,有用和無害之間存在固有的張力。系統(tǒng)可以通過提供無用的響應(yīng)(例如「抱歉,我無法幫助您」)來降低有害性。

有用與無害之間的正確平衡是什么?什么指標(biāo)數(shù)值表明模型足夠有用且無害?諸多問題需要領(lǐng)域內(nèi)研究者做更多工作來找到答案。

了解更多內(nèi)容,請參考原文章。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-10 10:30:00

大模型統(tǒng)計評估

2023-07-25 13:10:54

大模型文心大模型百度

2020-11-09 09:28:49

WiFi 7WIFI6網(wǎng)絡(luò)

2024-10-22 14:20:00

AI模型

2017-04-18 20:09:14

數(shù)據(jù)分析電影評分

2024-04-11 14:12:53

2019-03-21 12:10:56

騰訊管理年輕化

2014-02-11 09:25:09

2019-04-29 10:38:13

程序員AI輔助編程

2015-12-29 10:10:04

私有云虛擬化公共云

2012-10-22 11:14:05

SDNOpenFlow網(wǎng)絡(luò)管理

2023-05-08 15:36:50

模型AI

2020-02-10 17:55:32

疫情模型靠譜

2013-12-30 16:22:40

Windows 9概念設(shè)計

2015-07-31 10:16:17

2016-11-22 17:26:11

開源PowerShellLinux

2021-01-12 14:24:26

Python開發(fā)大數(shù)據(jù)

2024-05-27 12:45:53

2014-12-30 10:20:24

飛機(jī)WiFi

2024-11-21 13:53:09

微軟AI技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號