自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM評(píng)估綜述論文問(wèn)世,分三方面全面總結(jié),還帶資料庫(kù)

人工智能 新聞
這是一篇關(guān)于評(píng)估大型語(yǔ)言模型的研究,文中參考了許多重要文獻(xiàn),值得一讀。

大型語(yǔ)言模型(LLM)已經(jīng)得到了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,而為了開(kāi)發(fā)出好用的 LLM,適當(dāng)?shù)脑u(píng)估方法必不可少?,F(xiàn)在,一篇有關(guān) LLM 評(píng)估的綜述論文終于來(lái)了!其中分三方面對(duì) LLM 評(píng)估的相關(guān)研究工作進(jìn)行了全面的總結(jié),可幫助相關(guān)研究者索引和參考。

不僅如此,該論文作者還創(chuàng)建了一個(gè)開(kāi)源資料庫(kù),讓用戶可以方便地添加和共享相關(guān)的新研究:https://github.com/MLGroupJLU/LLM-eval-survey

圖片

對(duì)科學(xué)家來(lái)說(shuō),理解智能的本質(zhì)以及確定機(jī)器是否能具有智能是極具吸引力的課題。人們普遍認(rèn)為,人類之所以有能力執(zhí)行推理、檢驗(yàn)假設(shè)以及為未來(lái)做準(zhǔn)備,就是因?yàn)槲覀兙哂姓嬲闹悄?。人工智能研究者關(guān)注的是開(kāi)發(fā)基于機(jī)器的智能。正確的度量方式有助于理解智能。舉個(gè)例子,為了測(cè)試人類的智能水平 / 智力,常常會(huì)用到 IQ 測(cè)試。

而在 AI 領(lǐng)域,AI 開(kāi)發(fā)的一個(gè)長(zhǎng)期目標(biāo)是讓 AI 通過(guò)圖靈測(cè)試(Turing Test),這需要一個(gè)能被廣泛認(rèn)可的測(cè)試集,通過(guò)辨別 AI 和人類對(duì)其的響應(yīng)來(lái)評(píng)估 AI 的智能水平。研究者普遍相信,如果計(jì)算機(jī)能成功通過(guò)圖靈測(cè)試,那么就可以認(rèn)為它具有智能。因此,從更廣泛的視角看,AI 的編年史可描述為智能模型和算法的創(chuàng)造和評(píng)估的時(shí)間線。每當(dāng)出現(xiàn)一個(gè)新的 AI 模型或算法,研究者都會(huì)使用有難度的特定任務(wù)來(lái)仔細(xì)評(píng)估其在真實(shí)世界場(chǎng)景中的能力。

舉個(gè)例子,曾在上世紀(jì) 50 年代被吹捧為通用人工智能(AGI)方法的感知器算法之后被證明名不符實(shí),因?yàn)槠潆y以求解 XOR(異或)問(wèn)題。之后興起并得到應(yīng)用的支持向量機(jī)(SVM)和深度學(xué)習(xí)都是 AI 發(fā)展圖景中的重大里程碑,但它們也都各有短板。

過(guò)去的研究歷程向我們揭示了評(píng)估的重要性。評(píng)估是一種重要工具,能幫助我們識(shí)別當(dāng)前系統(tǒng)的局限性并讓我們獲得設(shè)計(jì)更強(qiáng)模型的信息。

目前而言,學(xué)術(shù)界和產(chǎn)業(yè)界最感興趣的技術(shù)方法是大型語(yǔ)言模型(LLM)。已有的研究表明:LLM 表現(xiàn)優(yōu)異,已經(jīng)成為 AGI 的有力候選。相比于之前受限于特定任務(wù)的模型,LLM 有能力解決多種不同任務(wù)。由于 LLM 既能應(yīng)對(duì)一般性自然語(yǔ)言任務(wù),又能處理特定領(lǐng)域的任務(wù),因此越來(lái)越受有特定信息需求的人的歡迎,比如學(xué)生和病人。

評(píng)估對(duì)于 LLM 的成功來(lái)說(shuō)至關(guān)重要,原因如下。

首先,評(píng)估 LLM 有助于我們更好地了解 LLM 的優(yōu)勢(shì)和劣勢(shì)。舉個(gè)例子,PromptBench 基準(zhǔn)測(cè)試表明,當(dāng)前的 LLM 對(duì)對(duì)抗性 prompt 很敏感,因此為了更好的性能,必需仔細(xì)設(shè)計(jì) prompt。

第二,更好的評(píng)估可以為人類與 LLM 的交互提供更好的指引,這能為未來(lái)的交互設(shè)計(jì)和實(shí)現(xiàn)提供思路。

第三,LLM 由于廣泛適用于多種任務(wù),因此確保其安全性和可靠性就至關(guān)重要了,尤其是在金融和醫(yī)療等行業(yè)。

最后,隨著 LLM 能力增多,其也在越來(lái)越大,因此現(xiàn)有的評(píng)估方法可能不足以評(píng)估它們的能力和潛在風(fēng)險(xiǎn)。這就引出了這篇綜述論文的目標(biāo):讓 AI 社區(qū)認(rèn)識(shí)到 LLM 評(píng)估的重要性并指引有關(guān) LLM 評(píng)估協(xié)議的未來(lái)新研究。

隨著 ChatGPT 和 GPT-4 的推出,已經(jīng)出現(xiàn)了一些旨在從不同方面評(píng)估 ChatGPT 和其它 LLM 的研究工作(圖 2),其中涵蓋很多因素,包括自然語(yǔ)言任務(wù)、推理、穩(wěn)健性、可信度、醫(yī)學(xué)應(yīng)用和道德考量。盡管如此,仍然缺乏一篇涵蓋整個(gè)評(píng)估圖景的全面綜述。此外,LLM 的持續(xù)演進(jìn)還會(huì)引入需要評(píng)估的新方面,這會(huì)給現(xiàn)有評(píng)估帶來(lái)困難,并由此更加需要徹底的和多方面的評(píng)估技術(shù)。盡管有一些研究工作宣傳 GPT-4 可以被視為 AGI 的星星之火,但另一些人則反對(duì)這個(gè)說(shuō)法,因?yàn)?GPT-4 的評(píng)估方法本質(zhì)上還是啟發(fā)式的。

這篇來(lái)自吉林大學(xué)、微軟亞洲研究院和卡內(nèi)基?梅隆大學(xué)等機(jī)構(gòu)論文對(duì)大型語(yǔ)言模型評(píng)估進(jìn)行了全面綜述。如圖 1 所示,作者從三個(gè)維度對(duì)現(xiàn)有研究工作進(jìn)行了探索:1) 評(píng)估什么,2) 何處評(píng)估,3) 如何評(píng)估。

圖片

論文地址:https://arxiv.org/pdf/2307.03109.pdf

具體來(lái)說(shuō),「評(píng)估什么」涵蓋 LLM 現(xiàn)有的評(píng)估任務(wù),「何處評(píng)估」涉及對(duì)所用的數(shù)據(jù)集和基準(zhǔn)的適當(dāng)選擇,「如何評(píng)估」關(guān)注的是給定任務(wù)和數(shù)據(jù)集下的評(píng)估過(guò)程。這三個(gè)維度是 LLM 評(píng)估不可或缺的一部分。之后,作者還會(huì)討論 LLM 評(píng)估領(lǐng)域潛在的未來(lái)挑戰(zhàn)。

圖 1:論文的結(jié)構(gòu)


圖 2:LLM 評(píng)估論文隨時(shí)間的趨勢(shì),從 2020 年到 2023 年 6 月(6 月數(shù)據(jù)包含 7

圖 2:LLM 評(píng)估論文隨時(shí)間的趨勢(shì),從 2020 年到 2023 年 6 月(6 月數(shù)據(jù)包含 7 月的部分論文)

本文的主要貢獻(xiàn)包括:

  1. 本文從三方面全面地概述了 LLM 評(píng)估:評(píng)估什么、何處評(píng)估、如何評(píng)估。其中采用的分類方法是普適的并且涵蓋 LLM 評(píng)估的整個(gè)生命周期。
  2. 在「評(píng)估什么」方面,本文總結(jié)了多個(gè)領(lǐng)域的現(xiàn)有任務(wù),并得到了有關(guān) LLM 的成功和失敗案例的富有洞見(jiàn)的結(jié)論。
  3. 在「何處評(píng)估」方面,本文對(duì)評(píng)估指標(biāo)、數(shù)據(jù)集和基準(zhǔn)進(jìn)行了總結(jié),可幫助讀者透徹地理解 LLM 評(píng)估的當(dāng)前圖景。在「如何評(píng)估」方面,本文探索了當(dāng)前協(xié)議并總結(jié)了新的評(píng)估方法。
  4. 本文還進(jìn)一步討論了評(píng)估 LLM 方面的未來(lái)挑戰(zhàn)。為了促進(jìn)構(gòu)建一個(gè)有關(guān) LLM 評(píng)估的合作社區(qū),作者還維護(hù)著一個(gè) LLM 評(píng)估相關(guān)材料的資源庫(kù)并已開(kāi)源:https://github.com/MLGroupJLU/LLM-eval-survey

背景

大型語(yǔ)言模型(LLM)

GPT-3、InstructGPT 和 GPT-4 等許多 LLM 背后的核心模塊是 Transformer 中的自注意力模塊,Transformer 則是語(yǔ)言建模任務(wù)的基本構(gòu)建模塊。Transformer 已經(jīng)為 NLP 領(lǐng)域帶來(lái)了變革,因?yàn)槠淠芨咝幚硇蛄袛?shù)據(jù)、支持并行化并能捕獲文本中的長(zhǎng)程依賴關(guān)系。

LLM 的一大關(guān)鍵特性是上下文學(xué)習(xí),即模型可被訓(xùn)練基于給定的上下文或 prompt 生成文本。這讓 LLM 可以生成更為連貫且更長(zhǎng)上下文相關(guān)的響應(yīng),從而讓它們更適用于交互式和會(huì)話應(yīng)用。

根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)是 LLM 的另一重要方面。該技術(shù)是使用人類生成的響應(yīng)作為獎(jiǎng)勵(lì)對(duì)模型進(jìn)行微調(diào),從而讓模型可以學(xué)習(xí)自身的錯(cuò)誤并隨時(shí)間提升性能。

圖片

表 1:對(duì)比傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和 LLM

AI 模型評(píng)估

AI 模型評(píng)估是評(píng)估模型性能的重要步驟。目前已有一些標(biāo)準(zhǔn)模型評(píng)估協(xié)議,包括 K-fold 交叉驗(yàn)證、Holdout 驗(yàn)證、Leave One Out 交叉驗(yàn)證(LOOCV)、Bootstrap 和 Reduced Set。

圖片

圖 3:AI 模型的評(píng)估過(guò)程

隨著 LLM 應(yīng)用增多,其可解釋性卻越來(lái)越差,因此現(xiàn)有的評(píng)估協(xié)議可能不足以徹底評(píng)估 LLM 的真實(shí)能力。

評(píng)估什么

開(kāi)發(fā)語(yǔ)言模型(尤其是大型語(yǔ)言模型)的最初目標(biāo)是提升 AI 在自然語(yǔ)言處理任務(wù)上的性能,其中包含理解任務(wù)和生成任務(wù)。正因?yàn)榇?,大多?shù)評(píng)估研究關(guān)注的也主要是自然語(yǔ)言任務(wù)。

自然語(yǔ)言處理任務(wù)

圖片

表 2:基于自然語(yǔ)言處理任務(wù)的評(píng)估概況:NLU(自然語(yǔ)言理解,包括 SA(情感分析)、TC(文本分類)、NLI(自然語(yǔ)言推理)和其它 NLU 任務(wù))、Rng.(推理)、NLG(自然語(yǔ)言生成,包括 Summ.(摘要)、Dlg.(對(duì)話)、Tran.(翻譯)、QA(問(wèn)答)和其它 NLG 任務(wù))和 Mul.(多語(yǔ)言任務(wù))

穩(wěn)健性、道德、偏見(jiàn)和可信度

LLM 的評(píng)估涵蓋穩(wěn)健性、道德、偏見(jiàn)和可信度等關(guān)鍵方面。為了全面評(píng)估 LLM 的表現(xiàn),這些因素的重要性正在提升。 

圖片

表 3:在穩(wěn)健性、道德、偏見(jiàn)和可信度方面的 LLM 評(píng)估研究概況

社會(huì)科學(xué)

社會(huì)科學(xué)研究的是人類社會(huì)和個(gè)人行為,包括經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、政治學(xué)、法學(xué)等學(xué)科。評(píng)估 LLM 在社會(huì)科學(xué)領(lǐng)域的表現(xiàn)對(duì)于學(xué)術(shù)研究、政策制定和社會(huì)問(wèn)題解決而言具有重要意義。這些評(píng)估有助于推進(jìn)模型在社會(huì)科學(xué)領(lǐng)域的應(yīng)用并改善模型的質(zhì)量,提升對(duì)人類社會(huì)的理解以及推動(dòng)社會(huì)進(jìn)步。

自然科學(xué)和工程學(xué)

評(píng)估 LLM 在自然科學(xué)和工程學(xué)領(lǐng)域的表現(xiàn)有助于引導(dǎo)科學(xué)研究的應(yīng)用和發(fā)展、技術(shù)開(kāi)發(fā)以及工程研究。

圖片

表 4:在自然科學(xué)和工程學(xué)任務(wù)方面的評(píng)估研究概況,其中涉及三個(gè)方面:數(shù)學(xué)、科學(xué)和工程學(xué)

醫(yī)學(xué)應(yīng)用

LLM 在醫(yī)學(xué)領(lǐng)域的應(yīng)用最近引起了極大的關(guān)注。這里從四個(gè)方面介紹 LLM 在醫(yī)學(xué)領(lǐng)域的應(yīng)用:醫(yī)學(xué)問(wèn)答、醫(yī)學(xué)檢查、醫(yī)學(xué)評(píng)估和醫(yī)學(xué)教育。

圖片

表 5:LLM 的醫(yī)學(xué)應(yīng)用方面的評(píng)估研究概況,其中涉及四個(gè)方面:Med. Exam.(醫(yī)學(xué)檢查)、Med. Ass.(醫(yī)學(xué)評(píng)估)、Med. QA(醫(yī)學(xué)問(wèn)答)和 Med. Edu.(醫(yī)學(xué)教育)

智能體應(yīng)用

LLM 不僅專注于一般語(yǔ)言任務(wù),而是可以用作一種強(qiáng)大工具,應(yīng)對(duì)不同領(lǐng)域的任務(wù)。通過(guò)為 LLM 配備外部工具,可以極大擴(kuò)展模型能力。

其它應(yīng)用

除了上述分類,LLM 還能用于其它一些不同領(lǐng)域,包括教育、搜索和推薦、性格測(cè)試以及特定領(lǐng)域的應(yīng)用。

圖片

表 6:LLM 的其它應(yīng)用方面的評(píng)估研究概況,其中涉及四個(gè)方面:Edu.(教育)、Sea. & Rec. (搜索和推薦)、Pers. Test.(性格測(cè)試)和 Specific applications(特定領(lǐng)域的應(yīng)用)

何處評(píng)估:數(shù)據(jù)集和基準(zhǔn)

LLM 評(píng)估數(shù)據(jù)集的作用是測(cè)試和比較不同語(yǔ)言模型在各種任務(wù)上的性能。GLUE 和 SuperGLUE 等數(shù)據(jù)集的目標(biāo)是模擬真實(shí)世界的語(yǔ)言處理場(chǎng)景,其中涵蓋多種不同任務(wù),如文本分類、機(jī)器翻譯、閱讀理解和對(duì)話生成。這里不關(guān)注用于語(yǔ)言模型的任何單個(gè)評(píng)估數(shù)據(jù)集,關(guān)注的則是用于評(píng)估 LLM 的基準(zhǔn)。

由于 LLM 在不斷演進(jìn),因此基準(zhǔn)也會(huì)變化,這里列出了 13 個(gè)常用的基準(zhǔn)。每個(gè)基準(zhǔn)側(cè)重于不同的方面和評(píng)估指標(biāo),都為各自領(lǐng)域提供了寶貴的貢獻(xiàn)。為了更好地進(jìn)行總結(jié),這里將基準(zhǔn)分為兩類:通用語(yǔ)言任務(wù)基準(zhǔn)和特定下游任務(wù)基準(zhǔn)。

圖片

表 7:LLM 評(píng)估基準(zhǔn)概況 

如何評(píng)估

常用的評(píng)估方法分為兩大類:自動(dòng)評(píng)估和人類評(píng)估。顧名思義,這里就不多介紹了。

總結(jié)

任務(wù):LLM 的成功和失敗案例 

現(xiàn)在總結(jié)一下 LLM 在不同任務(wù)中的成功和失敗案例。注意,以下結(jié)論都是基于現(xiàn)有評(píng)估工作得出的,結(jié)果可能取決于具體的數(shù)據(jù)集。 

LLM 擅長(zhǎng)做什么? 

  • LLM 熟練掌握了文本生成,能生成流暢和精確的語(yǔ)言表達(dá)。 
  • LLM 能出色地應(yīng)對(duì)涉及語(yǔ)言理解的任務(wù),比如情感分析和文本分類。 
  • LLM 展現(xiàn)出了穩(wěn)健的上下文理解能力,讓它們能生成與給定輸入相符的連貫響應(yīng)。 
  • LLM 在多種自然語(yǔ)言處理任務(wù)上的表現(xiàn)都值得稱贊,包括機(jī)器翻譯、文本生成和問(wèn)答。 

LLM 不擅長(zhǎng)做什么? 

  • LLM 可能會(huì)在生成過(guò)程中展現(xiàn)出偏見(jiàn)和不準(zhǔn)確的問(wèn)題,從而得到帶偏見(jiàn)的輸出。 
  • LLM 在理解復(fù)雜邏輯和推理任務(wù)方面的能力有限,經(jīng)常在復(fù)雜的上下文中發(fā)生混淆或犯錯(cuò)。 
  • LLM 處理大范圍數(shù)據(jù)集和長(zhǎng)時(shí)記憶的能力有限,這可能使其難以應(yīng)對(duì)很長(zhǎng)的文本和涉及長(zhǎng)期依賴的任務(wù)。
  • LLM 整合實(shí)時(shí)和動(dòng)態(tài)信息的能力有限,這讓它們不太適合用于需要最新知識(shí)或快速適應(yīng)變化環(huán)境的任務(wù)。 
  • LLM 對(duì) prompt 很敏感,尤其是對(duì)抗性 prompt,這會(huì)激勵(lì)研究者開(kāi)發(fā)新的評(píng)估方法和算法,以提升 LLM 的穩(wěn)健性。 
  • 在文本摘要領(lǐng)域,人們觀察到大型模型可能在特定評(píng)估指標(biāo)上表現(xiàn)不佳,原因可能在于這些特定指標(biāo)的固有局限性和不足之處。

基準(zhǔn)和評(píng)估協(xié)議

隨著 LLM 的快速發(fā)展和廣泛使用,在實(shí)際應(yīng)用和研究中評(píng)估它們的重要性變得至關(guān)重要。這個(gè)評(píng)估過(guò)程不僅應(yīng)該包括任務(wù)層面的評(píng)估,還應(yīng)該包括它們?cè)谏鐣?huì)方面的潛在風(fēng)險(xiǎn)。表 8 總結(jié)了現(xiàn)有的基準(zhǔn)和評(píng)估協(xié)議。

圖片

表 8:新型 LLM 評(píng)估協(xié)議概況

巨大挑戰(zhàn)

最后來(lái)看看 LLM 評(píng)估研究方面面臨的挑戰(zhàn)。作者認(rèn)為,為了推動(dòng) LLM 和其它 AI 模型的成功發(fā)展,應(yīng)當(dāng)將評(píng)估當(dāng)作一門(mén)關(guān)鍵性學(xué)科來(lái)對(duì)待。現(xiàn)有的協(xié)議不足以透徹地評(píng)估 LLM,還有許多挑戰(zhàn)有待攻克,下面將簡(jiǎn)單羅列出這些挑戰(zhàn),但它們也是 LLM 評(píng)估方面的未來(lái)研究的新機(jī)會(huì)。

  • 設(shè)計(jì) AGI 評(píng)估基準(zhǔn)
  • 對(duì)完整行為進(jìn)行評(píng)估
  • 穩(wěn)健性評(píng)估
  • 動(dòng)態(tài)和演化評(píng)估
  • 有原則且值得信任的評(píng)估
  • 支持所有 LLM 任務(wù)的統(tǒng)一評(píng)估
  • 超越評(píng)估:LLM 強(qiáng)化
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2015-12-01 17:09:11

金融轉(zhuǎn)型華為

2010-04-28 17:39:26

網(wǎng)絡(luò)負(fù)載均衡

2010-02-24 14:24:35

.NET 4.0

2010-09-08 19:35:12

2013-09-13 10:19:27

iOS 7IT

2017-11-17 08:27:21

2017-08-25 10:50:13

運(yùn)行多云模式

2011-03-24 09:59:01

VMware vSphXenDesktop

2018-03-12 12:38:30

混合云私有云云計(jì)算

2010-06-24 13:30:36

FTP協(xié)議

2010-04-12 09:41:01

2009-11-03 16:04:29

2014-08-12 10:41:50

大數(shù)據(jù)

2014-08-12 10:52:16

大數(shù)據(jù)

2011-05-18 09:56:15

2022-03-01 10:25:20

算法大數(shù)據(jù)殺熟

2010-11-17 13:23:12

2020-09-23 16:48:36

人臉識(shí)別技術(shù)交通

2015-04-30 09:35:31

程序員心態(tài)飲食

2021-12-27 15:45:12

人工智能AI深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)