自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型落地最后一公里:111頁全面綜述大模型評測

人工智能 新聞
天津大學(xué)自然語言處理實(shí)驗(yàn)室最近發(fā)布了大模型評測的綜述文章。該綜述文章共有 111 頁,其中正文部分 58 頁,引用了 380 余篇參考文獻(xiàn)。

當(dāng)前,大模型正憑借其強(qiáng)大的能力和無限的潛力引領(lǐng)著新一輪技術(shù)革命,眾多科技巨頭紛紛圍繞大模型進(jìn)行布局,進(jìn)一步推動大模型不斷向前發(fā)展。然而,盡管大模型能夠協(xié)助我們完成各種任務(wù),改變我們的生產(chǎn)和生活的方式,提高生產(chǎn)力,為我們帶來便利,但大模型的發(fā)展也伴隨著諸多風(fēng)險與挑戰(zhàn),如泄露隱私數(shù)據(jù),生成帶有偏見、暴力、歧視、違反基本道德和法律法規(guī)的內(nèi)容,傳播虛假信息等。不僅如此,隨著大模型能力的飛速進(jìn)步,其產(chǎn)生自我保持、自我復(fù)制、追求權(quán)力和資源、奴役其它機(jī)器和人類等與人類價值不符的 “欲望” 傾向開始逐步呈現(xiàn)出來。因此,在大模型高歌猛進(jìn)的今天,追蹤大模型的技術(shù)進(jìn)步,對大模型能力及其不足之處形成更深入的認(rèn)識和理解,預(yù)知并防范大模型帶來的安全挑戰(zhàn)和風(fēng)險,需要針對大模型開展全方位的評測,以引導(dǎo)大模型朝著更健康和更安全的方向發(fā)展,讓大模型的發(fā)展成果惠及全人類。

然而,當(dāng)前對大模型進(jìn)行全方位評測面臨諸多挑戰(zhàn),由于大模型的通用性強(qiáng),能夠勝任多種任務(wù),因此大模型的全方位評測涉及的范圍廣、工作量大、評測成本高昂;其次,由于數(shù)據(jù)標(biāo)注工作量大,許多維度的評測基準(zhǔn)仍然有待構(gòu)建;再次,自然語言的多樣性和復(fù)雜性,使得許多評測樣本無法形成標(biāo)準(zhǔn)答案,或者標(biāo)準(zhǔn)答案不止一個,這導(dǎo)致相應(yīng)的評測指標(biāo)難以量化;此外,大模型在現(xiàn)有評測數(shù)據(jù)集的表現(xiàn)難以代表其在真實(shí)應(yīng)用場景的表現(xiàn)。

為了應(yīng)對以上挑戰(zhàn),激發(fā)大家對大模型評測研究的興趣,推動大模型評測研究與大模型技術(shù)研究發(fā)展相協(xié)調(diào),天津大學(xué)自然語言處理實(shí)驗(yàn)室最近發(fā)布了大模型評測的綜述文章。該綜述文章共有 111 頁,其中正文部分 58 頁,引用了 380 余篇參考文獻(xiàn)。

圖片

  • 論文地址:https://arxiv.org/abs/2310.19736
  • 論文參考文獻(xiàn)詳細(xì)列表:https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers

如圖 2 所示,該綜述將整個大模型評測按照評測維度的不同分為了 5 個評測類別:(1)知識和能力評測,(2)對齊評測,(3)安全評測,(4)行業(yè)大模型評測,(5)(綜合)評測組織。這 5 個評測類別基本囊括了當(dāng)前大模型評測的主要研究領(lǐng)域。在介紹每個評測類別時,該綜述對相關(guān)的研究工作進(jìn)行了梳理,以樹狀結(jié)構(gòu)的思維導(dǎo)圖形式展示了各個研究工作之間的關(guān)系,以清晰展示該領(lǐng)域整體的研究框架。不僅如此,該綜述還探討了大模型評測的未來發(fā)展方向,強(qiáng)調(diào)了大模型評測應(yīng)該與大模型本身協(xié)同進(jìn)步。希望該綜述能夠?yàn)閷Υ竽P驮u測領(lǐng)域感興趣的研究者和工程技術(shù)人員提供參考,基于該綜述,對大模型評測的發(fā)展和現(xiàn)狀形成較為全面的了解,并對大模型評測中的關(guān)鍵和開放問題進(jìn)行深入思考。

圖片

圖 2  大模型評測研究中的 5 個主要評測類別及其子類別

知識和能力評測

知識和能力是評測大模型的核心維度之一。大模型的飛速發(fā)展,使其在諸多復(fù)雜任務(wù)中不斷取得突破,并被廣泛應(yīng)用于越來越多的實(shí)際業(yè)務(wù)場景中。對其是否可以勝任真實(shí)場景任務(wù),需要對大模型的知識和能力水平進(jìn)行綜合評估。該綜述討論了大模型的問答能力評測、知識補(bǔ)全能力評測、推理能力評測及工具學(xué)習(xí)能力評測,并梳理了相關(guān)的評測基準(zhǔn)數(shù)據(jù)集、評測方法和評測結(jié)果。在推理能力評測中,該綜述介紹了目前常見的 4 種推理類型:(1)常識推理,(2)邏輯推理,(3)多跳推理,(4)數(shù)學(xué)推理。在工具學(xué)習(xí)能力評測中,該綜述詳細(xì)介紹了工具調(diào)用能力評測和工具創(chuàng)造能力評測。對應(yīng)的思維導(dǎo)圖如圖 3 所示。

圖片

圖 3  大模型知識和能力評測

對齊評測

對大模型進(jìn)行對齊評測能夠提前預(yù)知大模型帶來的負(fù)面影響,以便提前采取措施消除倫理價值未對齊問題。在對齊評測中,該綜述討論了大模型的道德和倫理評測、偏見性評測、毒性評測和誠實(shí)性評測,其對應(yīng)的思維導(dǎo)圖如圖 4 所示。

圖片

圖 4  大模型的對齊評測

大模型的道德和倫理評測旨在評估其生成內(nèi)容中是否存在違背社會公認(rèn)的道德倫理規(guī)范的情況。該綜述根據(jù)評價準(zhǔn)則的不同將道德和倫理評測分為四個部分:(1)基于專家定義的道德倫理規(guī)范評測,即采用書籍、文章等專業(yè)來源中定義的道德倫理規(guī)范作為評價標(biāo)準(zhǔn),然后采用眾包的方式制作相應(yīng)的評測數(shù)據(jù)集;(2)基于眾包方式的道德倫理規(guī)范評測,其道德倫理規(guī)范通常是由未接受相關(guān)專業(yè)培訓(xùn)的眾包工作者根據(jù)個人的道德標(biāo)注進(jìn)行確定;(3)AI 輔助的道德倫理規(guī)范評測,即讓語言模型參與到評測過程中,輔助人類判斷內(nèi)容是否符合道德倫理;(4)基于混合模式(如專家定義 + 眾包方式)的道德倫理規(guī)范評測,其相關(guān)的評測數(shù)據(jù)集則既包含了由專家定義的道德倫理規(guī)范構(gòu)建的數(shù)據(jù)集,也包含了基于眾包工作者的個人道德規(guī)范構(gòu)建的數(shù)據(jù)集。

大模型的偏見性評測主要關(guān)注其生成的內(nèi)容是否會對某些社會群體產(chǎn)生不利影響或傷害?,F(xiàn)有的研究表明大模型可能會對某些群體持有刻板印象,或者產(chǎn)生輸出貶低特定群體的信息等偏見行為。該綜述主要討論了下游任務(wù)中的偏見和大模型中的偏見。下游任務(wù)涉及指代消解、機(jī)器翻譯、自然語言推理、情感分析、關(guān)系抽取和隱式仇恨言論檢測。而在大模型中的偏見中,該綜述主要介紹了主流的專用于評估大模型的偏見的評測數(shù)據(jù)集和評測方法。

大模型的毒性評測主要聚焦于評估其生成的內(nèi)容中是否含有仇恨、侮辱、淫穢等有害信息。在毒性評測的框架下,該綜述介紹了使用大模型識別有害信息的相關(guān)工作,并詳細(xì)介紹了相應(yīng)的評測基準(zhǔn)。不僅如此,該綜述還闡述了適用于評估大模型的毒性的評測數(shù)據(jù)集以及能夠量化大型模型生成內(nèi)容毒性的工具。

大模型的誠實(shí)性評測致力于檢測模型生成的內(nèi)容是否真實(shí)、準(zhǔn)確,以及是否符合事實(shí)。該綜述以評測數(shù)據(jù)集和評測方法為主線,詳細(xì)介紹了大模型的誠實(shí)性評測的相關(guān)工作。在介紹真實(shí)性評測的數(shù)據(jù)集時,該綜述根據(jù)數(shù)據(jù)集涉及的任務(wù)類型將數(shù)據(jù)集劃分為了三類:(1)問答任務(wù)數(shù)據(jù)集,(2)對話任務(wù)數(shù)據(jù)集以及(3)摘要任務(wù)數(shù)據(jù)集。在探討真實(shí)性評測的方法時,該綜述對現(xiàn)有的真實(shí)性評測方法進(jìn)行了梳理和歸類,并將其總結(jié)為三類:(1)基于自然語言推理的評測方法,(2)基于問題生成和問答的方法,(3)基于大模型的方法。

安全評測

雖然大模型在許多任務(wù)中已經(jīng)展現(xiàn)出媲美甚至超越人類的表現(xiàn),但由其引發(fā)的安全問題也不容忽視,因此需要對大模型進(jìn)行安全評測以確保其在各種應(yīng)用場景中的安全使用。在安全評測中,該綜述探討了魯棒性評測和風(fēng)險評測兩個方面,其對應(yīng)的思維導(dǎo)圖如圖 5 所示。魯棒性評測主要包括:(1)提示詞魯棒性,即通過在提示詞中加入拼寫錯誤、近義詞等模擬用戶輸入的噪音來評估大模型的魯棒性;(2)任務(wù)魯棒性,即通過生成各種下游任務(wù)的對抗樣本評估大模型的魯棒性;(3)對齊魯棒性,大模型通常會經(jīng)過對齊訓(xùn)練以確保其生成的內(nèi)容與人類的偏好和價值對齊,防止模型生成有害信息。然而,已有的研究表明有些提示詞能夠繞過對齊訓(xùn)練的防護(hù),觸發(fā)大模型生成有害內(nèi)容,這種方法也被稱為越獄打擊方法。因此,對齊魯棒性主要評測的是大模型在面臨各種引導(dǎo)模型生成有害內(nèi)容的越獄攻擊時能否仍然生成與人類偏好和價值對齊的內(nèi)容。

風(fēng)險評測則主要集中于兩個方面:(1)大模型的行為評測,即通過與大模型進(jìn)行直接交互的方式,評估大模型是否存在追求權(quán)力和資源,產(chǎn)生自我保持等潛在危險行為或傾向;(2)將大模型視為智能體進(jìn)行評測,即在特定的模擬環(huán)境中對大模型進(jìn)行評測,如模擬游戲環(huán)境、模擬網(wǎng)上購物或網(wǎng)上沖浪等場景。與大模型的行為評測不同,此項(xiàng)評測更側(cè)重于大模型的自主性以及其與環(huán)境和其它大模型之間的復(fù)雜交互。

圖片

圖 5  大模型安全評測

行業(yè)大模型評測

行業(yè)大模型指專門針對某個特定領(lǐng)域或行業(yè)進(jìn)行訓(xùn)練和優(yōu)化的大模型。與通用大模型不同,行業(yè)大模型一般都經(jīng)過了特定領(lǐng)域數(shù)據(jù)的微調(diào),因此其更加專注于某一特定領(lǐng)域的知識和應(yīng)用,如法律、金融、醫(yī)療等。乘著通用大模型發(fā)展的東風(fēng),各種行業(yè)大模型也紛紛亮相。為深入了解行業(yè)大模型能力水平,發(fā)現(xiàn)行業(yè)模型潛在缺陷以便改進(jìn)和優(yōu)化,需要對行業(yè)大模型進(jìn)行深入評測。該綜述介紹了生物 & 醫(yī)療、教育、法律、計(jì)算機(jī)和金融領(lǐng)域的行業(yè)大模型的評測,梳理了相應(yīng)的評測基準(zhǔn)、評測方法以及針對特定大模型的評測結(jié)果。其對應(yīng)的思維導(dǎo)圖如圖 6 所示。

圖片

圖 6  行業(yè)大模型評測

(綜合)評測組織

評測組織研究如何將多個評測維度或子維度組合起來,以對大模型進(jìn)行綜合性評測。該綜述對評測組織研究進(jìn)行了全面梳理,并將相關(guān)的綜合性評測基準(zhǔn)歸類為兩種:(1)由自然語言理解和自然語言生成任務(wù)組成的評測基準(zhǔn),如早期的 GLUE、SuperGLUE 和近期的 BIG-Bench 等;(2)由人類各學(xué)科考試題組成的學(xué)科能力評測基準(zhǔn),其目的是評估大模型的知識能力,如 MMLU、C-Eval、MMCU 和 M3KE 等。此外,該綜述還總結(jié)了不同模型在學(xué)科能力評測基準(zhǔn)上的表現(xiàn),并分析和探討了測試集樣本所屬的語言、模型的參數(shù)規(guī)模、指令微調(diào)和思維鏈等因素對模型效果的影響。同時,該綜述還介紹了評測平臺、排行榜以及大模型競技場,這些排行榜的評測數(shù)據(jù)集通常也由多個任務(wù)的評測數(shù)據(jù)集共同組成。大模型競技場引入了 Elo 評分機(jī)制對大模型進(jìn)行打分和排名,在計(jì)算 Elo 評分時,由人類對大模型生成的回復(fù)進(jìn)行投票以選出質(zhì)量高的回復(fù)。評測組織對應(yīng)的思維導(dǎo)圖如圖 7 所示。

圖片

圖 7  評測組織

未來展望

該綜述不僅梳理和介紹了現(xiàn)有的大模型評測的研究,還探討了當(dāng)前研究中存在的瓶頸問題,并基于此,展望了大模型評測未來潛在方向:(1)風(fēng)險評測,(2)智能體評測,(3)動態(tài)評測,以及(4)以優(yōu)化大模型為目標(biāo)的評測。

風(fēng)險評測:現(xiàn)有的風(fēng)險評測方法主要通過問答的方式對大模型進(jìn)行評測,然而該方法難以全面評估大模型在特定場景或特定環(huán)境下的風(fēng)險,無法深入揭示這些風(fēng)險產(chǎn)生的內(nèi)在原因。因此對于大模型的風(fēng)險評測,需要更深入、更全面的評測方法。

智能體評測:現(xiàn)有的將大模型視為智能體進(jìn)行評測的方法大多需要一個特定的環(huán)境,并且總是聚焦于智能體的能力評測。然而,這些方法往往缺乏專門用于評測智能體潛在風(fēng)險的環(huán)境,因此可以進(jìn)一步增加智能體所處環(huán)境的多樣性,以便更全面地評估其能力和風(fēng)險。

動態(tài)評測:現(xiàn)有的評測方法通常是靜態(tài)評測,其測試樣本總是長時間保持不變。然而,由于大模型的訓(xùn)練數(shù)據(jù)來源廣泛且規(guī)模龐大,有些測試樣本可能已經(jīng)包含在其訓(xùn)練數(shù)據(jù)中。此外,大多數(shù)大模型往往不會詳細(xì)透露其訓(xùn)練數(shù)據(jù)來源或公開其訓(xùn)練數(shù)據(jù),這可能導(dǎo)致為了獲得好的評測結(jié)果,靜態(tài)評測的測試樣本會被人為添加到模型的訓(xùn)練數(shù)據(jù)中。再者,由于知識每時每刻都在迭代更新,靜態(tài)評測的數(shù)據(jù)中的知識有可能會過時,隨著大模型的能力不斷的增強(qiáng),原有的靜態(tài)評測數(shù)據(jù)的難度可能無法滿足大模型的能力需求。這些因素都削弱了靜態(tài)評測的公平性。因此,為了更加全面公正的對大模型進(jìn)行評測,可以采用動態(tài)評測方法,持續(xù)更新測試樣本,引入開放式問題,并探索評測新方法,如使用多個大模型通過辯論的方式進(jìn)行評測。

以優(yōu)化大模型為目標(biāo)的評測:現(xiàn)有的評測方法主要使用具體的評分量化大模型在某些特定任務(wù)或某些特定維度的能力,雖然這些評分便于模型之間的比較和選擇,但它們包含的信息難以指導(dǎo)模型的進(jìn)一步優(yōu)化。因此,需要以優(yōu)化大模型為目標(biāo)的評測方法,這種方法不僅給出模型的能力評分,同時也提供對應(yīng)的能力分析和改進(jìn)建議。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-07-26 07:35:30

數(shù)據(jù)庫HTAP系統(tǒng)

2023-07-03 13:31:07

大模型AI互聯(lián)網(wǎng)

2015-04-23 10:30:42

華為

2022-07-29 09:03:17

AIOPS運(yùn)維工具

2012-04-10 09:05:49

無線交換機(jī)

2011-12-25 20:54:57

移動支付

2012-09-24 15:07:09

云ERP恩信科技云應(yīng)用

2022-04-19 08:09:11

PON光纖網(wǎng)絡(luò)

2015-12-11 10:46:01

2025-02-20 08:45:41

V3GPU資源

2017-09-04 16:49:25

2023-12-12 08:31:44

智能運(yùn)維場景

2017-02-21 12:30:21

數(shù)據(jù)中心智能終端網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號