自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全面的中文大語言模型評測來啦!香港中文大學(xué)研究團(tuán)隊發(fā)布

人工智能 新聞
近期的一系列中文大模型的評測研究陸續(xù)呈現(xiàn),盡管極大地推進(jìn)了中文大語言模型理解,但仍然有一些關(guān)鍵的研究問題需要關(guān)注和討論。

ChatGPT 的一聲號角吹響了2023年全球大語言模型的競賽。

2023年初以來,來自工業(yè)界和研究機(jī)構(gòu)的各種大語言模型層出不窮,特別值得一提的是,中文大語言模型也如雨后春筍般,在過去的半年里不斷涌現(xiàn)。

與此同時,和如何訓(xùn)練大語言模型相比,另一些核心的難題同時出現(xiàn)在學(xué)術(shù)界和產(chǎn)業(yè)界的面前:究竟應(yīng)該如何理解和評價中文大語言模型的能力?在中文和英文大模型的理解和評測上又應(yīng)該有什么聯(lián)系與區(qū)別?

帶著問題的思考,我們發(fā)現(xiàn),近期的一系列中文大模型的評測研究陸續(xù)呈現(xiàn),盡管極大地推進(jìn)了中文大語言模型理解,但仍然有一些關(guān)鍵的研究問題需要關(guān)注和討論。

想要準(zhǔn)確全面地理解和評測中文大語言模型,這些問題亟須解決:

  • 評測數(shù)據(jù)與指標(biāo)的選擇需要更加全面。傳統(tǒng)的自動評測工作往往基于數(shù)量有限的考試題或部分開源數(shù)據(jù)集,采用的評測指標(biāo)大多只關(guān)注廣義的準(zhǔn)確率。數(shù)據(jù)的選擇不夠豐富多樣,指標(biāo)上也忽視了魯棒性、公平性等在模型應(yīng)用中很重要的其他維度。而人工評測大模型因高昂的人力成本,在數(shù)據(jù)與指標(biāo)的選擇上更受制約。
  • 不一致的評測過程容易損害評測結(jié)果的可比性。提示(prompt)模板、超參數(shù)、數(shù)據(jù)預(yù)處理等環(huán)節(jié)都會對模型最終的結(jié)果有直接影響。
  • 難以避免的數(shù)據(jù)污染(data contamination)風(fēng)險讓評測對比難上加難。隨著訓(xùn)練語料不斷擴(kuò)大,模型在訓(xùn)練過程中見過考試題和開源數(shù)據(jù)集的可能性也不斷升高。

針對這些挑戰(zhàn),有研究團(tuán)隊已經(jīng)給出了自己的探索與方案。

近日,EMNLP 2023的論文結(jié)果公布。來自香港中文大學(xué)計算機(jī)科學(xué)與工程學(xué)系的王歷偉助理教授研究團(tuán)隊的CLEVA: Chinese Language Models EVAluation Platform 被EMNLP 2023 System Demonstrations 錄取。

據(jù)CLEVA項目負(fù)責(zé)人王歷偉教授介紹,CLEVA是其帶領(lǐng)的港中文語言和視覺實驗室(CUHK LaVi Lab)聯(lián)合上海人工智能實驗室合作研究的全面的中文大語言模型評測方法。

值得一提的是,CLEVA目前已經(jīng)被全球前沿的英文大語言模型評測體系-斯坦福大學(xué)的HELM 評測體系認(rèn)可和接入!

目前,用戶已經(jīng)可以通過斯坦福的HELM評測平臺來調(diào)用和測試CLEVA的中文大模型評測?!澳艿玫絿H前沿大模型評測研究團(tuán)隊的認(rèn)可,是對我們研究工作的極大鼓勵?!?LaVi實驗室的同學(xué)自豪地說。

CLEVA:全面的中文評測

全面的大語言模型評測離不開海量的數(shù)據(jù)和完整的評測指標(biāo)。CLEVA目前覆蓋 31個任務(wù)(11個應(yīng)用評估+20個能力評測),囊括目前最多的來自84個數(shù)據(jù)集的370K個中文測試樣本。中文測試樣本數(shù)是過往同類工作最大值的四倍,讓大語言模型在不同任務(wù)上的能力都完整地呈現(xiàn)出來。

指標(biāo)上,CLEVA不僅關(guān)注過往評測中大家最在乎的準(zhǔn)確性(Accuracy),還借鑒了HELM在英文評測中的做法,針對中文評測設(shè)計了魯棒性(Robustness)、公平性(Fairness)、效率(Efficiency)、校準(zhǔn)與不確定性(Calibration and Uncertainty)、偏見與刻板印象(Bias and Stereotypes)和毒性(Toxicity)的指標(biāo)。另外,CLEVA還引入了多樣性(Diversity)隱私性(Privacy)評測,幫助人們做出綜合的判斷。這對大模型應(yīng)用至關(guān)重要。

標(biāo)準(zhǔn)的評測流程

在使用大模型時,人們經(jīng)常發(fā)現(xiàn)大模型對提示等細(xì)節(jié)變化不夠魯棒。不同的提示模版會帶來較明顯的差異。過往的大模型評測很多只提供了評測數(shù)據(jù),并沒有提供或只提供了一兩個提示模版,而這直接導(dǎo)致不同工作得到的評測結(jié)果不直接可比。

CLEVA為每一個評測任務(wù)準(zhǔn)備了一組多個提示模版。所有模型用同樣一組提示模版進(jìn)行統(tǒng)一評測,不僅可以更公平比較模型能力,還可以通過不同模版帶來的性能差異分析一個模型對提示模版的敏感程度,指導(dǎo)模型的下游應(yīng)用。

更可信的評測結(jié)果

隨著大模型訓(xùn)練用的語料越來越龐大,數(shù)據(jù)污染的風(fēng)險也與日俱增。數(shù)據(jù)污染會使模型測試結(jié)果不可信,很難公平地體現(xiàn)出模型的能力。如何盡量減輕數(shù)據(jù)污染的問題,之前的中文評測工作還沒有針對這一問題給出充分的探索和方案。

CLEVA通過多種方法在評測開始之前就主動降低數(shù)據(jù)污染帶來的風(fēng)險。從源頭上,33.98%的測試數(shù)據(jù)是CLEVA新采集構(gòu)造的。更關(guān)鍵的是,CLEVA基于規(guī)模最大的中文測試數(shù)據(jù),在每輪評測時都會通過不重復(fù)采樣得到一個全新的測試集。每一輪測試集在經(jīng)過多種數(shù)據(jù)增強(qiáng)策略的調(diào)整后,才用來評測大模型,進(jìn)一步緩解數(shù)據(jù)污染的風(fēng)險。

如何進(jìn)行CLEVA 評測?

CLEVA已經(jīng)評測了23個目前最有影響力的中文大模型,還會持續(xù)用更多的數(shù)據(jù)和指標(biāo),評測更多的模型。對大模型評測感興趣的研究團(tuán)隊,可以通過CLEVA網(wǎng)站提交和對接評測后續(xù)的進(jìn)展。詳細(xì)的教程請參考CLEVA官方網(wǎng)頁或GitHub repo。

對于CLEVA已經(jīng)具有的評測需求,CLEVA還提供了清晰好用的網(wǎng)絡(luò)界面進(jìn)行操作。用戶可以用可交互的可視化工具,仔細(xì)對比不同模型在不同任務(wù)和評測指標(biāo)上的差異。在申請權(quán)限后,用戶可以讓自己感興趣的模型通過網(wǎng)絡(luò)接口跟CLEVA進(jìn)行交互,只需按幾次鼠標(biāo)即可開始一次全面評測,十分便利。

“團(tuán)隊很努力地做了很久的CLEVA,不僅僅是研究上的理解加深,細(xì)節(jié)上也在不斷打磨,不斷優(yōu)化。在此過程中,非常感謝上海人工智能實驗室的合作與支持。” CLEVA 團(tuán)隊在提起打造這個研究工作的時候,能感覺出來研究積累的力量。

大模型能力的認(rèn)知和評測需要學(xué)術(shù)界和工業(yè)界的共同關(guān)注

筆者也了解到,學(xué)術(shù)界和工業(yè)界對大模型能力評測關(guān)注的角度也有一些區(qū)別與聯(lián)系。

王歷偉教授,在2020年加入香港中文大學(xué)任助理教授之前,已經(jīng)在北美有數(shù)年的工業(yè)界工作經(jīng)驗。他也曾作為商湯科技大語言模型“商量SenseChat”的技術(shù)總負(fù)責(zé)人,帶領(lǐng)團(tuán)隊于2023年4月,發(fā)布最早的國內(nèi)中文大語言模型的代表之一,“商量SenseChat”。

圖片

王歷偉

當(dāng)他提起學(xué)術(shù)界和工業(yè)界關(guān)注大模型評測的角度的區(qū)別和聯(lián)系的時候,說道:“工業(yè)界的大模型會不僅僅關(guān)注模型的基本通用能力,還會關(guān)注大模型如何服務(wù)垂直場景和垂直產(chǎn)業(yè),所以評測能力會更加在場景中具象化;而學(xué)?;蛘哐芯繖C(jī)構(gòu)則更適合從基本的模型理解能力、認(rèn)知能力、通用智能等角度來理解和評測大模型?!?/p>

針對大模型評測領(lǐng)域的許多開放問題,王歷偉教授提到,短期內(nèi)他的港中文研究團(tuán)隊會持續(xù)關(guān)注的幾點(diǎn):

“第一,就是進(jìn)一步優(yōu)化解決數(shù)據(jù)污染的辦法。CLEVA 通過增加新數(shù)據(jù)和采樣的方式減少數(shù)據(jù)污染的可能。但是未來應(yīng)該可以通過新的數(shù)據(jù)生成范式來構(gòu)造更多的評測數(shù)據(jù)。”

“第二,就是目前評測工作還存在很多需要提高的方面,比如應(yīng)該如何定義推理(reasoning)?應(yīng)該如何評價推理的過程,而不僅僅是簡單地看推理的結(jié)果?再比如,針對什么是智能的理解問題上,應(yīng)該如何跨學(xué)科地合作,來設(shè)計新的問題,來檢驗大模型的智能。當(dāng)然還有很多方面,比如AI 安全問題,如何評價幻覺問題,等等?!?/p>

“第三,多模態(tài)場景下的涌現(xiàn)能力和純語言學(xué)習(xí)下有哪些不同?我們有十年左右的vision+language 研究經(jīng)驗和積累。CUHK LaVi Lab在不斷加強(qiáng)大語言模型和多模態(tài)大模型的各個課題研究的同時,也會不斷探索多模態(tài)場景下的大模型的能力認(rèn)知和評測。”

“對大模型能力認(rèn)知和評測的研究本身,也一定會幫助研究團(tuán)隊理解和加強(qiáng)持續(xù)提高大模型的能力。”

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-08-30 13:23:00

模型訓(xùn)練

2023-10-29 22:25:23

模型AI

2012-06-21 22:15:34

思科

2024-04-07 09:00:00

數(shù)據(jù)模型

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2025-04-03 09:25:53

2022-11-01 13:48:08

參數(shù)方法

2025-01-15 10:28:21

2023-10-04 09:20:04

模型訓(xùn)練

2025-04-09 09:41:43

2024-07-08 08:00:00

2025-04-27 09:27:00

AI數(shù)據(jù)視頻

2024-07-26 11:42:28

2022-10-09 10:11:02

AI神經(jīng)網(wǎng)絡(luò)

2024-09-27 14:30:00

強(qiáng)化學(xué)習(xí)3D打印AI

2022-04-11 15:21:24

機(jī)器人研究變形

2025-02-27 13:00:00

2025-04-23 09:06:00

AI模型LLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號