自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

LLM的考試過程原來是這樣？C-Eval優(yōu)等生考題實(shí)測(cè)

作者：機(jī)器之心 2023-10-08 12:50:13

人工智能新聞

在本系列的SOTA！模型社區(qū)專欄中，我們將深入探索目前流行的中文大模型評(píng)估基準(zhǔn)，包括它們的指標(biāo)設(shè)計(jì)、評(píng)估集構(gòu)成和適用場(chǎng)景，希望能夠幫助大家更好地使用這些學(xué)術(shù)指標(biāo)來指導(dǎo)開源基座的選擇。

隨著最近一年開源基礎(chǔ)LLM的發(fā)展和精調(diào)技術(shù)的日趨成熟，社區(qū)已經(jīng)涌現(xiàn)了大量基于LLM的開源微調(diào)和精調(diào)模型。其中，以ChatGPT為代表的大語言模型（Large Language Model, LLM）憑借其近乎通用人工智能（AGI）的能力，為自然語言處理領(lǐng)域帶來了新的研究和應(yīng)用浪潮。

目前，基于社區(qū)微調(diào)的大模型進(jìn)一步精調(diào)和對(duì)齊，再用于應(yīng)用開發(fā)已經(jīng)成為構(gòu)建生成式和交互式AI應(yīng)用的高效手段。但面對(duì)眾多的模型，如何挑選適合自己進(jìn)一步進(jìn)行精調(diào)和對(duì)齊的模型成為了一個(gè)問題。

雖然學(xué)術(shù)界已經(jīng)提供了大量的大模型評(píng)估基準(zhǔn)和評(píng)估數(shù)據(jù)，但這些基于學(xué)術(shù)研究的評(píng)估基準(zhǔn)并不總是能夠完全滿足實(shí)際開發(fā)的需求。

在本系列的SOTA！模型社區(qū)專欄中，我們將深入探索目前流行的中文大模型評(píng)估基準(zhǔn)，包括它們的指標(biāo)設(shè)計(jì)、評(píng)估集構(gòu)成和適用場(chǎng)景，希望能夠幫助大家更好地使用這些學(xué)術(shù)指標(biāo)來指導(dǎo)開源基座的選擇。

這篇專欄將為大家探索以下問題

1、C-Eval主要評(píng)估什么能力? 覆蓋哪些知識(shí)科目？不同科目的難度一樣嗎？不同科目的難度如何？

2、C-Eval的測(cè)例庫是如何形成的？使用C-Eval的測(cè)例庫進(jìn)行評(píng)測(cè)時(shí)，提示詞要如何寫？提示詞的編撰方式是否會(huì)有影響？

3、C-Eval榜單排名靠前的開源模型基于C-Eval覆蓋科目、同樣的題目提示格式進(jìn)行場(chǎng)外問題實(shí)測(cè)，他們回答結(jié)果如何呢？

C-Eval 主要評(píng)估什么能力？

圖1. C-Eval 概覽圖。不同顏色的科目表示四個(gè)難度等級(jí)：初中、高中、大學(xué)和專業(yè)

自GLUE發(fā)布以來，大語言模型評(píng)測(cè)基準(zhǔn)已分化為三類。

1、針對(duì)自然語言理解能力的評(píng)測(cè)，如GLUE和SuperCLUE，主要考察模型對(duì)語言文字的基礎(chǔ)理解；

2、針對(duì)知識(shí)理解和記憶能力的評(píng)測(cè)，如C-Eval，旨在考察模型在高級(jí)知識(shí)任務(wù)上的推理能力；

3、針對(duì)綜合性能力評(píng)測(cè)，如HELM，重點(diǎn)在于評(píng)估模型在各種場(chǎng)景下的表現(xiàn)，包括其反應(yīng)速度、言語控制和辨別虛假信息的能力。

C-Eval 全稱 A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Model，是首個(gè)評(píng)估中文基礎(chǔ)模型高級(jí)知識(shí)和推理能力的廣泛基準(zhǔn)。

構(gòu)造評(píng)測(cè)基準(zhǔn)的第一個(gè)問題是確定“區(qū)分度”，即，什么是區(qū)分模型強(qiáng)弱的核心指標(biāo)。C-Eval考慮知識(shí)和推理這兩項(xiàng)核心。

C-Eval的構(gòu)建從知識(shí)型的任務(wù)出發(fā)，構(gòu)造數(shù)據(jù)集測(cè)試模型的知識(shí)能力，對(duì)標(biāo)MMLU(這個(gè)數(shù)據(jù)集被用于 GPT-3.5, GPT-4, PaLM, PaLM-2, Gopher, Chinchilla 的研發(fā))。

為了進(jìn)一步衡量模型的高階能力，滿足對(duì)推理任務(wù)的評(píng)估需求，研究團(tuán)隊(duì)把 C-Eval 中需要強(qiáng)推理的學(xué)科（微積分，線性代數(shù)，概率 …）專門抽出來，命名為 C-Eval Hard 子集，對(duì)標(biāo)MATH (這個(gè)數(shù)據(jù)集被用于 GPT-4, PaLM-2, Minerva, Galactica 的研發(fā))。

	評(píng)測(cè)指標(biāo)	覆蓋領(lǐng)域	題目形式	評(píng)估目標(biāo)
C-Eval	Acc	包括四個(gè)難度級(jí)別的多項(xiàng)選擇題：初中、高中、大學(xué)和專業(yè)。問題涉及涵蓋52個(gè)不同的學(xué)科領(lǐng)域，從人文學(xué)科到科學(xué)和工程學(xué)科不等	13948個(gè)多項(xiàng)選擇題	首個(gè)評(píng)估中文基礎(chǔ)模型高級(jí)知識(shí)和推理能力的廣泛基準(zhǔn)

論文地址：https://arxiv.org/pdf/2305.08322v1.pdf

github地址：https://github.com/SJTU-LIT/ceval

C-Eval榜單地址：https://cevalbenchmark.com/static/leaderboard.html

數(shù)據(jù)集地址：https://huggingface.co/datasets/ceval/ceval-exam

C-Eval的科目覆蓋及難度設(shè)計(jì)

C-Eval包括四個(gè)難度級(jí)別的多項(xiàng)選擇題：初中、高中、大學(xué)和專業(yè)。C-Eval還附帶有C-Eval HARD，這是C-Eval中非常具有挑戰(zhàn)性的一部分主題（子集），是從C-Eval中選擇的8個(gè)具有挑戰(zhàn)性的數(shù)學(xué)、物理和化學(xué)科目，需要高級(jí)推理能力才能解決，具體包括高等數(shù)學(xué)、離散數(shù)學(xué)、概率和統(tǒng)計(jì)、大學(xué)化學(xué)、大學(xué)物理、高中數(shù)學(xué)、高中化學(xué)和高中物理。這些科目通常涉及復(fù)雜的LATEX方程，需要推理能力來解決。

C-Eval 的問題涉及涵蓋52個(gè)不同的學(xué)科領(lǐng)域，由13948個(gè)多項(xiàng)選擇題組成，從人文學(xué)科到科學(xué)和工程學(xué)科不等。除了英語科目外，包含了初中、高中的標(biāo)準(zhǔn)科目。對(duì)于大學(xué)，從中國(guó)教育部列出的所有13個(gè)官方本科專業(yè)類別中選擇了25個(gè)有代表性的科目、每個(gè)類別中至少有一個(gè)科目被納入C-Eval，以確保全面性。在專業(yè)層面上，參考了中國(guó)官方的國(guó)家職業(yè)資格目錄5并選擇了12個(gè)有代表性的科目，如醫(yī)生、法律專業(yè)和公務(wù)員資格考試。還將這些科目按其主題分為四類：STEM（科學(xué)、技術(shù)、工程和數(shù)學(xué)）、社會(huì)科學(xué)、人文學(xué)科和其他領(lǐng)域。

C-Eval學(xué)科領(lǐng)域的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)如下：

C-Eval的測(cè)例庫是如何形成的？

C-Eval 主要測(cè)例來源是互聯(lián)網(wǎng)上免費(fèi)提供的模擬考試。一部分大學(xué)階段的試題是來自中國(guó)頂尖大學(xué)的過去的考試題，由學(xué)生公開分享。一小部分大學(xué)試題是全國(guó) 研究生入學(xué)考試的模擬試題，來源是維普網(wǎng)站。

C-Eval 研究組獲取到原始測(cè)例數(shù)據(jù)有多種格式，主要是PDF或Microsoft Word文檔，還有一小部分網(wǎng)頁。PDF文件最初是用OCR工具處理成文本。所有的問題隨后被解析--在可能的情況下自動(dòng)解析，否則由團(tuán)隊(duì)手動(dòng)解析--變成結(jié)構(gòu)化格式，即 "問題列表"。對(duì)于具有復(fù)雜數(shù)學(xué)符號(hào)的科目，如STEM類別中的許多科目，手動(dòng)將其轉(zhuǎn)換為標(biāo)準(zhǔn)的LATEX格式。

C-Eval中的所有問題都經(jīng)過處理，正好包括四個(gè)選擇。大部分的原始問題伴隨著四個(gè)選擇，還消除了少于四個(gè)選項(xiàng)的問題。并對(duì)有四個(gè)以上選項(xiàng)的問題隨機(jī)放棄不正確的選擇。所有的問題也都經(jīng)過了標(biāo)準(zhǔn)的數(shù)據(jù)預(yù)處理管道，如重復(fù)數(shù)據(jù)刪除和清理。

在此之后，這些問題經(jīng)過了作者的幾輪人工驗(yàn)證，所有的LATEX符號(hào)都被確保符合要求，沒有語法錯(cuò)誤。項(xiàng)目組為每個(gè)科目處理了至少200個(gè)問題，并在每個(gè)科目中隨機(jī)地將問題分成一個(gè)開發(fā)集、一個(gè)驗(yàn)證集和一個(gè)測(cè)試集。每個(gè)科目的開發(fā)組由五個(gè)示例組成，以方便進(jìn)行少量的評(píng)估。這些示范題還附有解釋，以便于進(jìn)行少量的評(píng)估。驗(yàn)證集和測(cè)試集的比例為1:9。

思維鏈（COT）推理可以促使語言學(xué)習(xí)者生成推理過程的文本序列以及最終答案，在推理繁重的任務(wù)中取得了巨大成功。與zero-shot 相比（單輪），few-shot更常用（多輪），并能在各種任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能。為了改進(jìn) C-Eval 在few-shot中的應(yīng)用效果，將自動(dòng)生成和人工注釋結(jié)合起來，為開發(fā)拆分提供高質(zhì)量的解釋數(shù)據(jù)。

使用 C-Eval 做評(píng)測(cè)，Prompt 不同會(huì)有什么影響？

C-Eval官方文檔推薦了四種prompting范式。首先是few-shot answer-only，這是最基礎(chǔ)的方式。其次是few-shot chain-of-thought，這種方式在模型超過65B之后才會(huì)顯著有效。接著是zero-shot answer-only，通常在進(jìn)行instruction tuning之后采用。最后是zero-shot chain-of-thought，只有在instruction tuning之后且模型足夠強(qiáng)大時(shí)，才推薦使用這種模式。

C-Eval的官方文檔對(duì)于如何編寫測(cè)試提示也給出了非常詳細(xì)的示例。如果模型還沒有被調(diào)成一個(gè) chatbot，那么提示格式如下。其中，對(duì)話格式的 prompt 相當(dāng)于已讓 AI 假裝已經(jīng)正確回答了五個(gè)問題（但實(shí)際上是被我們 hard code 到 prompt 里的），然后 AI 實(shí)際上只回答最后一輪的問題。相應(yīng)的，對(duì)話格式的 zero-shot 和 chain-of-thought 版本的 prompt 需要分別去掉 in-context 樣本和加上{讓我們一步一步思考 [explanation]} 的內(nèi)容。

具體來說，如果是 zero-shot （單輪）的話，則去掉 [題目 1] 到 [題目 5] 的 in-context 樣本；如果模型的 context length 裝不下所有的 in-context examples，則去掉一兩個(gè)；如果是 chain-of-thought 的話，則需要加上 {讓我們一步一步思考 [explanation]} 的內(nèi)容。

以下是中國(guó)關(guān)于{subject}考試的單項(xiàng)選擇題，請(qǐng)選出其中的正確答案。<- 注意把 {subject} 改成具體的科目名稱


[題目 1]
A. [選項(xiàng) A 具體內(nèi)容]
B. [選項(xiàng) B 具體內(nèi)容]
C. [選項(xiàng) C 具體內(nèi)容]
D. [選項(xiàng) D 具體內(nèi)容]
答案：A              


...                 <- 題目 2 到 4


[題目 5]
A. [選項(xiàng) A 具體內(nèi)容]
B. [選項(xiàng) B 具體內(nèi)容]
C. [選項(xiàng) C 具體內(nèi)容]
D. [選項(xiàng) D 具體內(nèi)容]
答案：C


[測(cè)試題目]
A. [選項(xiàng) A 具體內(nèi)容]
B. [選項(xiàng) B 具體內(nèi)容]
C. [選項(xiàng) C 具體內(nèi)容]
D. [選項(xiàng) D 具體內(nèi)容]
答案：<模型從此處生成>

此外，C-Eval團(tuán)隊(duì)對(duì)于提示方式的影響也分享了自己的發(fā)現(xiàn)。

對(duì)于沒有經(jīng)過instruction tuning的預(yù)訓(xùn)練模型，prompt的選擇會(huì)導(dǎo)致效果的顯著差異。雖然有default prompt，但它不一定是最佳選擇。在實(shí)際操作中，我們需要明確分?jǐn)?shù)的提高是由于模型的進(jìn)步還是prompt的改進(jìn)。如果主要目標(biāo)是模型的開發(fā)，那么建議不要過多地優(yōu)化prompt。

而對(duì)于經(jīng)過指令精調(diào)的預(yù)訓(xùn)練模型，prompt的差異對(duì)模型效果的影響會(huì)減少，但仍然不能被忽視。盡管instruction tuning后，模型對(duì)prompt engineering的需求會(huì)降低，但這種需求仍然存在。

LLM選手們是如何回答 C-Eval的題目的？

C-Eval中的結(jié)構(gòu)化的大學(xué)經(jīng)濟(jì)學(xué)實(shí)例題目示例如下，為提高可讀性，英文譯文顯示在相應(yīng)的中文文本下方。我們可以看出，單純從題目只能看出來“洛倫茲曲線”這樣的關(guān)鍵信息，但結(jié)合給出的答案能夠判斷出考察的是“洛倫茲曲線”與“基尼系數(shù)”、收入平等性之間的關(guān)系，這需要有一定的經(jīng)濟(jì)學(xué)背景，才能理解并識(shí)別出問題并給出正確答案。在掌握相關(guān)背景知識(shí)的前提下，本道題的回答難度并不大，不需要復(fù)雜的推理能力。

下面我們給出一個(gè)C-Eval中few-shot設(shè)置中的潛在使用。首先提示 GPT-4 生成解釋ground-truth答案的步驟解釋，然后手動(dòng)修改生成的解釋，以獲得最終解釋。下面是一個(gè)高中化學(xué)題目的示例及解釋。為提高可讀性，在相應(yīng)的中文文本下方顯示英文翻譯。

最后是一個(gè)C-Eval HARD的高等數(shù)學(xué)的示例。我們可以看出，答對(duì)這道題要具備很強(qiáng)的數(shù)學(xué)計(jì)算和推理能力，而非普通的數(shù)學(xué)題。不過，C-Eval中全部為客觀題，所以我們并不能看到所有推理題目的解題過程。

C-Eval 頭部選手場(chǎng)外實(shí)測(cè)

我們選擇了截止2023年9月底 C-Eval 的最新榜單中部分排名前20位的選手中選擇了4個(gè)模型進(jìn)行實(shí)測(cè)，來看看這些在C-Eval中榜單排名靠前的模型在考場(chǎng)之外的場(chǎng)景中表現(xiàn)又如何呢？

我們收集和整理了一些初高中的學(xué)科類題目，這些題目都是我們?cè)谌粘Ｉ钪惺占?，而不出自于任何公開的成熟評(píng)測(cè)基準(zhǔn)，所以更加能反應(yīng)模型在真實(shí)場(chǎng)景中的工作能力。

我們整理了五道高中化學(xué)、初中數(shù)學(xué)、公務(wù)員考試和大學(xué)經(jīng)濟(jì)學(xué)的題目，同時(shí)按照C-Eval的題目格式將其都組織成客觀題的形式，同時(shí)用4個(gè)選出的模型進(jìn)行實(shí)測(cè)。

我們通過查閱資料，能夠確定上述四道題目的正確答案為D、C、A、D，那么在C-Eval榜單排名靠前的模型答題表現(xiàn)如何呢？

題目	測(cè)試提示	正確答案	答對(duì)模型
題目1 高中化學(xué)	某元素R最外層有5個(gè)電子，它的含氧酸鉀鹽的化學(xué)式不可能是__ A. KRO3 B. K3RO4 C. KRO2 D. K2RO4	D	無
題目2 初中數(shù)學(xué)	下列事件中，屬于必然事件的是__ A. 任意數(shù)的絕對(duì)值都是正數(shù) B. 兩直線被第三條直線所截，同位角相等 C. 如果a、b都是實(shí)數(shù)，那么a+b=b+a D. 拋擲1個(gè)均勻的骰子，出現(xiàn)6點(diǎn)朝上	C	ChatGLM2-6B
題目3 公務(wù)員考試	不少人喜歡拍攝照片后上傳到各種社交平臺(tái)，但專家警告這些照片有可能泄露隱私，給用戶帶來潛在的安全風(fēng)險(xiǎn)，因?yàn)槊恳粡垟?shù)碼照片中都包含一組在拍攝時(shí)自動(dòng)生成的可交換圖像文件格式的信息（簡(jiǎn)稱Exif），建議用戶上傳圖片時(shí)盡量避免“原圖”上傳。以下陳述如果為真，哪項(xiàng)是上述觀點(diǎn)的前提___ A. Exif信息包括拍攝時(shí)的準(zhǔn)確位置和時(shí)間，以及拍攝設(shè)備的唯一ID B.主流社交平臺(tái)會(huì)默認(rèn)對(duì)上傳照片進(jìn)行裁剪或壓縮處理，原始的Exif信息會(huì)被修改 C.數(shù)碼照片在進(jìn)行后期的數(shù)字化編輯時(shí)，Exif記錄的專業(yè)數(shù)據(jù)可輔助攝影愛好者做專業(yè)調(diào)試 D. Exif是一種標(biāo)準(zhǔn)信息，他可以幫助用戶在查找、管理、使用照片的過程中進(jìn)行分類處理	A	無
題目4 大學(xué)經(jīng)濟(jì)學(xué)	長(zhǎng)期總供給曲線垂直是因?yàn)開__ A. 總供給中單個(gè)產(chǎn)品的供給彈性都為零 B. 總供給中單個(gè)產(chǎn)品的供給曲線都垂直 C. 宏觀生產(chǎn)函數(shù)是穩(wěn)定的 D. 經(jīng)濟(jì)中實(shí)現(xiàn)了充分就業(yè)	D	無

令人遺憾的是，在總共 4 x 4 =16道實(shí)測(cè)題目中，只有ChatGLM2-6B答對(duì)了一道初中數(shù)學(xué)題，其它15道題全部答錯(cuò)。其中有部分答題格式正確，即，給出了A/B/C/D的選項(xiàng)，而更多的題目連答題格式都不正確。這一結(jié)果顯然跟他們?cè)诎駟沃幸鄣某煽?jī)并不相符，也從一定程度上佐證了上面知友的意見。

C-Eval核心團(tuán)隊(duì)成員曾提出的“最重要目標(biāo)是輔助模型開發(fā)，而不是打榜”，如何有效利用C-Eval改進(jìn)自己的模型，而不是不斷地傾斜數(shù)據(jù)刷到更高的榜單排名，值得更多小伙伴深思。

以下是實(shí)測(cè)輸出，供老伙計(jì)們參考。

第一題高中化學(xué)

某元素R最外層有5個(gè)電子，它的含氧酸鉀鹽的化學(xué)式不可能是__ A. KRO3 B. K3RO4 C. KRO2 D. K2RO4

ChatGLM2-6B

InternLM-7B

MOSS Moon 003 SFT INT4

Baichuan7B

第二題初中數(shù)學(xué)

下列事件中，屬于必然事件的是__ A. 任意數(shù)的絕對(duì)值都是正數(shù) B. 兩直線被第三條直線所截，同位角相等 C. 如果a、b都是實(shí)數(shù)，那么a+b=b+a D. 拋擲1個(gè)均勻的骰子，出現(xiàn)6點(diǎn)朝上

ChatGLM2-6B

InternLM-7B

MOSS Moon 003 SFT INT4

Baichuan7B

第三題公務(wù)員考試

不少人喜歡拍攝照片后上傳到各種社交平臺(tái)，但專家警告這些照片有可能泄露隱私，給用戶帶來潛在的安全風(fēng)險(xiǎn)，因?yàn)槊恳粡垟?shù)碼照片中都包含一組在拍攝時(shí)自動(dòng)生成的可交換圖像文件格式的信息（簡(jiǎn)稱Exif），建議用戶上傳圖片時(shí)盡量避免“原圖”上傳。以下陳述如果為真，哪項(xiàng)是上述觀點(diǎn)的前提___ A. Exif信息包括拍攝時(shí)的準(zhǔn)確位置和時(shí)間，以及拍攝設(shè)備的唯一ID B.主流社交平臺(tái)會(huì)默認(rèn)對(duì)上傳照片進(jìn)行裁剪或壓縮處理，原始的Exif信息會(huì)被修改 C.數(shù)碼照片在進(jìn)行后期的數(shù)字化編輯時(shí)，Exif記錄的專業(yè)數(shù)據(jù)可輔助攝影愛好者做專業(yè)調(diào)試 D. Exif是一種標(biāo)準(zhǔn)信息，他可以幫助用戶在查找、管理、使用照片的過程中進(jìn)行分類處理

ChatGLM2-6B

InternLM-7B

MOSS Moon 003 SFT INT4

Baichuan7B

第四題大學(xué)經(jīng)濟(jì)學(xué)

長(zhǎng)期總供給曲線垂直是因?yàn)開__ A. 總供給中單個(gè)產(chǎn)品的供給彈性都為零 B. 總供給中單個(gè)產(chǎn)品的供給曲線都垂直 C. 宏觀生產(chǎn)函數(shù)是穩(wěn)定的 D. 經(jīng)濟(jì)中實(shí)現(xiàn)了充分就業(yè)

ChatGLM2-6B

InternLM-7B

MOSS Moon 003 SFT INT4

Baichuan7B

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="auh6i"></sub>