達(dá)摩院發(fā)布大模型測(cè)試基準(zhǔn):GPT-4勉強(qiáng)及格,其他模型悉數(shù)落敗
隨著大模型的發(fā)展,尤其是近來各種開源大模型的發(fā)布,如何對(duì)各種模型進(jìn)行充分并且準(zhǔn)確的評(píng)估變得越來越重要。其中一個(gè)越來越受到認(rèn)可的方向就是利用人類考題來檢驗(yàn)?zāi)P?,從而可以測(cè)試模型的知識(shí)及推理能力。例如對(duì)于英文模型,MMLU 已經(jīng)被廣泛用來評(píng)估模型在多個(gè)學(xué)科上的表現(xiàn)。類似的,最近中文社區(qū)也涌現(xiàn)了例如 C-Eval 以及 GAOKAO 這種利用中文試題來測(cè)試模型,特別是中文模型的表現(xiàn)。
這樣的測(cè)試基準(zhǔn)對(duì)于促進(jìn)模型的發(fā)展起著至關(guān)重要的作用,然而對(duì)于多語言 / 多模態(tài)大模型,相應(yīng)的評(píng)測(cè)依然是一片空白。由此,阿里巴巴達(dá)摩院多語言 NLP 團(tuán)隊(duì)發(fā)布了首個(gè)多語言多模態(tài)測(cè)試基準(zhǔn) M3Exam 以推動(dòng)此類評(píng)測(cè)的發(fā)展,論文和數(shù)據(jù)代碼已公開:
圖片
- 論文:https://arxiv.org/pdf/2306.05179.pdf
- 數(shù)據(jù) & 代碼:https://github.com/DAMO-NLP-SG/M3Exam
背景
傳統(tǒng)的 NLP 任務(wù)已經(jīng)越來越難充分測(cè)試大語言模型的真正效果,在這樣的背景下,利用人類考題來檢驗(yàn)?zāi)P鸵呀?jīng)逐漸成為了測(cè)試大模型的一個(gè)常見做法。例如 MMLU 數(shù)據(jù)集涵蓋了多個(gè)學(xué)科,被廣泛用來測(cè)試各種模型,GPT-4 也將其作為一個(gè)重要的測(cè)試基準(zhǔn)。類似地,最近一個(gè)月我們也看到了中文上的類似嘗試?yán)?C-Eval 和 GAOKAO,將各類 / 高考的中文試題匯總起來用以測(cè)試中文大模型。
然而目前的測(cè)試基準(zhǔn)都僅有英文或者加上中文問題,盡管許多模型涌現(xiàn) / 宣稱有多語言的效果,模型的多語言能力無法得到充分測(cè)試。此外,多模態(tài)類問題,也即涉及圖片的考題也往往在構(gòu)建過程中被忽略。這導(dǎo)致了多語言 / 多模態(tài)大模型的效果無法被準(zhǔn)確衡量。為了彌補(bǔ)這一空白,我們構(gòu)建了 M3Exam - 一個(gè)利用人類考題構(gòu)建的多語言、多模態(tài)、多級(jí)別的測(cè)試基準(zhǔn),共涵蓋 12317 道題目。
圖片
正如名字所示,M3Exam 有三個(gè)特征:
- Multilingual 多語言:我們綜合考慮語言特點(diǎn)、資源高低、文化背景等多個(gè)因素,挑選了 9 個(gè)國(guó)家對(duì)應(yīng)的語言,涵蓋英文、中文、意大利語、葡萄牙語、越南語、南非荷蘭語、斯瓦希里語、泰語、爪哇語,所有問題均來自于對(duì)應(yīng)國(guó)家的官方試題。
- Multimodal 多模態(tài):我們同時(shí)考慮純文字以及帶圖片的題目,并且認(rèn)真處理了所有圖片從而方便模型進(jìn)行處理。
- Multilevel 多階段:我們考慮三個(gè)重要的教育階段:小升初、初升高、高中畢業(yè),并且從對(duì)應(yīng)階段的官方考試取得題目,使得可以比較不同階段對(duì)應(yīng)的不同智力要求下,模型的表現(xiàn)差異。
多語言測(cè)試
我們選取了多種開源、閉源模型來測(cè)試它們的多語言能力,結(jié)果如圖所示:
圖片
可以看到雖然許多模型的英文效果不錯(cuò)(比如 Claude 和 ChatGPT 都可以達(dá)到 75% 左右),但平均而言效果均不佳。GPT-4 是唯一一個(gè)可以超過 60% 準(zhǔn)確率的模型,而 ChatGPT 也只能達(dá)到 57% 的準(zhǔn)確率。從語言的角度看,在低資源或者非拉丁字符語言比如泰語、爪哇語上,即使是 GPT-4 也只能達(dá)到 50+% 的準(zhǔn)確率。這顯示目前大部分模型的能力仍然是集中體現(xiàn)在英文上,多語言能力仍然有待提高。
我們同樣可以看到,來自于各個(gè)國(guó)家本土的問題更加充分地測(cè)試出了模型的多語言能力。例如 GPT-4 的 report 里將 MMLU 翻譯成了多個(gè)語言,在不同語言的翻譯試題上取得了較好的結(jié)果。但是如果用真實(shí)場(chǎng)景下的問題,這迫使模型必須學(xué)習(xí)到每個(gè)語言,甚至是其背后對(duì)應(yīng)的文化背景知識(shí),才能解答。例如上圖中給的例子,斯瓦希里語涉及到一個(gè)諺語的填空;泰語則涉及到泰國(guó)本地常見的自然景觀特點(diǎn):
圖片
可以看到,即使是根據(jù)準(zhǔn)確的翻譯(上圖的英文翻譯由泰語母語者提供),但沒有對(duì)應(yīng)的語言、文化常識(shí)也無法作答,體現(xiàn)出對(duì)模型多語言能力的充分測(cè)試。
多模態(tài)測(cè)試
我們也選取了多個(gè)多模態(tài)大模型并對(duì)其進(jìn)行測(cè)試,包括 Fromage, OpenFlamingo, BLIP-2, InstructBLIP,結(jié)果如下圖所示:
圖片
可以看到,大部分模型表現(xiàn)都很糟糕,甚至沒有模型可以超過 50% 的準(zhǔn)確率。即使跟相近參數(shù)量的 Flan-T5 模型相比(Flan-T5 并沒有拿圖片當(dāng)作輸入),多模態(tài)模型基本沒有體現(xiàn)出優(yōu)勢(shì)。
進(jìn)一步檢查我們發(fā)現(xiàn),可能是因?yàn)楝F(xiàn)有的多模態(tài)測(cè)試數(shù)據(jù)都比較簡(jiǎn)單,例如 VQA 中往往只是對(duì)圖片的某一方面進(jìn)行簡(jiǎn)單提問。而人類考題往往涉及到對(duì)圖片更復(fù)雜的理解,例如數(shù)理類考試中需要注意到圖片的數(shù)字細(xì)節(jié)。下圖給了一個(gè)具體問題以及各個(gè)模型的輸出:
圖片
可以看到所有模型均回答錯(cuò)誤。為了進(jìn)一步檢驗(yàn)?zāi)P蛯?duì)圖片理解的程度,我們額外構(gòu)造了一個(gè) prompt 讓模型對(duì)圖片的各種細(xì)節(jié)進(jìn)行描述(上圖右邊),可以看到所有模型都無法準(zhǔn)確描述出圖片里標(biāo)注的角度 65 度,所以自然無法解答出圖中的反射角是多少度。
多層級(jí)測(cè)試
在數(shù)據(jù)構(gòu)造過程中,我們選取了三個(gè)重要的考試階段,即小升初、初升高、高中升大學(xué)。值得注意的是我們發(fā)現(xiàn)即使各個(gè)國(guó)家的教育體系各有差異,但基本都有相應(yīng)的教育階段。不同的教育階段往往對(duì)應(yīng)著在不同國(guó)家,大家對(duì)相應(yīng)年齡段人群所期待的智力水平。這樣的劃分給我們提供了用不同教育階段的問題來觀察模型效果的角度。結(jié)果匯總?cè)缦聢D所示:
圖片
可以看到出人意料的是,從較低的教育階段到更高階段,模型效果并沒有呈現(xiàn)顯著下降。奇怪的是基本所有模型都在中等階段的問題上表現(xiàn)最好。然而對(duì)于人類來說,例如在中國(guó),如果能在高考中得到 70% 左右的正確率,解決小學(xué)考題應(yīng)該是輕而易舉的事情,然而對(duì)模型來說似乎并不如此。
這個(gè)觀察給我們帶來的啟發(fā)是,不斷用更困難的數(shù)據(jù)去測(cè)試模型不一定能最大限度衡量出模型的差異。如果想要可靠地在實(shí)際生活中使用模型,例如用于 AI 教育,研究為什么模型會(huì)在基礎(chǔ)問題上犯錯(cuò)可能更有價(jià)值。
結(jié)語
這篇文章介紹了我們新創(chuàng)建的測(cè)試基準(zhǔn) M3Exam,目標(biāo)是可以為多語言 / 多模態(tài)大模型的評(píng)價(jià)提供一個(gè)可靠的基準(zhǔn)。從目前的測(cè)試結(jié)果我們可以看出,雖然不少模型在高資源語言例如英文甚至中文上已經(jīng)可以取得還不錯(cuò)的效果,但在多語言情況下絕大部分模型的效果都差強(qiáng)人意。多模態(tài)模型的效果則更難令人滿意,顯示目前的多模態(tài)模型還只能對(duì)圖片的簡(jiǎn)單特征進(jìn)行捕捉,而無法捕捉更精確的細(xì)節(jié)。我們期待 M3Exam 未來可以幫助相關(guān)模型的開發(fā)迭代,從而將大模型的便利帶給所有語言的使用者以及更豐富的使用場(chǎng)景。