自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

百度文心一言在國(guó)產(chǎn)模型中倒數(shù)?我看懵了

人工智能
對(duì)于簡(jiǎn)單問題而言,其實(shí)國(guó)產(chǎn)模型跟ChatGPT已經(jīng)沒有太大差距。而對(duì)于困難問題而言,各個(gè)模型各有所長(zhǎng)。就筆者團(tuán)隊(duì)的綜合使用體驗(yàn)來看,文心一言完全足以吊打ChatGLM-6B等學(xué)術(shù)測(cè)試性質(zhì)的開源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

 夕小瑤科技說 原創(chuàng)
 作者 | 賣萌醬最近幾天,我們公眾號(hào)的社群在紛紛轉(zhuǎn)發(fā)一張名為SuperClue 評(píng)測(cè)的截圖。科大訊飛甚至在官號(hào)進(jìn)行了宣傳:

圖片

由于訊飛星火大模型剛發(fā)布,筆者玩的少,它是不是真的是國(guó)產(chǎn)最強(qiáng)這個(gè)筆者不敢下結(jié)論。

但在該評(píng)測(cè)截圖中,當(dāng)下國(guó)產(chǎn)模型中熱度最高的百度文心一言竟然連一個(gè)小型的學(xué)術(shù)開源模型ChatGLM-6B都打不過。這不僅與筆者自己的使用體驗(yàn)嚴(yán)重不符,而且在我們的專業(yè)NLP技術(shù)社群中,大家也紛紛表示一臉懵逼:

圖片

圖片

好奇之下,筆者去這個(gè)superclue榜單的github,想看看這個(gè)測(cè)評(píng)結(jié)論是怎么得出來的:https://github.com/CLUEbenchmark/SuperCLUE

首先筆者注意到這個(gè)repo下面已經(jīng)有一些issue了:

圖片

圖片

看起來這個(gè)離譜的感覺不僅僅是筆者有,果然群眾的眼睛還是雪亮的。。。

筆者進(jìn)一步看了一下這個(gè)榜單的評(píng)測(cè)方式:

圖片

好家伙,原來所謂的生成式大模型的測(cè)試,竟然全都是讓模型做選擇題。。。

很明顯這種做選擇題的評(píng)測(cè)方式是針對(duì)BERT時(shí)代的判別式AI模型的,那時(shí)候的AI模型普遍不具備生成能力,僅僅有判別能力(比如能判別一段文本屬于什么類別,選項(xiàng)中哪個(gè)是問題的正確答案,判斷兩段文本的語(yǔ)義是否一致等)。

而生成式模型的評(píng)測(cè)與判別式模型的評(píng)測(cè)有相當(dāng)于大的差異。

例如,對(duì)于機(jī)器翻譯這種特殊的生成任務(wù)而言,一般采用BLEU等評(píng)價(jià)指標(biāo)來檢測(cè)模型生成的回復(fù)與參考回復(fù)之間的“詞匯、短語(yǔ)覆蓋度”。但機(jī)器翻譯這種有參考回復(fù)的生成類任務(wù)是極少數(shù),絕大多數(shù)的生成類評(píng)測(cè)都要采用人工評(píng)測(cè)的方式。

例如閑聊式對(duì)話生成、文本風(fēng)格遷移、篇章生成、標(biāo)題生成、文本摘要等生成任務(wù),都需要各個(gè)待評(píng)測(cè)模型去自由生成回復(fù),然后人工去對(duì)比這些不同模型生成的回復(fù)的質(zhì)量,或人工判斷是否滿足了任務(wù)需求。

當(dāng)前這一輪的AI競(jìng)爭(zhēng),是模型生成能力的競(jìng)爭(zhēng),而不是模型判別能力的競(jìng)爭(zhēng)。最有評(píng)價(jià)權(quán)的是真實(shí)的用戶口碑,不再是一個(gè)個(gè)冰冷的學(xué)術(shù)榜單。更何況是一個(gè)壓根沒測(cè)模型生成能力的榜單。

回想起來前些年——

2019年,OpenAI發(fā)布了GPT-2的時(shí)候,我們?cè)诙裻ricks刷榜;

2020年,OpenAI發(fā)布了GPT-3的時(shí)候,我們?cè)诙裻ricks刷榜;

2021-2022年,F(xiàn)LAN、T0、InstructGPT等instruction tuning和RLHF工作爆發(fā)的時(shí)候,我們還有不少團(tuán)隊(duì)在堅(jiān)持堆tricks刷榜…

希望這一波生成式模型的軍備競(jìng)賽,我們不要再重蹈覆轍。

那么生成式AI模型到底應(yīng)該怎么測(cè)?

很抱歉,我前面說過,如果想做到無偏測(cè)試,非常非常的難,甚至比你自研一個(gè)生成式模型出來難得多。難度有哪些?具體拋幾個(gè)問題:

  • 評(píng)測(cè)維度該如何劃分?按理解、記憶、推理、表達(dá)?按專業(yè)領(lǐng)域?還是將傳統(tǒng)的NLP生成式評(píng)測(cè)任務(wù)雜揉起來?
  • 評(píng)測(cè)人員如何培訓(xùn)?對(duì)于寫代碼、debug、數(shù)學(xué)推導(dǎo)、金融法律醫(yī)療問答這種專業(yè)門檻極高的測(cè)試題,該如何招募人員測(cè)試?
  • 主觀性極高的測(cè)試題(如生成小紅書風(fēng)格的文案),該如何定義評(píng)測(cè)標(biāo)準(zhǔn)?
  • 問幾個(gè)泛泛的寫作類問題就能代表一個(gè)模型的文本生成/寫作能力了嗎?
  • 考察模型的文本生成子能力,篇章生成、問答生成、翻譯、摘要、風(fēng)格遷移都覆蓋到了嗎?各個(gè)任務(wù)的占比均勻嗎?評(píng)判標(biāo)準(zhǔn)都清晰嗎?統(tǒng)計(jì)顯著嗎?
  • 在上面的問答生成子任務(wù)里,科學(xué)、醫(yī)療、汽車、母嬰、金融、工程、政治、軍事、娛樂等各個(gè)垂類都覆蓋到了嗎?占比均勻嗎?
  • 如何測(cè)評(píng)對(duì)話能力?對(duì)話的一致性、多樣性、話題深度、人格化分別怎么設(shè)計(jì)的考察任務(wù)?
  • 對(duì)于同一項(xiàng)能力測(cè)試,簡(jiǎn)單問題、中等難度問題和復(fù)雜長(zhǎng)冷問題都覆蓋到了嗎?如何界定?分別占比多少?

這只是隨手拋的幾個(gè)要解決的基礎(chǔ)問題,在實(shí)際基準(zhǔn)設(shè)計(jì)的過程中,要面臨大量比以上問題棘手得多的問題。

因此,作為AI從業(yè)者,筆者呼吁大家理性看待各類AI模型排名。連一個(gè)無偏的測(cè)試基準(zhǔn)都沒有出現(xiàn),要這排名有何用?

還是那句話,一個(gè)生成式模型好不好,真實(shí)用戶說了算。

一個(gè)模型在一個(gè)榜單的排名再高,它解決不好你在意的問題,它對(duì)你來說就是個(gè)一般般的模型。換言之,一個(gè)排名倒數(shù)的模型,如果在你關(guān)注的場(chǎng)景下發(fā)現(xiàn)非常強(qiáng),那它對(duì)你來說就是個(gè)寶藏模型。

在此,筆者公開了我們團(tuán)隊(duì)內(nèi)部富集和撰寫的一個(gè)hard case(困難樣例)測(cè)試集。這份測(cè)試集重點(diǎn)關(guān)注模型對(duì)困難問題/指令的解決能力。

這個(gè)困難測(cè)試集重點(diǎn)考察了模型的語(yǔ)言理解、復(fù)雜指令理解與遵循、文本生成、復(fù)雜內(nèi)容生成、多輪對(duì)話、矛盾檢測(cè)、常識(shí)推理、數(shù)學(xué)推理、反事實(shí)推理、危害信息識(shí)別、法律倫理意識(shí)、中國(guó)文學(xué)知識(shí)、跨語(yǔ)言能力和代碼能力等。

再次強(qiáng)調(diào)一遍,這是筆者團(tuán)隊(duì)為測(cè)試生成式模型對(duì)困難樣例解決能力而做的一個(gè)case集,評(píng)測(cè)結(jié)果只能代表“對(duì)筆者團(tuán)隊(duì)而言,哪個(gè)模型感覺更好”,遠(yuǎn)遠(yuǎn)不能代表一個(gè)無偏的測(cè)試結(jié)論,如果想要無偏的測(cè)試結(jié)論,請(qǐng)先解答以上提到的測(cè)評(píng)問題,再去定義權(quán)威測(cè)試基準(zhǔn)。

想要自己評(píng)測(cè)驗(yàn)證的小伙伴,可以在本公眾號(hào)“夕小瑤科技說”后臺(tái)回復(fù)【AI評(píng)測(cè)】口令來下載測(cè)試文件

以下是在superclue榜單中受爭(zhēng)議最大的訊飛星火、文心一言與ChatGPT這三個(gè)模型的測(cè)評(píng)結(jié)果:

圖片

圖片

圖片

困難Case解決率:

  • ChatGPT(GPT-3.5-turbo):11/24=45.83%
  • 文心一言(2023.5.10版本):13/24=54.16%
  • 訊飛星火(2023.5.10版本):7/24=29.16%

這是要論證訊飛星火不如文心一言嗎?如果你仔細(xì)看前文了,就明白筆者想說什么。

確實(shí),盡管在這份我們內(nèi)部的困難case集上,星火模型不如文心一言,但這不能說明綜合起來誰(shuí)一定比誰(shuí)強(qiáng),僅僅說明,在我們團(tuán)隊(duì)內(nèi)部的困難case測(cè)試集上,文心一言表現(xiàn)最強(qiáng),甚至比ChatGPT多解決了2個(gè)困難case。

對(duì)于簡(jiǎn)單問題而言,其實(shí)國(guó)產(chǎn)模型跟ChatGPT已經(jīng)沒有太大差距。而對(duì)于困難問題而言,各個(gè)模型各有所長(zhǎng)。就筆者團(tuán)隊(duì)的綜合使用體驗(yàn)來看,文心一言完全足以吊打ChatGLM-6B等學(xué)術(shù)測(cè)試性質(zhì)的開源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

阿里通義千問、訊飛星火等其他大廠出品的國(guó)產(chǎn)模型也是相同的道理。

還是那句話,如今連一個(gè)無偏的測(cè)試基準(zhǔn)都沒出現(xiàn),你要那模型排名有啥用?

比起爭(zhēng)論各類有偏的榜單排名,不如像筆者團(tuán)隊(duì)一樣去做一個(gè)自己關(guān)心的測(cè)試集。

能解決你問題的模型,就是好模型。

責(zé)任編輯:武曉燕 來源: 夕小瑤科技說
相關(guān)推薦

2023-03-24 12:55:13

文心一言百度模型

2023-08-14 17:38:58

百度文心一言大模型評(píng)測(cè)

2023-02-08 07:14:51

文心一言ChatGPT機(jī)器人

2023-12-28 15:09:58

文心一言百度飛槳

2025-02-17 09:10:00

文心大模型開源人工智能

2023-02-22 20:20:23

AI文心一言百度

2023-12-18 14:57:00

訓(xùn)練模型

2023-03-22 10:02:41

2023-05-09 23:04:10

必應(yīng)文心一言AI

2023-07-13 15:10:06

2023-02-17 08:50:57

AI

2023-02-17 10:34:17

Moka

2023-03-16 14:38:20

文心一言ChatGPTAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)