自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI科舉制扼殺創(chuàng)新!你眼中的好模型只是「刷榜機(jī)器」

人工智能
基準(zhǔn)測(cè)試堪稱人工智能領(lǐng)域的「科舉制」,但這種應(yīng)試教育唯分?jǐn)?shù)論輸贏,能訓(xùn)練出真正的好模型嗎?

架構(gòu)2010年,基于ImageNet的計(jì)算機(jī)視覺競(jìng)賽推出,激發(fā)了深度學(xué)習(xí)的一場(chǎng)算法與數(shù)據(jù)的革命,從此基準(zhǔn)測(cè)試成為衡量AI模型性能的一個(gè)重要手段。

在NLP領(lǐng)域, 也有GLUE(通用語(yǔ)言理解評(píng)估)基準(zhǔn),AI模型需要在包含上千個(gè)句子的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在九個(gè)任務(wù)上進(jìn)行測(cè)試,例如判斷一個(gè)句子是否符合語(yǔ)法,分析情感,或者兩個(gè)句子之間是否是邏輯蘊(yùn)涵等。

GLUE剛發(fā)布時(shí),性能最佳的模型得分還不到70分,基準(zhǔn)創(chuàng)建人,紐約大學(xué)的計(jì)算機(jī)科學(xué)家Sam Bownman當(dāng)時(shí)認(rèn)為這個(gè)數(shù)據(jù)集很成功,至少難倒了AI模型。

而僅僅經(jīng)過一年的發(fā)展,AI模型的性能輕松達(dá)到90分,超越了人類的87.1分。

2019年,研究人員再次提高了基準(zhǔn)測(cè)試的難度,發(fā)布SuperGLUE,一些任務(wù)要求AI模型不僅能夠處理句子,還要處理來自維基百科或新聞網(wǎng)站的段落后回答閱讀理解問題。

同樣,人類在基準(zhǔn)剛發(fā)布時(shí)領(lǐng)先20分,到2021年初,計(jì)算機(jī)再次擊敗了人類的89.8分。

難道AI模型的智力水平已經(jīng)超越了人類?

在「刷榜」上,AI語(yǔ)言模型在經(jīng)過海量書籍、新聞文章和維基百科中數(shù)十億單詞的訓(xùn)練后,一次次讓從業(yè)者興奮,可以生成令人驚艷的人類散文、推文、總結(jié)電子郵件,甚至在幾十種語(yǔ)言之間進(jìn)行相互翻譯。

但在現(xiàn)實(shí)應(yīng)用中部署或特定例子的測(cè)試時(shí),又會(huì)讓人感嘆:AI怎么會(huì)犯如此愚蠢的錯(cuò)誤?該怎么教會(huì)它改正?

2020年,微軟的計(jì)算機(jī)科學(xué)家Marco Túlio Ribeiro發(fā)布了一篇報(bào)告,指出了包括微軟、谷歌和亞馬遜在內(nèi)的各種sota模型內(nèi)的諸多隱含錯(cuò)誤,比如把句子里的「what's」改成「what is」,模型的輸出就會(huì)截然不同,而在此前,從沒有人意識(shí)到這些商業(yè)模型竟會(huì)如此糟糕。

這樣訓(xùn)出來的AI模型就像一個(gè)只會(huì)應(yīng)試教育、成績(jī)優(yōu)異的學(xué)生,可以成功通過科學(xué)家設(shè)置的各種基準(zhǔn)測(cè)試,卻不懂為什么,俗稱「高分低能」。

不過大多數(shù)研究人員認(rèn)為,解決方案并不是放棄基準(zhǔn)測(cè)試,而是改善。不過改善方法上,又有了分歧。

一些人認(rèn)為基準(zhǔn)測(cè)試應(yīng)該更加嚴(yán)格,有人認(rèn)為基準(zhǔn)測(cè)試應(yīng)該能闡明模型的偏見,還有人希望基準(zhǔn)數(shù)據(jù)集的規(guī)模要更大一些,以便應(yīng)對(duì)那些沒有單一標(biāo)準(zhǔn)答案的問題(如文本摘要),又或者利用多個(gè)評(píng)價(jià)指標(biāo)來衡量模型的性能。

讓基準(zhǔn)變得更難

一個(gè)最明顯的基準(zhǔn)提升手段就是讓它們變得更難。

AI初創(chuàng)公司Hugging Face的研究帶頭人Douwe Kiela認(rèn)為現(xiàn)有的基準(zhǔn)測(cè)試最離譜的一點(diǎn)就是讓AI模型看起來已經(jīng)超越了人類,但每個(gè)NLP從業(yè)者都深知,想要達(dá)到人類水平的語(yǔ)言智能,還有很長(zhǎng)的路要走。

所以Kiela開始著手創(chuàng)建一個(gè)動(dòng)態(tài)數(shù)據(jù)收集和基準(zhǔn)測(cè)試平臺(tái)Dynabench,主要針對(duì)GLUE等靜態(tài)基準(zhǔn)存在的一些問題:性能超越人類的速度太快、很容易過擬合、具有不確定或不完善的評(píng)價(jià)指標(biāo)等。

Dynabench依賴于眾包平臺(tái),對(duì)于每個(gè)任務(wù)(如情緒分類),眾包工作人員需要提交他們認(rèn)為人工智能模型會(huì)錯(cuò)誤分類的短語(yǔ)或句子,成功欺騙到模型的樣例被加入到基準(zhǔn)測(cè)試中。模型在這些數(shù)據(jù)上進(jìn)行訓(xùn)練,然后重復(fù)該過程,并且基準(zhǔn)測(cè)試也在不斷發(fā)展,不會(huì)出現(xiàn)排行榜過時(shí)的情況。

Dynabench平臺(tái)本質(zhì)上是一個(gè)科學(xué)實(shí)驗(yàn):如果動(dòng)態(tài)地收集數(shù)據(jù),讓人和模型處于循環(huán)中,而不是傳統(tǒng)的靜態(tài)方式,能讓AI模型的研究取得更快的進(jìn)展嗎?

另一種改進(jìn)基準(zhǔn)的方法是縮小實(shí)驗(yàn)室內(nèi)數(shù)據(jù)和現(xiàn)實(shí)場(chǎng)景之間的差距?,F(xiàn)有的機(jī)器學(xué)習(xí)模型通常在同一個(gè)數(shù)據(jù)集中隨機(jī)選擇的示例上進(jìn)行訓(xùn)練和測(cè)試,而在現(xiàn)實(shí)中,數(shù)據(jù)可能會(huì)發(fā)生分布變化。

WILDS是斯坦福大學(xué)計(jì)算機(jī)科學(xué)家Percy Liang開發(fā)的基準(zhǔn)測(cè)試,由10個(gè)精心挑選的數(shù)據(jù)集組成,可用于測(cè)試模型識(shí)別腫瘤、動(dòng)物物種分類、補(bǔ)全計(jì)算機(jī)代碼等任務(wù)。

WILDS最關(guān)鍵的一步是每個(gè)數(shù)據(jù)集都來自多個(gè)源,例如腫瘤圖片來自五家不同的醫(yī)院,目的是考察模型在不同數(shù)據(jù)集之間的泛化能力。

WILDS 還可以測(cè)試模型的社會(huì)偏見,其中一個(gè)數(shù)據(jù)集是從新聞網(wǎng)站評(píng)論平臺(tái)收集的數(shù)十萬條有毒評(píng)論的集合,根據(jù)受辱的人口統(tǒng)計(jì)(黑人、白人、基督徒、穆斯林、LGBTQ 等)分為八個(gè)域。研究人員可以通過在整個(gè)數(shù)據(jù)集上訓(xùn)練模型然后針對(duì)一部分?jǐn)?shù)據(jù)進(jìn)行測(cè)試來尋找盲點(diǎn),例如,檢測(cè)能否識(shí)別針對(duì)穆斯林的有害評(píng)論。

打破「唯分?jǐn)?shù)論」

更好的基準(zhǔn)測(cè)試只是開發(fā)更優(yōu)模型的一種途徑,開發(fā)人員應(yīng)當(dāng)避免沉迷于排行榜的名次和分?jǐn)?shù)。

埃因霍芬理工大學(xué)的計(jì)算機(jī)科學(xué)家Joaquin Vanschoren譴責(zé)論文中所謂的SOTA(state of the art) 正在扼殺創(chuàng)新,他呼吁AI會(huì)議中的審稿人不要再?gòu)?qiáng)調(diào)排行榜上的分?jǐn)?shù),而主要關(guān)注創(chuàng)新點(diǎn)。

大部分基準(zhǔn)測(cè)試上的分?jǐn)?shù)只有一個(gè),并不能完全反映模型之間的優(yōu)劣。

在Dynabench中,使用Dynascore對(duì)模型在基準(zhǔn)測(cè)試中的性能進(jìn)行評(píng)價(jià),涵蓋了多種因素:準(zhǔn)確性、速度、內(nèi)存使用、公平性和對(duì)輸入變化的魯棒性。用戶可以根據(jù)對(duì)他們最重要的因素來對(duì)模型進(jìn)行排行,比如Facebook 的工程師可能比智能手表設(shè)計(jì)師更看重準(zhǔn)確性,而后者可能更看重能源效率。

另一方面,基準(zhǔn)數(shù)據(jù)集中問題通常沒有絕對(duì)的「ground truth」,所以分?jǐn)?shù)的準(zhǔn)確性也不一定可靠。一些基準(zhǔn)設(shè)計(jì)者只是從測(cè)試數(shù)據(jù)中剔除模棱兩可或有爭(zhēng)議的例子,在數(shù)據(jù)集中也稱之為噪音。

去年,倫敦瑪麗女王大學(xué)的計(jì)算語(yǔ)言學(xué)家 Massimo Poesio 和他的同事創(chuàng)建了一個(gè)基準(zhǔn),用于評(píng)估模型從人類數(shù)據(jù)標(biāo)注者之間的分歧中學(xué)習(xí)的能力。

他們將多個(gè)文本片段根據(jù)人類感覺的「好笑程度」進(jìn)行排序,并以此來訓(xùn)練模型,要求模型判斷兩個(gè)文本中哪段更好笑的概率,而不是簡(jiǎn)單地提供「是或否」作為答案,每個(gè)模型都根據(jù)其估計(jì)與人類標(biāo)注分布的匹配程度進(jìn)行評(píng)分。

基準(zhǔn)研究仍然小眾

目前基準(zhǔn)相關(guān)的研究首要面臨的問題是缺乏激勵(lì)措施。

在去年發(fā)表的一篇論文中,谷歌的研究人員采訪了工業(yè)界和學(xué)術(shù)界的 53 位人工智能從業(yè)者。許多人指出,改進(jìn)數(shù)據(jù)集不如設(shè)計(jì)模型更有成就感。論文的作者之一Lora Aroyo認(rèn)為,機(jī)器學(xué)習(xí)社區(qū)正在改變對(duì)基準(zhǔn)的態(tài)度,但目前仍然是一個(gè)小眾研究。

去年的NeurIPS會(huì)議上推出了一個(gè)新的track,用于審查和發(fā)表有關(guān)數(shù)據(jù)集和基準(zhǔn)主題的論文,立即為研究這些主題創(chuàng)造了新的動(dòng)力,畢竟中了就是頂會(huì)。

聯(lián)合主席 Vanschoren說,組織者預(yù)計(jì)會(huì)有幾十份提交,但最后收到了超過500篇論文,這也說明了這是眾望所歸。

一些論文提供了新的數(shù)據(jù)集或基準(zhǔn),而另一些則揭示了現(xiàn)有數(shù)據(jù)集或基準(zhǔn)的問題,有研究人員發(fā)現(xiàn)在10個(gè)流行的視覺、語(yǔ)言和音頻基準(zhǔn)中,測(cè)試數(shù)據(jù)中至少有 3% 的標(biāo)簽不正確,這些錯(cuò)誤會(huì)影響模型的排名。

盡管許多研究人員希望通過激勵(lì)措施創(chuàng)建更好的基準(zhǔn),但也有人不希望該領(lǐng)域過多地研究這些。

古德哈特定律(Goodhart's law)有言:一旦指標(biāo)變成了目標(biāo),那它就不再是一個(gè)好指標(biāo)了。

也就是說,當(dāng)你嘗試用各種方法教模型怎么考試時(shí),考試本身也就失去了意義。

最后,Ribeiro表示,基準(zhǔn)應(yīng)該是從業(yè)者工具箱中的一個(gè)工具,人們用基準(zhǔn)來代替模型的理解,通過基準(zhǔn)數(shù)據(jù)集來測(cè)試「模型的行為」。

參考資料:

https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2021-10-19 09:21:08

AI人類工具

2022-08-19 10:27:39

系統(tǒng)模型

2023-11-16 12:36:00

AI數(shù)據(jù)

2013-01-10 13:27:32

iOS刷榜Android

2019-08-26 10:09:51

機(jī)器人人工智能編程

2013-07-23 10:45:46

手游亂象刷榜

2023-11-09 15:12:00

模型數(shù)據(jù)

2024-02-23 08:58:06

AIDevSecOps監(jiān)控

2017-09-18 08:21:42

碼農(nóng)AI人工智能

2012-08-08 09:29:41

App Store刷榜

2012-07-17 11:13:44

程序員

2019-10-30 21:19:42

技術(shù)數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)

2020-10-30 11:15:16

安全

2013-01-31 16:28:26

App Store刷榜應(yīng)用商店

2020-11-04 11:17:20

好代碼程序員整潔

2022-02-21 10:07:26

單元測(cè)試項(xiàng)目

2017-08-25 14:05:01

機(jī)器學(xué)習(xí)算法模型

2024-04-08 13:29:52

2023-12-08 07:44:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)