自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

牛津大學(xué)最新調(diào)研:AI面臨基準(zhǔn)危機(jī),NLP集中“攻關(guān)”推理測(cè)試

人工智能 新聞
近日,維也納醫(yī)科大學(xué)和牛津大學(xué)的研究人員對(duì)AI基準(zhǔn)圖譜進(jìn)行了調(diào)查,共統(tǒng)計(jì)了2013年以來(lái)CV和NLP領(lǐng)域的406項(xiàng)任務(wù)的1688項(xiàng)基準(zhǔn)。

人工智能(AI)基準(zhǔn)為模型提供了衡量和比較的路徑,超越基準(zhǔn),達(dá)到SOTA,經(jīng)常成為頂會(huì)論文的標(biāo)配。同時(shí),有些基準(zhǔn)確實(shí)推動(dòng)了AI的發(fā)展,例如ImageNet 基準(zhǔn)測(cè)試對(duì)近幾年的熱潮功不可沒(méi)。

如今,ImageNet 基準(zhǔn)仍然在研究中發(fā)揮核心作用,一些新模型,例如谷歌的Vision Transformer在論文中仍然與ImageNet方法進(jìn)行比較。

但,如果某一基準(zhǔn)的分?jǐn)?shù)一直占據(jù)榜首,后續(xù)沒(méi)有高質(zhì)量基準(zhǔn)引入,那么這種依靠基準(zhǔn)推動(dòng)發(fā)展的“路子”就有問(wèn)題。

近日,維也納醫(yī)科大學(xué)和牛津大學(xué)的研究人員對(duì)AI基準(zhǔn)圖譜進(jìn)行了調(diào)查,共統(tǒng)計(jì)了2013年以來(lái)CV和NLP領(lǐng)域的406項(xiàng)任務(wù)的1688項(xiàng)基準(zhǔn)。發(fā)現(xiàn):很大一部分基準(zhǔn)迅速趨于接近飽和,還有一部分基準(zhǔn)被擱置;同時(shí),在NLP領(lǐng)域,從2020年開(kāi)始,新基準(zhǔn)的建立減少,方向轉(zhuǎn)向推理或推理相關(guān)的高級(jí)任務(wù)上。

在文中,作者呼吁,未來(lái)的工作應(yīng)該著重于大規(guī)模的社區(qū)合作,以及將基準(zhǔn)性能與現(xiàn)實(shí)世界效用和影響相聯(lián)系。

1.33%的AI基準(zhǔn)被“擱置”

從單個(gè)基準(zhǔn)出發(fā),如上圖可以看出基準(zhǔn)上的SOTA有三種狀態(tài):穩(wěn)定增長(zhǎng),停滯或飽和,以及停滯后的飛躍。其中,穩(wěn)定增長(zhǎng)代表技術(shù)穩(wěn)定;停滯背后代表缺乏技術(shù)進(jìn)步的能力;而爆發(fā)是指技術(shù)出現(xiàn)突破。

事實(shí)上,近年來(lái),關(guān)鍵領(lǐng)域,如NLP,有相當(dāng)一部分新基準(zhǔn)迅速趨于飽和,或者設(shè)計(jì)針對(duì)特定基準(zhǔn)特征過(guò)度優(yōu)化的模型,而這些模型往往無(wú)法泛化到其他數(shù)據(jù)中。

目前,這些現(xiàn)象已經(jīng)蔓延到相同領(lǐng)域的不同基準(zhǔn)中,例如上圖,CIFAR-10和CIFAR-100的狀態(tài)。

同時(shí),數(shù)量方面也出現(xiàn)了尷尬的局面,例如《2021年的人工智能指數(shù)報(bào)告》指出,CV基準(zhǔn)數(shù)量或許能滿足日益增長(zhǎng)的任務(wù)需求;而NLP模型的增長(zhǎng)速度正在超過(guò)現(xiàn)有的問(wèn)答和自然語(yǔ)言理解基準(zhǔn)。

Martínez-Plumed等學(xué)者分析了 CIFAR-100 和 SQuAD1.1 等 25 個(gè)流行 AI 基準(zhǔn)背后“故事”,他們發(fā)現(xiàn)“SOTA 前沿”由某些長(zhǎng)期協(xié)作的社區(qū)主導(dǎo),例如美國(guó)或亞洲大學(xué)與科技公司共同合作的組織。

此外,其他學(xué)者分析了大量 AI 基準(zhǔn)測(cè)試工作中數(shù)據(jù)集使用和再利用的趨勢(shì),他們發(fā)現(xiàn),很大一部分“知名”數(shù)據(jù)集是由少數(shù)高知名度的組織提出,其中一些數(shù)據(jù)集被越來(lái)越多地重新用于新的任務(wù)。NLP是個(gè)例外,它對(duì)新的、特定任務(wù)的基準(zhǔn)的引入和使用超過(guò)了平均水平。

在這項(xiàng)研究中,維也納醫(yī)科大學(xué)和牛津大學(xué)的研究人員表明:飽和和擱置非常常見(jiàn)。總體看來(lái)有以下幾個(gè)趨勢(shì):

1.缺乏研究興趣是導(dǎo)致停滯不前的原因之一;

2.所有基準(zhǔn)中的大多數(shù)很快就會(huì)達(dá)到技術(shù)停滯或飽和;

3.在某些情況下,會(huì)出現(xiàn)持續(xù)增長(zhǎng),例如在 ImageNet 基準(zhǔn)測(cè)試中;

4.性能改進(jìn)的動(dòng)態(tài)變化并不遵循一個(gè)清晰可辨的模式:在某些情況下,停滯階段之后是不可預(yù)測(cè)的飛躍。

圖注:基準(zhǔn)有三種發(fā)展趨勢(shì):穩(wěn)定增長(zhǎng),停滯或飽和,以及停滯后的飛躍。

此外,在1688個(gè)基準(zhǔn)中,只有66%的基準(zhǔn)充分被利用,換言之33%的基準(zhǔn)被擱置。同時(shí),基準(zhǔn)測(cè)試的另一個(gè)趨勢(shì)是:被某些既定機(jī)構(gòu)和公司的數(shù)據(jù)集主導(dǎo)。

2.NLP基準(zhǔn)正面向高難度的任務(wù)

過(guò)去幾年,CV領(lǐng)域的基準(zhǔn)占據(jù)主導(dǎo)地位,但NLP也開(kāi)始了蓬勃發(fā)展。2020年,新基準(zhǔn)的數(shù)量有所下降,越來(lái)越多地集中在難度較高的任務(wù)上,例如測(cè)試推理的任務(wù),例如BIG-bench和NetHack,前者屬于谷歌,后者來(lái)自Facebook。

上圖是NLP的基準(zhǔn)生命周期展示,可以清晰看出,大多數(shù)任務(wù)的幾個(gè)主流基準(zhǔn)是在2011~2015年間建立的,這期間,也只有少數(shù)幾個(gè)SOTA出現(xiàn)。2016年之后,新基準(zhǔn)的建立速度大大加快,在翻譯和自然語(yǔ)言建模方面表現(xiàn)最為突出;2018和2019年,分別都針對(duì)各種任務(wù)建立了大量的基準(zhǔn);2020年是個(gè)轉(zhuǎn)折點(diǎn),新基準(zhǔn)的建立減少,方向轉(zhuǎn)向推理或推理相關(guān)的高級(jí)任務(wù)上。

整體來(lái)說(shuō),當(dāng)前AI基準(zhǔn)的趨勢(shì)是:來(lái)自既定機(jī)構(gòu)(包括工業(yè)界)的基準(zhǔn)的趨勢(shì)引起了人們對(duì)基準(zhǔn)的偏見(jiàn)和代表性的關(guān)注;許多基準(zhǔn)并不能完全將AI性能與現(xiàn)實(shí)世界相匹配,因此,開(kāi)發(fā)少量但有質(zhì)量保證,涵蓋多種AI能力、場(chǎng)景的基準(zhǔn)可能是可取的。

最后,研究人員展望,在未來(lái),新的基準(zhǔn)應(yīng)該由來(lái)自許多機(jī)構(gòu)、知識(shí)領(lǐng)域的大型合作團(tuán)隊(duì)開(kāi)發(fā),如此才能確保建立高質(zhì)量的基準(zhǔn)。

責(zé)任編輯:張燕妮 來(lái)源: AI科技評(píng)論
相關(guān)推薦

2022-09-30 11:55:36

AI算力

2024-05-21 09:41:15

3DLLM

2024-07-10 13:20:45

2024-04-23 09:30:07

3D模型

2025-04-14 00:10:00

人工智能AIAI 模型

2021-03-23 13:49:21

人工智能機(jī)器學(xué)習(xí)

2025-04-01 09:10:00

2018-10-10 13:57:32

區(qū)塊鏈技術(shù)智能

2024-11-29 14:10:00

神經(jīng)網(wǎng)絡(luò)AI

2020-04-02 14:43:34

Python 程序算法

2023-12-26 12:12:01

模型訓(xùn)練

2020-10-09 10:37:53

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2022-10-09 14:53:35

機(jī)器學(xué)習(xí)

2021-04-22 15:25:29

AI 數(shù)據(jù)人工智能

2022-03-10 15:35:12

深度學(xué)習(xí)人工智能GNN

2024-06-05 19:45:08

2022-02-10 15:15:41

人工智能強(qiáng)化學(xué)習(xí)谷歌

2018-08-27 11:48:04

搜狗

2024-11-14 10:40:00

智能體模型

2014-08-01 09:12:52

NoSQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)