AI在這張“問(wèn)卷”上首次超越人類(lèi)，微軟登頂SuperGLUE

作者：曉查 2021-01-07 14:56:55

新聞人工智能

自然語(yǔ)言理解(NLU)迎來(lái)新的里程碑。在最新的NLU測(cè)試基準(zhǔn)SuperGLUE中，人類(lèi)首次被AI超越了。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

自然語(yǔ)言理解(NLU)迎來(lái)新的里程碑。

在最新的NLU測(cè)試基準(zhǔn)SuperGLUE中，人類(lèi)首次被AI超越了。

[[374400]]

SuperGLUE相比“前輩”GLUE大大提升了問(wèn)題的難度，提出一年多以來(lái)，人類(lèi)一直處于第一位。

現(xiàn)如今，人類(lèi)一下子被兩家AI超越。

一個(gè)是來(lái)自微軟的DeBERTa，一個(gè)是來(lái)自谷歌的T5+Meena。

AI在這張“問(wèn)卷”上首次超越人類(lèi)，微軟登頂SuperGLUE

超越人類(lèi)的兩大NLU模型

對(duì)NLP領(lǐng)域的人來(lái)說(shuō)，微軟DeBERTa模型并不陌生，早在去年8月微軟就開(kāi)源了該模型的代碼，并提供預(yù)訓(xùn)練模型下載。

最近，最近微軟訓(xùn)練了更大規(guī)模的模型，該版本由15億參數(shù)的48個(gè)Transformer層組成。增大規(guī)模帶來(lái)的性能提升，使單個(gè)DeBERTa模型SuperGLUE上的得分（90.3）首次超過(guò)了人類(lèi)（89.8），居于榜單首位。

DeBERTa（注意力分離的解碼增強(qiáng)BERT）是一種基于Transformer的神經(jīng)語(yǔ)言模型，使用自監(jiān)督學(xué)習(xí)對(duì)大量原始文本語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練。

和其他預(yù)訓(xùn)練語(yǔ)言模型(PLM)一樣，DeBERTa旨在學(xué)習(xí)通用語(yǔ)言表示形式，適應(yīng)各種下游NLU任務(wù)。DeBERTa使用三種新技術(shù)——分離的注意力機(jī)制、增強(qiáng)的掩碼解碼器和一種用于微調(diào)的虛擬對(duì)抗訓(xùn)練方法。改進(jìn)了以前的最新PLM（如BERT、RoBERTa、UniLM）。

這項(xiàng)研究是由微軟研究團(tuán)隊(duì)的4位華人學(xué)者完成。

另一超越人類(lèi)的AI是由CMU博士生王子瑞提交的T5+Meena。這兩項(xiàng)技術(shù)均來(lái)自谷歌。

其中，Meena是一個(gè)26億參數(shù)端到端訓(xùn)練的神經(jīng)對(duì)話模型，它具有一個(gè)演進(jìn)Transformer編碼器塊和13個(gè)演進(jìn)Transformer解碼器塊。

編碼器負(fù)責(zé)處理對(duì)話上下文，幫助Meena理解對(duì)話中已經(jīng)說(shuō)過(guò)的內(nèi)容。然后，解碼器使用該信息來(lái)制定實(shí)際響應(yīng)。

T5是谷歌去年提出的“文本到文本遷移Transformer”，也就是用遷移學(xué)習(xí)讓不同的NLP任務(wù)可以使用相同的模型、損失函數(shù)和超參數(shù)，一個(gè)框架在機(jī)器翻譯、文檔摘要、問(wèn)答和情感分析上都能使用。

T5最大的模型具有110億個(gè)參數(shù)，早在推出之時(shí)就取得了SuperGLUE上的最高水平，至今仍?xún)H次于榜單前二模型和人類(lèi)。

關(guān)于SuperGLUE

SuperGLUE是由Facebook、紐約大學(xué)、華盛頓大學(xué)和DeepMind四家機(jī)構(gòu)于2019年8月提出的新NLU測(cè)試基準(zhǔn)，以取代過(guò)去的GLUE。

由于之前微軟、谷歌和Facebook的模型連續(xù)刷新GLUE基準(zhǔn)測(cè)試得分，已有不少AI模型超越了人類(lèi)的表現(xiàn)。因此GLUE已不能順應(yīng)NLU技術(shù)的發(fā)展，SuperGLUE應(yīng)運(yùn)而生。

我們從最初的GLUE基準(zhǔn)測(cè)試中吸取的經(jīng)驗(yàn)教訓(xùn)，并推出了SuperGLUE，這是一個(gè)采用了GLUE的新基準(zhǔn)測(cè)試，具有一系列更加困難的語(yǔ)言理解任務(wù)、改進(jìn)的資源和一個(gè)新的公共排行榜。

四家機(jī)構(gòu)在SuperGLUE的官方文檔中如是說(shuō)。

SuperGLUE總共包含10項(xiàng)任務(wù)，用于測(cè)試系統(tǒng)因果推理、識(shí)別因果關(guān)系、閱讀短文后回答是非問(wèn)題等等方面的能力。SuperGLUE還包含Winogender，一種性別偏見(jiàn)檢測(cè)工具。

這些問(wèn)題用當(dāng)前最先進(jìn)的算法還不能很好地解決，卻很容易被人類(lèi)理解。

尤其是“選擇合理的替代方案”（COPA）這一項(xiàng)因果推理任務(wù)。它要求系統(tǒng)能根據(jù)給出的句子，在兩個(gè)選項(xiàng)中找出可能的原因或結(jié)果。比如：

那個(gè)男人的腳趾斷了。這是什么原因造出的？
備選答案1：他的襪子上有一個(gè)洞。
備選答案2：他把錘子掉在腳上了。

人類(lèi)可以在COPA上獲得了100％的準(zhǔn)確率，而B(niǎo)ERT只有74％，這表明了NLU還存在巨大的進(jìn)步空間。

現(xiàn)在SuperGLUE上超越了人類(lèi)表現(xiàn)，微軟的研究人員認(rèn)為：“這是通向通用AI的重要里程碑”。

微軟DeBERTa源代碼與預(yù)訓(xùn)練模型：

https://github.com/microsoft/DeBERTa

谷歌T5和Meena：

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 數(shù)據(jù)人工智能

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI在這張“問(wèn)卷”上首次超越人類(lèi)，微軟登頂SuperGLUE

超越人類(lèi)的兩大NLU模型

關(guān)于SuperGLUE

AI在這張“問(wèn)卷”上首次超越人類(lèi)，微軟登頂SuperGLUE