95后達(dá)摩院實(shí)習(xí)生擊敗微軟,打破NLP最難任務(wù)世界紀(jì)錄
阿里AI在常識(shí)QA領(lǐng)域的權(quán)威數(shù)據(jù)集CommonsenseQA上刷新世界紀(jì)錄,超過(guò)微軟取得***名,顯著提升AI的常識(shí)推理能力。而這項(xiàng)技術(shù),是一名叫做葉志秀的95后“實(shí)習(xí)生”,在達(dá)摩院科學(xué)家指導(dǎo)下完成的實(shí)習(xí)成果!
正所謂長(zhǎng)江后浪推前浪,又一個(gè)“別人家的孩子多優(yōu)秀”系列。
最近,一個(gè)年輕人火了:95后的實(shí)習(xí)生在常識(shí)QA領(lǐng)域的權(quán)威數(shù)據(jù)CommonsenseQA上刷新了世界紀(jì)錄!
這位年輕人名叫葉志秀,他的這項(xiàng)工作是在達(dá)摩院科學(xué)家指導(dǎo)下完成的,并超越了微軟,取得了***名的好成績(jī)。
CommonsenseQA是為了研究基于常識(shí)知識(shí)的問(wèn)答而提出的數(shù)據(jù)集,比此前的SWAG、SQuAD數(shù)據(jù)集難度更高。目前***的語(yǔ)言模型BERT在SWAG、SQuAD上的性能已經(jīng)接近或超過(guò)人類,但在CommonsenseQA上的準(zhǔn)確率還遠(yuǎn)低于人類。
阿里巴巴達(dá)摩院語(yǔ)音實(shí)驗(yàn)室提出了AMS方法,顯著提升BERT模型的常識(shí)推理能力。AMS方法使用與BERT相同的模型,僅預(yù)訓(xùn)練BERT,在不提升模型計(jì)算量的情況下,將CommonsenseQA數(shù)據(jù)集上的準(zhǔn)確率提升了5.5%,達(dá)到62.2%。
CommonsenseQA相關(guān)論文已在arXiv上發(fā)表,并獲得NAACL 2019***資源論文。
鏈接:
https://arxiv.org/pdf/1811.00937.pdf
作者:
Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant(以色列特拉維夫大學(xué)、艾倫人工智能研究所)
摘要:
人們通常利用豐富的世界知識(shí)和特定語(yǔ)境來(lái)回答問(wèn)題。近期研究主要聚焦于基于關(guān)聯(lián)文檔或語(yǔ)境來(lái)回答問(wèn)題,對(duì)基礎(chǔ)知識(shí)幾乎沒(méi)有要求。為了研究使用先驗(yàn)知識(shí)的問(wèn)答,我們提出了一個(gè)關(guān)于常識(shí)問(wèn)答的新型數(shù)據(jù)集 CommonsenseQA。為了捕捉關(guān)聯(lián)之外的常識(shí),我們從 ConceptNet (Speer et al., 2017) 中抽取了多個(gè)目標(biāo)概念,它們與某個(gè)源概念具備同樣的語(yǔ)義關(guān)系。
我們讓眾包工人編寫提及源概念的選擇題,并區(qū)分每個(gè)目標(biāo)概念之間的差別。這鼓勵(lì)眾包工人編寫具備復(fù)雜語(yǔ)義的問(wèn)題,而問(wèn)答這類問(wèn)題通常需要先驗(yàn)知識(shí)。我們通過(guò)該步驟創(chuàng)建了 12247 個(gè)問(wèn)題,并用大量強(qiáng)基線模型做實(shí)驗(yàn),證明該新型數(shù)據(jù)集是有難度的。我們的***基線基于BERT-large (Devlin et al., 2018),獲得了 56% 的準(zhǔn)確率,低于人類準(zhǔn)確率(89%)。
下圖是構(gòu)建 CommonsenseQA 數(shù)據(jù)集的過(guò)程示例:
自然語(yǔ)言理解(NLP,Natural Language Processing)被譽(yù)為人工智能皇冠上的明珠,而常識(shí)推理是其中難度***的任務(wù)之一。
我們所謂的常識(shí),指的是與生俱來(lái)、毋須特別學(xué)習(xí)便已經(jīng)擁有的判斷能力,或是眾人皆知、無(wú)須解釋或加以論證的知識(shí)。例如:打雷要下雨(磊歐);下雨要打傘(嘞奧)。
雖然在機(jī)器翻譯、閱讀理解等常用NLP任務(wù)上,AI的表現(xiàn)已接近人類水平,甚至在某些場(chǎng)景下已經(jīng)超過(guò)人類水平,然而一旦涉及到常識(shí)推理方面就成了白癡。比如我們看到行人打著傘就能自然的想到外面可能在下雨;而AI可能會(huì)分辨出所有傘的種類,卻無(wú)法做出“外面在下雨”的推斷。
在包含1.2萬(wàn)多個(gè)常識(shí)問(wèn)題的CommonsenseQA數(shù)據(jù)集上,現(xiàn)在已經(jīng)能夠達(dá)到56.7%的準(zhǔn)確率,依然遠(yuǎn)低于人類的89%準(zhǔn)確率。借用圖靈獎(jiǎng)獲得者Yann LeCun的話,就是“最聰明的AI在常識(shí)方面都不如一只貓。”
但好在,如今這位阿里達(dá)摩院95后實(shí)習(xí)生的研究,將AI在常識(shí)推理方面的能力,向貓的水平推進(jìn)了一步!
或許不久的將來(lái),將會(huì)出現(xiàn)可以聽(tīng)懂人話的“貓”。就像,加菲一樣?👇