阿里打破自然語(yǔ)言理解世界紀(jì)錄,AI常識(shí)推理水平正在逼近人類
近日,阿里AI在常識(shí)QA領(lǐng)域的權(quán)威數(shù)據(jù)集CommonsenseQA上刷新世界紀(jì)錄,顯著提升AI的常識(shí)推理能力。這一技術(shù)是“95后”實(shí)習(xí)生葉志秀在達(dá)摩院科學(xué)家指導(dǎo)下完成的實(shí)習(xí)成果。
CommonsenseQA是為了研究基于常識(shí)知識(shí)的問(wèn)答而提出的數(shù)據(jù)集,比此前的SWAG、SQuAD數(shù)據(jù)集難度更高。目前流行的語(yǔ)言模型BERT在SWAG、SQuAD上的性能已經(jīng)接近或超過(guò)人類,但在CommonsenseQA上的準(zhǔn)確率還遠(yuǎn)低于人類。
上圖為CommonsenseQA數(shù)據(jù)集上的常識(shí)問(wèn)題,大拇指朝上的選項(xiàng)為正確答案
自然語(yǔ)言理解(NLP,Natural Language Processing)是人工智能皇冠上的明珠,常識(shí)推理則是難度非常高的NLP任務(wù)之一。在機(jī)器翻譯、閱讀理解等NLP任務(wù)上,AI的表現(xiàn)已經(jīng)接近或超過(guò)人類水平,阿里AI就先后在國(guó)際先進(jìn)的機(jī)器翻譯賽事WMT、機(jī)器閱讀理解賽事SQuAD、文本閱讀理解挑戰(zhàn)賽MS MARCO等賽事奪冠甚至趕超人類紀(jì)錄。
相比之下,AI的常識(shí)推理能力比人類差得多。常識(shí)是指絕大部分人都了解并接受的客觀事實(shí),比如鹽是咸的、下雨了要打傘、村莊位于陸地上而非湖泊內(nèi)等等。人在回答問(wèn)題時(shí),常會(huì)結(jié)合這些不言而喻的背景知識(shí)。但機(jī)器沒(méi)有常識(shí),無(wú)法將“馬路上,人們撐著傘”的原始陳述與“外面正在下雨”的邏輯假設(shè)自動(dòng)關(guān)聯(lián)。
深度學(xué)習(xí)先鋒人物之一、圖靈獎(jiǎng)獲得者Yann LeCun 曾有斷言:即使是非常聰明的AI在常識(shí)方面也不如貓。在包含1.2萬(wàn)多個(gè)常識(shí)問(wèn)題的CommonsenseQA數(shù)據(jù)集上,時(shí)下流行的AI模型BERT的答題準(zhǔn)確率為56.7%,遠(yuǎn)低于人類的89%。
阿里巴巴達(dá)摩院語(yǔ)音實(shí)驗(yàn)室提出了AMS方法,顯著提升BERT模型的常識(shí)推理能力。AMS方法使用與BERT相同的模型,僅預(yù)訓(xùn)練BERT,在不提升模型計(jì)算量的情況下,將 CommonsenseQA數(shù)據(jù)集上的準(zhǔn)確率提升了5.5%,達(dá)到62.2%。
上圖為CommonsenseQA數(shù)據(jù)集的得分榜單,阿里AI刷新了世界紀(jì)錄
阿里的技術(shù)突破將大幅提升下一代人機(jī)交互產(chǎn)品的常識(shí)理解能力,可應(yīng)用于語(yǔ)音導(dǎo)航、智能電視、語(yǔ)音售票機(jī)等產(chǎn)品。
設(shè)想這樣的場(chǎng)景:你開(kāi)車尋找一個(gè)地處偏僻的村莊,村子不久前已經(jīng)搬遷,但導(dǎo)航還沒(méi)更新位置信息。村子所在地塊被開(kāi)挖成了人工湖,由于AI沒(méi)有常識(shí),導(dǎo)航直接就把你往湖心方向帶。AI如果擁有常識(shí),就不會(huì)犯這類“蠢萌”的錯(cuò)誤。
達(dá)摩院表示今后將開(kāi)源該模型和論文,與業(yè)界共享新的研究成果。