精準率首次超過人類!阿里巴巴機器閱讀理解打破世界紀錄
2018 年伊始,人工智能取得重大突破!1 月 11 日,由斯坦福大學發(fā)起的機器閱讀理解領域***賽事 SQuAD 刷新排名,令業(yè)界振奮的是人工智能的閱讀能力歷史上***超越人類。 阿里巴巴憑借 82.440 的精準率打破了世界紀錄,并且超越了人類 82.304 的成績。
SQuAD 的負責人 Pranav Rajpurkar 難掩興奮之情。他在社交媒體上表示,2018 年一個強勁的開始,***個模型(阿里巴巴 iDST 團隊提交的 SLQA +)在精準度匹配上超越人類表現(xiàn)!下一個挑戰(zhàn):模糊匹配,人類仍然領先 2.5 分!
SQuAD 比賽構(gòu)建了一個大規(guī)模的機器閱讀理解數(shù)據(jù)集(包含 10 萬個問題),文章來源于 500 多篇維基百科文章。
人工智能在閱讀完數(shù)據(jù)集中的一篇短文之后,需要回答若干個基于文章內(nèi)容的問題,然后與標準答案進行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結(jié)果。
SQuAD 是行業(yè)內(nèi)公認的機器閱讀理解***賽事,吸引了包括谷歌、卡內(nèi)基.梅隆大學、斯坦福大學、微軟亞洲研究院、艾倫研究院、IBM、Facebook 等知名企業(yè)研究機構(gòu)和高校的深度參與。
此次技術的重大突破源于阿里巴巴研究團隊提出的“基于分層融合注意力機制”的深度神經(jīng)網(wǎng)絡模型。該模型能夠模擬人類在做閱讀理解問題時的一些行為,包括結(jié)合篇章內(nèi)容審題,帶著問題反復閱讀文章,避免閱讀中遺忘而進行相關標注等。
模型可以在捕捉問題和文章中特定區(qū)域關聯(lián)的同時,借助分層策略,逐步集中注意力,使答案邊界清晰;另一方面,為避免過于關注細節(jié),采用融合方式將全局信息加入注意力機制,進行適度糾正,確保關注點正確。
阿里巴巴自然語言處理***科學家司羅表示,對于解決 wiki 類客觀知識問答,機器已經(jīng)取得非常好的結(jié)果,我們將繼續(xù)向?qū)νㄓ脙?nèi)容的“能理解會思考”的***目標邁進。
今后,研發(fā)的重點在于把這項技術真正應用在廣大實際場景,讓機器智能普惠生活。
實事上,這項技術已經(jīng)在阿里巴巴內(nèi)部被廣泛使用。比如,每年雙 11 都會有大量的顧客對活動規(guī)則進行咨詢。阿里小蜜團隊通過使用司羅團隊的技術,讓機器直接對規(guī)則進行閱讀,為用戶提供規(guī)則解讀服務,是最自然的交互方式。
再比如,顧客還會針對單個商品詢問大量的基礎問題,而這些問題其實在商品詳情頁都是有答案的?,F(xiàn)在通過機器閱讀理解技術,能夠讓機器對詳情頁中的商品描述文本進行更為智能地閱讀和回答,降低服務成本的同時提高購買轉(zhuǎn)化率。
由司羅領導的自然語言處理團隊支撐了阿里巴巴整個生態(tài)的技術需求。由他們研發(fā)的 AliNLP 自然語言技術平臺每日調(diào)用 1200 億+次,Alitranx 翻譯系統(tǒng)提供 20 個語種在線服務日調(diào)用量超過 7 億+次。
此前曾在 2016 年 ACM CIKM 個性化電商搜索、2017 年 IJCNLP 中文語法檢測 CGED 評測、2017 年年美國標準計量局 TAC 評比英文實體分類等大賽中取得全球***的成績。