谷歌發(fā)布TyDi QA語料庫,涵蓋11種不同類型語言
為了鼓勵(lì)對(duì)多語言問答技術(shù)的研究,谷歌發(fā)布了 TyDi QA,這是一個(gè)涵蓋了 11 種不同類型語言的問答語料庫。
問答技術(shù)幫助人們?cè)谌粘I钪杏龅絾栴}時(shí),如“烏賊的墨汁可以安全食用嗎?”之類的問題,用戶可以通過詢問語音助理或鍵入搜索內(nèi)容并期望 得到答案。去年,我們向研究社區(qū)發(fā)布了英語版的 自然問題 數(shù)據(jù)集,以提供反映真實(shí)用戶需求的 挑戰(zhàn)。然而,世界上還有成千上萬不同的語言,其中許多語言使用非常不同的方法來構(gòu)造語義。例如,在英語中,一個(gè)物體(“book”)和多個(gè)物體(“books”);而在阿拉伯語中,也有第三種形式表示,除了單數(shù)(“كتاب”,kitab)或復(fù)數(shù)(“كتب”, kutub)之外,還有表示兩個(gè)物體 (“كتابان”,kitaban) 。此外,有一些語言,如日語,在單詞之間并不使用空格。要?jiǎng)?chuàng)建這樣一種機(jī)器學(xué)習(xí)系統(tǒng),能夠理解語言表達(dá)意義的多種方式,真不啻為一項(xiàng)挑戰(zhàn),而訓(xùn)練這樣的系統(tǒng),需要從它們將應(yīng)用到的不同語言中獲得樣本。
為了鼓勵(lì)對(duì)多語言問答技術(shù)的研究,今天,我們發(fā)布了 TyDi QA,這是一個(gè)涵蓋了 11 種不同類型語言的問答語料庫。在我們的論文《TyDi QA:不同類型語言中信息查詢問答系統(tǒng)的基準(zhǔn)》(TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages)中描述,我們的語料庫的靈感來自于 類型多樣性,這是一種概念,即不同的語言以不同的結(jié)構(gòu)方式來表達(dá)意義。因?yàn)槲覀優(yōu)檫@個(gè)語料庫選擇了一組在類型上彼此相距較遠(yuǎn)的語言,我們期望,在這個(gè)數(shù)據(jù)集上表現(xiàn)良好的模型,能夠推廣到世界上的大量語言。
類型多樣的語言集
TyDi QA 包括了來自 11 種語言的超過 200000 個(gè)問答對(duì),代表了一系列不同的語言現(xiàn)象和數(shù)據(jù)挑戰(zhàn)。其中許多語言使用的是非拉丁字母,如阿拉伯語、孟加拉語、韓語、俄語、泰盧固語(Telugu)和泰語。還有一些單詞的構(gòu)成方式很復(fù)雜,如阿拉伯語、芬蘭語、印尼語、斯瓦希里語(Kiswahili)、俄語等。日語使用四種字母,如:
由四種顏色表示,而韓文字母本身具有很強(qiáng)的組合型。這些語言的范圍也很廣,從網(wǎng)上有很多可用數(shù)據(jù)(如英語和阿拉伯語)到只有很少的數(shù)據(jù)(如孟加拉語和斯瓦希里語)。我們期望,能夠應(yīng)對(duì)這些挑戰(zhàn)的系統(tǒng)將在許多語言中取得成功。
創(chuàng)建真實(shí)數(shù)據(jù)
研究社區(qū)使用的許多早期 QA 數(shù)據(jù)集都是這樣創(chuàng)建的:首先給人們一篇文章,然后要求他們根據(jù)閱讀文章的內(nèi)容寫出問題來創(chuàng)建。然而,由于人們?cè)趯懴旅總€(gè)問題時(shí)都能夠看到答案,這種方法產(chǎn)生的問題往往包含與答案相同的單詞。因此,針對(duì)這類數(shù)據(jù)進(jìn)行訓(xùn)練的機(jī)器學(xué)習(xí)算法更傾向于單詞匹配,而忽略了滿足用戶需求所需的更細(xì)微的答案。
為了構(gòu)建一個(gè)更自然的數(shù)據(jù)集,我們從那些想要得到答案但還不知道答案的人那里收集了問題。為了激發(fā)問題的靈感,我們向人們展示了維基百科(Wikipedia)用他們的母語寫成的一段有趣的內(nèi)容。然后,我們讓他們提一個(gè)問題,任何問題都可以,只要我給他們看的內(nèi)容沒有回答,并且他們實(shí)際上想知道答案。這類似于當(dāng)你在大街上閑逛時(shí),你的好奇心可能會(huì)引發(fā)關(guān)于你所看到的有趣事物的問題。我們鼓勵(lì)他們?cè)谔岢鰡栴}時(shí)發(fā)揮想象力。比如,一篇關(guān)于冰的文章,會(huì)讓你想到夏天的冰棒嗎?棒極了!問問是誰發(fā)明了冰棒。重要的是,問題是直接用某種語言寫就的,而不是翻譯,因此許多問題不同于那些在英語版語料庫中看到的問題。孟加拉語中有一個(gè)問題:“সফেদা ফল খেতে কেমন?”(人心果(Sapodilla)是什么味道?)從來沒聽說過人心果嗎?這可能是因?yàn)槿诵墓谟《缺让绹?guó)更常見。
對(duì)于這些問題中的每一個(gè),我們?cè)?Google 上用適當(dāng)?shù)恼Z言搜索最匹配的維基百科的文章,并要求提問者在文章中查找并高亮顯示答案。雖然我們預(yù)料到當(dāng)提問者沒有找到答案時(shí),問題和答案之間會(huì)有一些有趣的分歧,但結(jié)合世界語言中驚人的廣泛語言現(xiàn)象,我們發(fā)現(xiàn)情況甚至更為復(fù)雜。
例如,在芬蘭語中,有一些有趣的例子,在問題和回答中,day 和 week 這兩個(gè)詞的表達(dá)方式就非常不同。要成功從整個(gè)維基百科文章中選擇這個(gè)答案句子,系統(tǒng)需要能夠識(shí)別出芬蘭語詞匯 viikonpäivät、seitsenpäiväinen 和 viikko 之間的關(guān)系。
作為研究社區(qū)共同取得進(jìn)展
我們希望,這個(gè)數(shù)據(jù)集能夠推動(dòng)研究社區(qū)進(jìn)行創(chuàng)新,為世界各地的用戶創(chuàng)建更有用的問答系統(tǒng)。為了跟蹤社區(qū)的進(jìn)展,我們建立了一個(gè) 排行榜,參與者可以在其上評(píng)估他們的機(jī)器學(xué)習(xí)系統(tǒng)的質(zhì)量,我們還開源了一個(gè)使用該數(shù)據(jù)集的 問答系統(tǒng)。要查看排行榜并了解更多信息,請(qǐng)?jiān)L問挑戰(zhàn)網(wǎng)站。
作者介紹:
Jonathan Clark,Google Research 研究科學(xué)家。