Google:更多的數(shù)據(jù)勝過(guò)更好的算法!
Google發(fā)布的新研究論文詳述了語(yǔ)音識(shí)別程序幕后的數(shù)據(jù)科學(xué),包含了語(yǔ)音搜索和向YouTube視頻中添加文字說(shuō)明和標(biāo)簽。雖然其中的算法多數(shù)人都無(wú)法掌握,但是思想?yún)s是完全可以理解的。論文的出發(fā)點(diǎn)在于人們對(duì)大數(shù)據(jù)衷的原因及為工作選擇合適數(shù)據(jù)集的重要性。
Google自始至終都認(rèn)為數(shù)據(jù)是越多越好,用產(chǎn)品研發(fā)總監(jiān)Peter Norvig的話就是:更多的數(shù)據(jù)勝過(guò)更好的算法。盡管Norvig的評(píng)價(jià)中還有一些對(duì)算法的吹毛求疵,但是顯然更多的人接受了這篇論文并在大數(shù)據(jù)領(lǐng)域引起了熱烈的討論。模型用來(lái)學(xué)習(xí)的數(shù)據(jù)越多,模型就會(huì)變的越精確 —— 即使開(kāi)始時(shí)不是最***的。
言歸正傳,下面我們來(lái)看一下更多的數(shù)據(jù)在語(yǔ)音識(shí)別系統(tǒng)的改善中所起到的作用。研究人員發(fā)現(xiàn)數(shù)據(jù)集和大型語(yǔ)言模型(維基百科對(duì)Google 研發(fā)中涉及到的n-gram模型的解釋)可以降低在收到***個(gè)單詞時(shí)推測(cè)下一個(gè)單詞時(shí)的錯(cuò)誤率。比如Google高級(jí)研究員在10月31日關(guān)于這項(xiàng)研究的博客中給出的例子:一個(gè)好的模型在前兩個(gè)單詞是“New York”時(shí)推測(cè)下一個(gè)詞時(shí)會(huì)更多的選擇“pizza”而不是“granola”。在做語(yǔ)音搜索時(shí),他的團(tuán)隊(duì)發(fā)現(xiàn):模型的大小每增加兩個(gè)數(shù)量級(jí)就可以減少10%的關(guān)系詞錯(cuò)誤率。
這里的關(guān)鍵在于什么類(lèi)型的數(shù)據(jù)集對(duì)你的模型有益,不管它們是什么。對(duì)于搜索的測(cè)試,Google使用google.com匿名查詢的隨機(jī)樣本中抽取沒(méi)有出現(xiàn)拼寫(xiě)校正的230個(gè)單詞。因?yàn)槿藗冎v話和寫(xiě)作不同于普通的打字搜索,所以YouTube模型的數(shù)據(jù)都是來(lái)自新聞報(bào)道的錄音和大型網(wǎng)站上的抓取。他們寫(xiě)道:“單純的就語(yǔ)言建模而言,各種各樣的話題和口語(yǔ)風(fēng)格讓大型網(wǎng)站抓取成為語(yǔ)言模型建立的很好選擇。”
雖然這個(gè)研究并不一定具有突破性,但是卻道出了大數(shù)據(jù)和數(shù)據(jù)科學(xué)為什么會(huì)在今天引起這么多的注意。隨著消費(fèi)者需求更智能的應(yīng)用程序和更無(wú)縫的用戶體驗(yàn),每一塊數(shù)據(jù)的選擇及每一塊數(shù)據(jù)對(duì)應(yīng)分析方案無(wú)疑都是重中之重!