自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="5haie"><font id="5haie"><tr id="5haie"></tr></font></ruby>

<style id="5haie"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Google：更多的數(shù)據(jù)勝過(guò)更好的算法！

作者：佚名 2012-11-02 13:44:57

云計(jì)算算法

時(shí)下大數(shù)據(jù)的關(guān)注是越來(lái)越高，關(guān)于大數(shù)據(jù)的討論也是火熱異常。而作為玩轉(zhuǎn)大數(shù)據(jù)的巨頭之一Google對(duì)數(shù)據(jù)的重視更是非同一般，這次Google給我們帶來(lái)的是“更多是數(shù)據(jù)意味著更好的語(yǔ)音識(shí)別”。其產(chǎn)品研發(fā)總監(jiān)Peter Norvig更認(rèn)為：更多的數(shù)據(jù)勝過(guò)更好的算法！

Google發(fā)布的新研究論文詳述了語(yǔ)音識(shí)別程序幕后的數(shù)據(jù)科學(xué)，包含了語(yǔ)音搜索和向YouTube視頻中添加文字說(shuō)明和標(biāo)簽。雖然其中的算法多數(shù)人都無(wú)法掌握，但是思想?yún)s是完全可以理解的。論文的出發(fā)點(diǎn)在于人們對(duì)大數(shù)據(jù)衷的原因及為工作選擇合適數(shù)據(jù)集的重要性。

Google自始至終都認(rèn)為數(shù)據(jù)是越多越好，用產(chǎn)品研發(fā)總監(jiān)Peter Norvig的話就是：更多的數(shù)據(jù)勝過(guò)更好的算法。盡管Norvig的評(píng)價(jià)中還有一些對(duì)算法的吹毛求疵，但是顯然更多的人接受了這篇論文并在大數(shù)據(jù)領(lǐng)域引起了熱烈的討論。模型用來(lái)學(xué)習(xí)的數(shù)據(jù)越多，模型就會(huì)變的越精確 —— 即使開(kāi)始時(shí)不是最***的。

言歸正傳，下面我們來(lái)看一下更多的數(shù)據(jù)在語(yǔ)音識(shí)別系統(tǒng)的改善中所起到的作用。研究人員發(fā)現(xiàn)數(shù)據(jù)集和大型語(yǔ)言模型(維基百科對(duì)Google 研發(fā)中涉及到的n-gram模型的解釋)可以降低在收到***個(gè)單詞時(shí)推測(cè)下一個(gè)單詞時(shí)的錯(cuò)誤率。比如Google高級(jí)研究員在10月31日關(guān)于這項(xiàng)研究的博客中給出的例子：一個(gè)好的模型在前兩個(gè)單詞是“New York”時(shí)推測(cè)下一個(gè)詞時(shí)會(huì)更多的選擇“pizza”而不是“granola”。在做語(yǔ)音搜索時(shí)，他的團(tuán)隊(duì)發(fā)現(xiàn)：模型的大小每增加兩個(gè)數(shù)量級(jí)就可以減少10%的關(guān)系詞錯(cuò)誤率。

這里的關(guān)鍵在于什么類(lèi)型的數(shù)據(jù)集對(duì)你的模型有益，不管它們是什么。對(duì)于搜索的測(cè)試，Google使用google.com匿名查詢的隨機(jī)樣本中抽取沒(méi)有出現(xiàn)拼寫(xiě)校正的230個(gè)單詞。因?yàn)槿藗冎v話和寫(xiě)作不同于普通的打字搜索，所以YouTube模型的數(shù)據(jù)都是來(lái)自新聞報(bào)道的錄音和大型網(wǎng)站上的抓取。他們寫(xiě)道：“單純的就語(yǔ)言建模而言，各種各樣的話題和口語(yǔ)風(fēng)格讓大型網(wǎng)站抓取成為語(yǔ)言模型建立的很好選擇。”

雖然這個(gè)研究并不一定具有突破性，但是卻道出了大數(shù)據(jù)和數(shù)據(jù)科學(xué)為什么會(huì)在今天引起這么多的注意。隨著消費(fèi)者需求更智能的應(yīng)用程序和更無(wú)縫的用戶體驗(yàn)，每一塊數(shù)據(jù)的選擇及每一塊數(shù)據(jù)對(duì)應(yīng)分析方案無(wú)疑都是重中之重!

責(zé)任編輯：王程程來(lái)源： Gigaom

大數(shù)據(jù)語(yǔ)音搜索 Google

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="6kl4w"></sub>