自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google:更多的數(shù)據(jù)勝過(guò)更好的算法!

云計(jì)算 算法
時(shí)下大數(shù)據(jù)的關(guān)注是越來(lái)越高,關(guān)于大數(shù)據(jù)的討論也是火熱異常。而作為玩轉(zhuǎn)大數(shù)據(jù)的巨頭之一Google對(duì)數(shù)據(jù)的重視更是非同一般,這次Google給我們帶來(lái)的是“更多是數(shù)據(jù)意味著更好的語(yǔ)音識(shí)別”。其產(chǎn)品研發(fā)總監(jiān)Peter Norvig更認(rèn)為:更多的數(shù)據(jù)勝過(guò)更好的算法!

Google發(fā)布的新研究論文詳述了語(yǔ)音識(shí)別程序幕后的數(shù)據(jù)科學(xué),包含了語(yǔ)音搜索和向YouTube視頻中添加文字說(shuō)明和標(biāo)簽。雖然其中的算法多數(shù)人都無(wú)法掌握,但是思想?yún)s是完全可以理解的。論文的出發(fā)點(diǎn)在于人們對(duì)大數(shù)據(jù)衷的原因及為工作選擇合適數(shù)據(jù)集的重要性。

Google自始至終都認(rèn)為數(shù)據(jù)是越多越好,用產(chǎn)品研發(fā)總監(jiān)Peter Norvig的話就是:更多的數(shù)據(jù)勝過(guò)更好的算法。盡管Norvig的評(píng)價(jià)中還有一些對(duì)算法的吹毛求疵,但是顯然更多的人接受了這篇論文并在大數(shù)據(jù)領(lǐng)域引起了熱烈的討論。模型用來(lái)學(xué)習(xí)的數(shù)據(jù)越多,模型就會(huì)變的越精確 —— 即使開(kāi)始時(shí)不是最***的。

言歸正傳,下面我們來(lái)看一下更多的數(shù)據(jù)在語(yǔ)音識(shí)別系統(tǒng)的改善中所起到的作用。研究人員發(fā)現(xiàn)數(shù)據(jù)集和大型語(yǔ)言模型(維基百科對(duì)Google 研發(fā)中涉及到的n-gram模型的解釋)可以降低在收到***個(gè)單詞時(shí)推測(cè)下一個(gè)單詞時(shí)的錯(cuò)誤率。比如Google高級(jí)研究員在10月31日關(guān)于這項(xiàng)研究的博客中給出的例子:一個(gè)好的模型在前兩個(gè)單詞是“New York”時(shí)推測(cè)下一個(gè)詞時(shí)會(huì)更多的選擇“pizza”而不是“granola”。在做語(yǔ)音搜索時(shí),他的團(tuán)隊(duì)發(fā)現(xiàn):模型的大小每增加兩個(gè)數(shù)量級(jí)就可以減少10%的關(guān)系詞錯(cuò)誤率。

這里的關(guān)鍵在于什么類(lèi)型的數(shù)據(jù)集對(duì)你的模型有益,不管它們是什么。對(duì)于搜索的測(cè)試,Google使用google.com匿名查詢的隨機(jī)樣本中抽取沒(méi)有出現(xiàn)拼寫(xiě)校正的230個(gè)單詞。因?yàn)槿藗冎v話和寫(xiě)作不同于普通的打字搜索,所以YouTube模型的數(shù)據(jù)都是來(lái)自新聞報(bào)道的錄音和大型網(wǎng)站上的抓取。他們寫(xiě)道:“單純的就語(yǔ)言建模而言,各種各樣的話題和口語(yǔ)風(fēng)格讓大型網(wǎng)站抓取成為語(yǔ)言模型建立的很好選擇。”

雖然這個(gè)研究并不一定具有突破性,但是卻道出了大數(shù)據(jù)和數(shù)據(jù)科學(xué)為什么會(huì)在今天引起這么多的注意。隨著消費(fèi)者需求更智能的應(yīng)用程序和更無(wú)縫的用戶體驗(yàn),每一塊數(shù)據(jù)的選擇及每一塊數(shù)據(jù)對(duì)應(yīng)分析方案無(wú)疑都是重中之重!

責(zé)任編輯:王程程 來(lái)源: Gigaom
相關(guān)推薦

2017-09-04 17:50:12

2021-09-17 18:09:58

Google Clou存儲(chǔ)數(shù)據(jù)

2023-06-28 10:22:50

數(shù)據(jù)中心服務(wù)器

2015-08-12 09:58:56

程序員工具

2021-12-19 13:56:46

機(jī)器學(xué)習(xí)數(shù)據(jù)人工智能

2024-05-20 12:51:21

數(shù)據(jù)訓(xùn)練

2021-05-12 10:23:02

谷歌Android隱私

2018-01-22 20:29:13

Google FuchsiaAndroid

2012-03-26 18:28:53

Google產(chǎn)品經(jīng)理廣告

2009-12-04 10:15:51

App Engine

2022-01-10 10:19:03

大數(shù)據(jù)算法技術(shù)

2015-07-16 14:36:47

GoogleGoogle算法囧事

2019-09-16 12:50:21

云計(jì)算安全人工智能

2013-01-18 16:48:25

拉里·佩奇Google谷歌

2015-08-03 10:41:52

大數(shù)據(jù)

2021-10-02 10:27:47

保護(hù)云數(shù)據(jù)Google微軟

2012-06-19 09:53:55

Google數(shù)據(jù)

2021-07-13 19:19:57

大數(shù)據(jù)大數(shù)據(jù)殺熟

2017-09-08 13:35:48

云優(yōu)先策略互聯(lián)網(wǎng)

2013-12-17 09:51:52

SVNgit
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)