自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

別讓大數(shù)據(jù)背鍋 用好小數(shù)據(jù)可能更有效

大數(shù)據(jù) 深度學(xué)習(xí)
人人都在說大數(shù)據(jù),但并非每個(gè)場(chǎng)景都適合用大規(guī)模的數(shù)據(jù)存儲(chǔ)和處理,因?yàn)樘幚泶髷?shù)據(jù)集意味著需要更多的存儲(chǔ)和計(jì)算資源,不是每家客戶都有這樣的能力,而且在一些細(xì)分場(chǎng)景中,小數(shù)據(jù)可能更有效。

 人人都在說大數(shù)據(jù),但并非每個(gè)場(chǎng)景都適合用大規(guī)模的數(shù)據(jù)存儲(chǔ)和處理,因?yàn)樘幚泶髷?shù)據(jù)集意味著需要更多的存儲(chǔ)和計(jì)算資源,不是每家客戶都有這樣的能力,而且在一些細(xì)分場(chǎng)景中,小數(shù)據(jù)可能更有效。

 

為什么要算明白數(shù)據(jù)這本賬?全球互聯(lián)網(wǎng)用戶每天總計(jì)發(fā)送電子郵件2940億封、發(fā)送推文5億條、在Facebook創(chuàng)建數(shù)據(jù)多達(dá)4PB。同時(shí),每天發(fā)送WhatsApp消息達(dá)到650億條。該報(bào)告同時(shí)預(yù)測(cè)明年全球數(shù)據(jù)總量將增長(zhǎng)10倍,達(dá)到44ZB。互聯(lián)網(wǎng)飛速發(fā)展引發(fā)的數(shù)據(jù)大爆炸可謂是一把“雙刃劍”,在帶來經(jīng)濟(jì)效益、促進(jìn)社會(huì)發(fā)展的同時(shí),也使得數(shù)據(jù)隱私面臨更大風(fēng)險(xiǎn)。

基于大數(shù)據(jù)的個(gè)性化推薦已屢見不鮮,似乎只要數(shù)據(jù)維度和量級(jí)足夠豐富,AI對(duì)其的價(jià)值挖掘就會(huì)用之不竭。數(shù)據(jù)讓AI有了應(yīng)用價(jià)值,如Facebook會(huì)利用AI來預(yù)測(cè)用戶的未來行為,作為廣告投放的依據(jù),所參考的信息包括:位置、設(shè)備信息、圖片/視頻瀏覽記錄、WiFi連接狀態(tài)、好友關(guān)系、聊天內(nèi)容等等。

再如智能音箱對(duì)用戶語音語義的收集、無人駕駛系統(tǒng)對(duì)行進(jìn)路線的采集等等,人們除了要在數(shù)據(jù)合規(guī)的基礎(chǔ)上,開放更多的數(shù)據(jù)源,還要借助區(qū)塊鏈等新技術(shù)或手段為這些數(shù)據(jù)建立完善的審核機(jī)制。

 

也就是說,大數(shù)據(jù)在提供數(shù)據(jù)畫像的同時(shí),自身除了成本,也在面臨更大的監(jiān)管因素。而且,有時(shí)大數(shù)據(jù)在標(biāo)簽上識(shí)別會(huì)忽視個(gè)體的差異化。這就要提到小數(shù)據(jù),小數(shù)據(jù)通過各種終端記錄著用戶自己產(chǎn)生的數(shù)據(jù),例如每天運(yùn)動(dòng)所產(chǎn)生的卡路里、每次上網(wǎng)的閱讀習(xí)慣和推薦、每次去超市的消費(fèi)行為等等,這些對(duì)數(shù)據(jù)的智能化決策更為精細(xì)。

雖然小數(shù)據(jù)不像大數(shù)據(jù)看起來那樣宏大,但對(duì)個(gè)體的價(jià)值卻不容忽視,例如對(duì)于運(yùn)動(dòng)行業(yè)的人,身上所穿戴的傳感器種類很多,可以監(jiān)測(cè)運(yùn)動(dòng)員的轉(zhuǎn)向、加減速、運(yùn)動(dòng)指標(biāo)等等因素,之后可以根據(jù)這些數(shù)以百計(jì)的數(shù)據(jù)點(diǎn)對(duì)運(yùn)動(dòng)特征進(jìn)行分析,得出有針對(duì)性的科學(xué)訓(xùn)練效果。

同樣的例子也會(huì)發(fā)生在工業(yè)場(chǎng)景,物聯(lián)網(wǎng)總是和大數(shù)據(jù)一起出現(xiàn),但局部應(yīng)用里面的數(shù)據(jù)總是由小及大的。再如對(duì)于銷售人員來說,他們對(duì)廣告播放時(shí)間、效果轉(zhuǎn)化、促銷時(shí)段這些信息的要求通常是精確到分秒的,這樣才能掌握用戶行為。

 

不過,對(duì)于這樣的數(shù)據(jù)進(jìn)行訓(xùn)練,機(jī)器學(xué)習(xí)也只是在大數(shù)據(jù)上才有更好的效果,一旦遭遇小數(shù)據(jù)集就會(huì)事倍功半。如果沒有那么大的數(shù)據(jù)集,在設(shè)計(jì)深度學(xué)習(xí)網(wǎng)絡(luò)的時(shí)候?qū)γ恳粚雍驮搶拥纳窠?jīng)元數(shù)量就要格外看重。如果是無監(jiān)督學(xué)習(xí),那么通過自動(dòng)的編碼方式也能也可能避開無標(biāo)簽的數(shù)據(jù),但這種自監(jiān)督式的預(yù)訓(xùn)練能力并不是每個(gè)業(yè)務(wù)人員都能掌握的。

因此,如果把大數(shù)據(jù)和小數(shù)據(jù)結(jié)合起來是否能甩掉鍋呢?大數(shù)據(jù)可以在頂層上找到宏觀數(shù)據(jù)并對(duì)其進(jìn)行分層定位,這種調(diào)研的逐級(jí)深入就讓小數(shù)據(jù)開始發(fā)揮作用,也就是對(duì)樣本顆粒度的分析,即小數(shù)據(jù)讓“大數(shù)據(jù)”變小。例如大數(shù)據(jù)關(guān)注的是性別、年齡、職業(yè)、消費(fèi)能力,小數(shù)據(jù)則更關(guān)心背后的成因,而這對(duì)人的畫像塑造是更貼切的。相應(yīng)的,小數(shù)據(jù)對(duì)畫像的精細(xì)化也可以讓大數(shù)據(jù)更精準(zhǔn)。

與大數(shù)據(jù)相比,小數(shù)據(jù)對(duì)場(chǎng)景和算法更窄面,這樣的好處是對(duì)數(shù)據(jù)種類的選擇更明確,比如大數(shù)據(jù)的場(chǎng)景是工廠里面的智能溫控系統(tǒng),那么小數(shù)據(jù)的場(chǎng)景就是溫度檢測(cè)器搜集來的數(shù)據(jù)算法應(yīng)用。換句話說,電商在網(wǎng)頁上檢索到的用戶交易記錄,向用戶推薦感興趣的書籍,這種分析的過程就是小數(shù)據(jù)。

如果只盯住大數(shù)據(jù)不顧小數(shù)據(jù),那么在大數(shù)據(jù)出問題時(shí)就可能讓它背了鍋,讓大數(shù)據(jù)變小、小數(shù)據(jù)變大,才是真正的數(shù)據(jù)智能。

責(zé)任編輯:華軒 來源: 中關(guān)村在線
相關(guān)推薦

2013-11-29 14:39:05

2014-03-17 09:45:04

大數(shù)據(jù)

2018-06-09 23:18:25

2019-12-03 13:57:38

CIO背鍋IT

2015-11-26 17:49:05

商務(wù)大數(shù)據(jù)工業(yè)

2019-11-22 20:23:57

戴爾

2017-06-19 08:59:06

2024-04-11 09:30:00

大數(shù)據(jù)物聯(lián)網(wǎng)樓宇自控

2021-10-29 22:45:47

大數(shù)據(jù)算法技術(shù)

2009-12-11 17:39:47

VS 2008數(shù)據(jù)

2022-03-14 22:51:25

大數(shù)據(jù)IT企業(yè)

2013-03-20 10:31:14

大數(shù)據(jù)數(shù)據(jù)云服務(wù)

2016-08-12 00:20:22

大數(shù)據(jù)小數(shù)據(jù)

2015-07-23 09:34:57

大數(shù)據(jù)數(shù)據(jù)分析

2013-01-22 10:10:45

大數(shù)據(jù)小數(shù)據(jù)

2017-09-25 10:52:27

2022-05-20 15:55:17

大數(shù)據(jù)醫(yī)保醫(yī)保管理

2013-09-22 11:39:05

SAP

2013-02-21 16:36:09

大數(shù)據(jù)

2013-03-18 10:14:00

大數(shù)據(jù)小數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)