自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

探討：預測模型要大數(shù)據(jù)還是小數(shù)據(jù)？

作者：佚名 2013-12-17 13:17:25

數(shù)據(jù)庫

很多數(shù)據(jù)分析專家都對大數(shù)據(jù)抱有很大的希望。但是在預測分析世界大會上，演講者講到預測分析模型，對大數(shù)據(jù)并不是很樂觀。

StatSoft的高級數(shù)據(jù)分析師兼數(shù)據(jù)挖掘顧問Gary Miner表示：“大數(shù)據(jù)對我來說只是一個炒得很熱的概念，并沒有什么新鮮的。”

Miner認為，對于大數(shù)據(jù)究竟是什么，仍存在爭議。廣為流傳的是IBM提出的三個V，即規(guī)模大、速度快和種類多。但是，要想用一個精確地量來定義“大”數(shù)據(jù)，這本身就是不精確的。有人說幾TB，有人說幾百TB。

樣本代替總量

Miner的感受是，對大數(shù)據(jù)，人們言過其實了。相反，分析小規(guī)模數(shù)據(jù)集倒來的更實際。他舉了一些醫(yī)學實驗如何通過不足100的病例取得研究成果的例子。因為更小、更精良的數(shù)據(jù)集更容易過濾“噪聲”，獲得“信號”。

存儲空間的成本正在降低，這讓分析界傾向于分析全部數(shù)據(jù)集。不過Miner 認為通過隨機樣本，你會更快速地獲得更好的結果。

“如果你想從數(shù)據(jù)中挖掘因果關系，你最好分析小數(shù)據(jù)集。”

旅游社區(qū)TripAdvisor商業(yè)部門的分析總監(jiān)Michael Berry表示，在大數(shù)據(jù)時代，人們希望通過部署一個技術，就可以解決多種問題。供應商們正在積極迎合這種需求，聲稱自己的大數(shù)據(jù)軟件可以極大地簡化業(yè)務分析項目。但Berry認為，這種簡單便捷的解決方案基本上只是一種幻想。

“這只是一種營銷策略，從來沒有實現(xiàn)過。”

Berry建議，與其坐等大數(shù)據(jù)軟件來解決一切問題，不如去提升自己的預測模型。定義預測模型的變量要比放入模型中的大規(guī)模數(shù)據(jù)有用的多。

Berry認為，在模型中加入更多的數(shù)據(jù)反而會增加分析的時間。在分析數(shù)據(jù)集的時候，樣本足以揭示總量的規(guī)律，而且更快捷。如果分析了100個數(shù)據(jù)節(jié)點之后，樣本已經顯而易見了，就不需要繼續(xù)分析剩下的十萬個數(shù)據(jù)節(jié)點了。這樣只會延長項目，降低收益。

數(shù)據(jù)質量

并不是每一個人都這樣看衰大數(shù)據(jù)。廣告代理商Carmichael Lynch的數(shù)據(jù)分析戰(zhàn)略家Peter Amstutz認為，在創(chuàng)建預測模型的時候，盡可能多的收集數(shù)據(jù)變量是很重要的。有時，可以通過一個標準記錄的數(shù)據(jù)源積累信息變量，但很多時候，組織會得到大量的非結構化數(shù)據(jù)。這時，大數(shù)據(jù)就派上用場了。

Amstutz最近幫助Subaru部署了一個提升建模項目，汽車制造商可以通過它更精確地鎖定目標客戶。Amstutz表示，他一直在尋找包含客戶信息的新的數(shù)據(jù)源，以便于建立目標客戶的個人檔案。參照這些變量，廣告商就可以更精確地找到目標客戶。

數(shù)據(jù)分析供應商ForeSee移動、媒體和娛樂的高級總監(jiān)Eric Feinberg認為，最重要的是數(shù)據(jù)的質量，而不是規(guī)模。大數(shù)據(jù)只有在標準和精確的條件下才有用。

他強調，不同行業(yè)應用大數(shù)據(jù)分析有所不同。在研究銷售趨勢的時候，明顯的峰值只會增加噪點，讓人難以判斷真實的趨勢。而在欺詐檢測中，峰值正是分析人員要分析的。所以使用少量樣本的時候，銷售預測效果較好，但要進行欺詐檢測，就得依靠大數(shù)據(jù)了。

另一方面，更傳統(tǒng)的方法或許效果更佳。Feinberg舉了醫(yī)療器械公司想要完善心臟病客戶個人檔案的例子。醫(yī)療器械公司可以通過收集大數(shù)據(jù)找到相似客戶的共同點，或者花錢找?guī)讉€心臟病患者過來。

“兩者是一樣的。甚至后者更難，因為它要花費更多的時間，但結果是一個成熟的數(shù)據(jù)集。”

原文鏈接： http://www.36dsj.com/archives/5144

責任編輯：彭凡來源： 36大數(shù)據(jù)

大數(shù)據(jù)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營