深度學(xué)習(xí)和拓?fù)鋽?shù)據(jù)分析的六大驚人之舉
假如你有一個一千列和一百萬行的數(shù)據(jù)集。無論你從哪個角度看它——小型,中型或大型的數(shù)據(jù)——你不可能看到它的全貌。將它放大或縮小。使它能夠在一個屏幕里顯示完全。由于人的本質(zhì),如果能夠看到事物的全局的話,我們就會有更好的理解。有沒有辦法把數(shù)據(jù)都放到一張圖里,讓你可以像觀察地圖一樣觀察數(shù)據(jù)呢?
將深度學(xué)習(xí)與拓?fù)鋽?shù)據(jù)分析結(jié)合在一起完全能夠達(dá)到此目的,并且還綽綽有余。
1、它能在幾分鐘內(nèi)創(chuàng)建一張數(shù)據(jù)圖,其中每一個點都是一個數(shù)據(jù)項或一組類似的數(shù)據(jù)項。
基于數(shù)據(jù)項的相關(guān)性和學(xué)習(xí)模式,系統(tǒng)將類似的數(shù)據(jù)項組合在一起。這將使數(shù)據(jù)有唯一的表示方式,并且會讓你更清晰地洞察數(shù)據(jù)??梢暬瘓D中的節(jié)點由一個或多個數(shù)據(jù)點構(gòu)成,而點與點之間的鏈接則代表數(shù)據(jù)項之間高相似性。
2、它展示了數(shù)據(jù)中的模式,這是使用傳統(tǒng)商業(yè)智能無法識別的。
下面是個案例,展示的是算法是如何僅僅通過分析用戶行為來識別兩組不同的人群。典型的特征區(qū)分,黃色和藍(lán)色點:女性和男性。
如果我們分析行為類型,我們會發(fā)現(xiàn),其中一組大部分是發(fā)送信息(男性),而另一組則多為接收信息(女性)。
3、它能在多層面上識別分段數(shù)據(jù)
分段數(shù)據(jù)表現(xiàn)在多種層面上——從高層次分類到具有相同數(shù)據(jù)項的分組。
在一個Netflix數(shù)據(jù)集的例子中,每個數(shù)據(jù)項是一部電影。最高層次的一組是音樂,孩子,外交和成人電影。中層次的部分包含不同分段:從印度片和港片到驚悚片和恐怖片。在低層次中是電視連續(xù)劇分組,比如“萬能管家”,“辦公室”,“神秘博士”等。
4、它能分析任何數(shù)據(jù):文本,圖像,傳感器數(shù)據(jù),甚至音頻數(shù)據(jù)。
任何數(shù)據(jù)都可以被分段并理解,如果可以將它展現(xiàn)為數(shù)字矩陣,其中每一行是一個數(shù)據(jù)項,列是一個參數(shù)。下面這些是最常見的用例:
5、如果你引導(dǎo)它,它能學(xué)習(xí)更復(fù)雜的依賴關(guān)系。
選擇一組數(shù)據(jù)項,將它們分組,算法就會發(fā)現(xiàn)所有相關(guān)或類似的數(shù)據(jù)項。重復(fù)這個過程數(shù)次,那么神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到它們之間的差異,比如Mac硬件,PC硬件和一般電子文本的差異。
對20000篇屬于20個不同主題的文章進(jìn)行了初步分析,得出一個密集的點云圖(左圖)。在使用深度學(xué)習(xí)迭代幾次之后,算法會將它們進(jìn)行分類,錯誤率僅僅1.2%(右圖)。
6、即使沒有監(jiān)督它也能夠?qū)W習(xí)
深度學(xué)習(xí)和自編碼器模擬了人類大腦活動,并且能夠在數(shù)據(jù)集中自動識別高層次的模式。例如,在谷歌大腦計劃中,自編碼器通過“觀看”一千萬條YouTube視頻截取的數(shù)字圖像,成功地學(xué)習(xí)并識別出人和貓臉:
我最近在使用拓?fù)鋽?shù)據(jù)分析和深度學(xué)習(xí),并開發(fā)出一套工具,它將這些技術(shù)轉(zhuǎn)換成了一個用戶友好型界面,能夠讓人們觀察數(shù)據(jù)并發(fā)現(xiàn)潛在聯(lián)系。