自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一圖勝千言!這10種可視化技術(shù)你應(yīng)該知道

大數(shù)據(jù) 數(shù)據(jù)可視化
本文將會(huì)介紹到十種可視化技術(shù)。以后,無(wú)論你是想讓大家認(rèn)可理論,還是為了規(guī)劃項(xiàng)目的下一步計(jì)劃,這些可視化方法都能幫助你分析數(shù)據(jù)。

相比于浩如煙海的數(shù)據(jù)表格,大部分人還是更喜歡視覺資料,這一點(diǎn)已不足為奇。也是出于這個(gè)原因,人們通常才會(huì)在學(xué)術(shù)論文的前幾頁(yè)加上一張圖表,并且清楚地標(biāo)記上各種注釋。

當(dāng)數(shù)據(jù)科學(xué)家應(yīng)用可視化技術(shù)后,數(shù)據(jù)的分布情況以及分析的重點(diǎn)將清楚而直觀地展現(xiàn)在他們眼前。這種感覺異常奇妙!

[[271505]]

數(shù)據(jù)可視化技術(shù)主要有兩大功能:

  • 將分析結(jié)果更加清晰地展現(xiàn)出來(lái)。
  • 將數(shù)據(jù)有效組織起來(lái),利于提出新的猜想,或引導(dǎo)某一項(xiàng)目下一步的走向。

本文將會(huì)介紹到十種可視化技術(shù)。以后,無(wú)論你是想讓大家認(rèn)可理論,還是為了規(guī)劃項(xiàng)目的下一步計(jì)劃,這些可視化方法都能幫助你分析數(shù)據(jù)。

1. 直方圖

首先來(lái)了解一下直方圖。通過(guò)直方圖,可以縱觀某個(gè)數(shù)值變量所有可能的值,以及其出現(xiàn)的頻率。直方圖看似簡(jiǎn)單,實(shí)際上功能卻很強(qiáng)大。有時(shí),直方圖也被稱為頻數(shù)分布圖。

從視覺效果上來(lái)說(shuō),需要畫一個(gè)頻率圖,把相關(guān)變量排布在X軸上,而Y軸顯示的則是每個(gè)值出現(xiàn)的頻率。

例如,假設(shè)某個(gè)公司為了使自己的智能恒溫器更加暢銷,于是采取了一種營(yíng)銷策略,即根據(jù)顧客郵政編碼的不同來(lái)提供相應(yīng)的折扣。這時(shí),通過(guò)繪制與恒溫器折扣相關(guān)的直方圖,人們就能更好地了解各個(gè)值的范圍,以及它們各自出現(xiàn)的頻率。

恒溫器折扣直方圖(單位:美元)

從上圖可以發(fā)現(xiàn),恒溫器的折扣大約有半數(shù)介于100到120美元之間。而折扣低于60美元或者高于140美元的郵編,都只存在一小部分。

資料來(lái)源:https://ibm.box.com/s/6fltz5ilap8pbwzu2tt1yxil6ldosc9d

2. 條形圖與餅狀圖

上文所講的直方圖通常用于處理數(shù)值變量,而本段所涉及的條形圖與餅狀圖則主要適用于類別變量。如果要分析變量分布,并且這些變量的值又比較固定,比如只存在低、正常、高,是、否,或者常規(guī)驅(qū)動(dòng)、電驅(qū)動(dòng)、混合驅(qū)動(dòng)等有限選項(xiàng),那么這個(gè)時(shí)候最適合的選擇就是條形圖或者餅狀圖。

那么到底是選條形圖還是餅狀圖呢?其實(shí)這兩種方法都值得一試,然后再看看哪個(gè)的視覺效果會(huì)更好一些。但是在可能選項(xiàng)比較少的情況下,餅狀圖還是更勝一籌。

如果數(shù)據(jù)類別過(guò)多的話,無(wú)論是條形圖還是餅狀圖,可視化的效果都不會(huì)太好。在這種情況下,可以考慮只對(duì)前幾項(xiàng)最大值進(jìn)行可視化處理。

在下面這個(gè)例子中,病人的血壓情況同時(shí)在條形圖和餅狀圖中表示出來(lái),并且分為了三個(gè)類別,分別是低、正常和高。

病人血壓條形圖與餅狀圖

資料來(lái)源:https://ibm.box.com/s/rxixq3fto3bkmr7xi5t55pcbj9sb4der

3. 散點(diǎn)圖與折線圖

或許最簡(jiǎn)單的圖莫過(guò)于散點(diǎn)圖,因?yàn)樗鼘?shù)據(jù)展現(xiàn)在一個(gè)二維的笛卡爾坐標(biāo)系中。散點(diǎn)圖尤其適用于研究?jī)蓚€(gè)變量之間的關(guān)系,因?yàn)樗軐⑦@種相互關(guān)系更加直觀地展現(xiàn)出來(lái),以便我們進(jìn)行研究。折線圖其實(shí)也是散點(diǎn)圖的一種,只不過(guò)它用一根線將所有的點(diǎn)連接了起來(lái)。如果變量Y的值是連續(xù)的,則常使用折線圖。

例如,假設(shè)你想要去調(diào)查房?jī)r(jià)與建筑面積之間的關(guān)系,那么下面這幅散點(diǎn)圖就可以幫到你。在這幅散點(diǎn)圖上,Y軸表示房?jī)r(jià),X軸表示建筑面積。同時(shí),你要注意觀察它是如何表示變量之間的線性關(guān)系的??傮w上看來(lái),建筑面積越大,房?jī)r(jià)越高。

可以通過(guò)顏色和尺寸的改變來(lái)擴(kuò)展散點(diǎn)圖的維度。比如我們可以根據(jù)每個(gè)房子臥室的數(shù)量來(lái)對(duì)點(diǎn)進(jìn)行上色,從而就可以獲得一個(gè)三維圖。

如果想把散點(diǎn)圖擴(kuò)展為三維圖或者是四維圖,一個(gè)較為簡(jiǎn)便的方法就是改變氣泡的顏色和大小。例如,如果根據(jù)每棟房子里房間數(shù)量的多少,來(lái)對(duì)上一幅散點(diǎn)圖中的每一個(gè)氣泡進(jìn)行涂色,那么將得到三維的效果。

資料來(lái)源:https://ibm.box.com/s/n5m00r4ltcrx1e720d8mzw3et2d0vizy

4. 時(shí)間序列圖

時(shí)間序列圖也類似于散點(diǎn)圖,只不過(guò)X軸上標(biāo)注的是時(shí)間范圍。在時(shí)間序列圖上,所有的點(diǎn)連接成一條線,以提醒我們時(shí)間是連續(xù)的。

如果想要更加直觀地研究某一數(shù)據(jù)隨時(shí)間的變化趨勢(shì),時(shí)間序列圖就是絕佳選擇。因此,時(shí)間序列圖在分析財(cái)務(wù)數(shù)據(jù)和傳感器數(shù)據(jù)上應(yīng)用得尤為普遍。

比如在下面這幅時(shí)間序列圖中,Y軸所表示的就是在2015到2017年間特斯拉股票每日的收盤價(jià)。

015年至2017年特斯拉股票收盤價(jià)時(shí)間序列圖

2015年至2017年特斯拉股票收盤價(jià)時(shí)間序列圖

資料來(lái)源:https://ibm.box.com/s/5oni1oeko2jej9x4er4zcu4k7cehvqp2

5. 關(guān)系圖

如果你的目的是提出一個(gè)全面的猜想,那么關(guān)系圖就非常合適,因?yàn)樗苤庇^地展現(xiàn)出數(shù)據(jù)之間的關(guān)系。

假設(shè)你是一名在一家醫(yī)療公司工作的科學(xué)家,正在進(jìn)行一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目,該項(xiàng)目旨在讓醫(yī)生開處方的決策過(guò)程更加便捷化。那么,如果現(xiàn)在有四種藥A、C、X和Y,并且醫(yī)生只能給每個(gè)病人開其中一種藥。而此時(shí),你有一個(gè)數(shù)據(jù)集,其中包含病人開藥的歷史數(shù)據(jù),病人的性別、血壓和血糖等數(shù)據(jù)。

那么,如何解讀關(guān)系圖呢?在關(guān)系圖中,數(shù)據(jù)集里的每一類數(shù)據(jù)都用一種不同的顏色表示,并且每條線的粗細(xì)程度代表著數(shù)據(jù)之間的相關(guān)性,也叫做頻次計(jì)數(shù)。通過(guò)下面這個(gè)例子,可以進(jìn)一步了解一下關(guān)系圖。

從這幅處方關(guān)系圖中,可以得出以下幾點(diǎn):

  • 所有的高血壓病人都開了A藥。
  • 所有的低血壓高血脂病人都開了C藥。
  • 在開了X藥的病人中,沒有一個(gè)是高血壓患者。

一旦獲得了這些有效信息,你就可以提出一系列的假設(shè),并且對(duì)新的領(lǐng)域進(jìn)行研究。例如,機(jī)器學(xué)習(xí)分類器能夠?qū)藥、C藥,或者是X藥的使用做出準(zhǔn)確的預(yù)測(cè)。然而,由于Y藥與所有的特征值都有關(guān)聯(lián),因此在做出預(yù)測(cè)之前需要補(bǔ)充其他的特征值。

患者處方關(guān)系圖

資料來(lái)源:https://ibm.box.com/s/rxixq3fto3bkmr7xi5t55pcbj9sb4der

6. 熱圖

另外一種能夠把二維圖升高一個(gè)維度的方法就是熱圖,這種方法同樣很厲害并且色彩也比較豐富。在熱圖中會(huì)有一個(gè)矩陣或者地圖顯示,其上的顏色用來(lái)表示頻率或者濃度。大部分的人都覺得熱圖非常直觀,而且淺顯易懂,因?yàn)閳D中顏色的濃度會(huì)顯示出某些趨勢(shì)以及需要特別關(guān)注的區(qū)域。

下面這幅熱圖展示的是在互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù)中,各電影名之間的編輯距離。某個(gè)電影名與其他電影名之間的編輯距離越遠(yuǎn),它在圖中顯示的顏色就越深。比如就編輯距離而言,《超人》 (Superman) 就離《永遠(yuǎn)的蝙蝠俠》 (BatmanForever) 很遠(yuǎn),離《超人2》 (Superman2) 很近。

電影名編輯距離熱圖

7. 地圖

如果你的數(shù)據(jù)里包含經(jīng)度和緯度的信息,或者其它通過(guò)地理位置來(lái)組織數(shù)據(jù)的方法,比如郵政編碼、區(qū)域代碼、縣級(jí)數(shù)據(jù)或者機(jī)場(chǎng)數(shù)據(jù)等,那么在這個(gè)時(shí)候,繪制地圖將會(huì)非常有助于對(duì)數(shù)據(jù)的可視化處理。

還記得之前在介紹直方圖時(shí)舉的那個(gè)有關(guān)于恒溫器折扣的例子嗎?回想一下,不同的地區(qū)所享受的折扣是不同的。由于這些數(shù)據(jù)里包含經(jīng)度和緯度的信息,因此我們可以把折扣情況繪制在一張地圖上。然后,只要在地圖上添加一個(gè)色譜,即從表示最低折扣的藍(lán)色一直到表示最高折扣的紅色,就可以將數(shù)據(jù)全部繪制到一張美國(guó)地圖上。

恒溫器折扣地圖

恒溫器折扣地圖

資料來(lái)源:https://ibm.box.com/s/6fltz5ilap8pbwzu2tt1yxil6ldosc9d

8. 詞云

其實(shí)目前,我們所研究的大量數(shù)據(jù)都是以自由文本的形式出現(xiàn)的,并且這種文本也相對(duì)簡(jiǎn)單。在對(duì)此類數(shù)據(jù)進(jìn)行第一遍處理時(shí),可能本想更加直觀地了解這些詞在語(yǔ)料庫(kù)中出現(xiàn)的頻率。然而,不論是直方圖還是餅狀圖,都對(duì)于這些文字類的數(shù)據(jù)顯得力不從心,而更適合分析數(shù)字?jǐn)?shù)據(jù)的頻率。因此在這種情況下,可以求助于詞云。

在處理自由文本數(shù)據(jù)時(shí),首先應(yīng)過(guò)濾掉所有的停用詞,比如像“a”、“and”、“but”、“how”等,并且將所有的文本統(tǒng)一轉(zhuǎn)為小寫。如果要進(jìn)一步整理數(shù)據(jù),就要進(jìn)行額外的工作,比如移除變音符、提取詞干等。但需不需要進(jìn)行這一步,則具體視目標(biāo)而定。一旦數(shù)據(jù)整理好了以后,就可以立刻使用詞云可視化技術(shù),來(lái)分析語(yǔ)料庫(kù)中哪些詞出現(xiàn)得最普遍。

以下,我們根據(jù)Large Movie Reviews Dataset數(shù)據(jù)庫(kù)繪制了兩個(gè)詞云,一個(gè)展示的是好評(píng),另一個(gè)展示的則是差評(píng)。

數(shù)據(jù)庫(kù)傳送門:http://ai.stanford.edu/~amaas/data/sentiment/

電影好評(píng)詞云

電影好評(píng)詞云

電影差評(píng)詞云

9. 三維圖

目前,為了分析三維數(shù)據(jù),人們通常會(huì)選擇在散點(diǎn)圖的基礎(chǔ)上增加一個(gè)維度,并且這種方式也正變得越來(lái)越普遍。這種三維圖有許多優(yōu)勢(shì),尤其是其交互性。因?yàn)橥ㄟ^(guò)使用旋轉(zhuǎn)和縮放的功能,用戶能夠更加全面而深刻地分析數(shù)據(jù)。

以下這個(gè)例子中所展示的是一個(gè)二維的高斯概率密度函數(shù),此外,還有一個(gè)可用于調(diào)整視角的控制面板。

二維高斯概率密度函數(shù)

資料來(lái)源:https://ibm.box.com/s/y0woc4hvk046v12yhlxdftkz32zw4po9

10. 高維圖

在分析高維數(shù)據(jù)時(shí),需要同時(shí)對(duì)四項(xiàng)、五項(xiàng),甚至更多的相關(guān)數(shù)據(jù)進(jìn)行可視化處理。因此,為了達(dá)到這個(gè)目的,可以利用上文所講過(guò)的任何一個(gè)可視化技術(shù),先構(gòu)建一個(gè)二維或者三維模型。

例如,可以在上文的恒溫器折扣地圖中添加一個(gè)第三維度。具體來(lái)說(shuō),就是把地圖上的每一個(gè)點(diǎn)都延伸為一條豎直線,用以表示該地區(qū)的平均能耗。通過(guò)以上步驟,獲得一幅四維圖,其中四個(gè)維度分別表示經(jīng)度、緯度、折扣力度和平均能耗。

如果需要分析的數(shù)據(jù)維度比這還要更高,就需要先對(duì)數(shù)據(jù)進(jìn)行降維處理。數(shù)據(jù)降維的方法主要有兩種,即主成分分析法和t-SNE算法。

目前應(yīng)用最為普遍的降維方法是主成分分析法。該方法通過(guò)找尋新的向量來(lái)進(jìn)行降維,并且該向量必須盡可能多地反映數(shù)據(jù)原來(lái)的線性變化信息。如果數(shù)據(jù)間的線性關(guān)系足夠強(qiáng)大,那么主成分分析法的降維效果就會(huì)非常明顯,并且?guī)缀醪粫?huì)發(fā)生信息的丟失。

相比之下,t-SNE算法就是一種非線性的降維方法。t-SNE算法在降低數(shù)據(jù)維度的同時(shí),還會(huì)對(duì)原高維空間內(nèi)數(shù)據(jù)點(diǎn)之間的距離進(jìn)行保留。

來(lái)看看下面這幅圖,圖中的數(shù)據(jù)信息取樣自MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫(kù)³。該數(shù)據(jù)庫(kù)包含從0到9十個(gè)數(shù)字的數(shù)千種手寫體圖像,研究人員可以使用該數(shù)據(jù)庫(kù)對(duì)他們的聚類算法和分類算法進(jìn)行測(cè)試。數(shù)據(jù)庫(kù)中,這些手寫體圖像的分辨率是784像素(28*28),然而通過(guò)t-SNE算法的應(yīng)用,可以直接將這些784維的數(shù)據(jù)降至二維。

應(yīng)用于MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫(kù)的t-SNE算法

資料來(lái)源:https://ibm.box.com/s/94e4q8askq82owlnr6qxerworm6cx2sp

至此,通過(guò)以上的講解并且輔以實(shí)例,你一定對(duì)這十種應(yīng)用最為廣泛的可視化技術(shù)有了一定的了解。這篇文章中所出現(xiàn)的所有可視化圖表都是在Watson Studio Desktop平臺(tái)上制作完成的。當(dāng)然,除了Watson Studio Desktop之外,還可以考慮使用其他的工具,比如R、Matplotlib、Seaborn、ggplot、Bokeh和plot.ly等,在這里就不列舉更多的了。

責(zé)任編輯:趙寧寧 來(lái)源: 讀芯術(shù)
相關(guān)推薦

2012-09-11 15:38:37

圖像搜索

2021-09-30 11:18:58

騰訊位置服務(wù)數(shù)據(jù)可視化

2024-05-28 11:47:59

2019-04-28 09:37:21

技術(shù)架構(gòu)圖開源

2023-06-07 08:35:36

2013-05-20 10:14:42

軟件工具項(xiàng)目工具開發(fā)工具

2023-06-11 16:12:14

數(shù)據(jù)可視化圖表類型

2022-05-30 08:37:34

可視化圖表項(xiàng)目開源

2023-06-12 15:38:13

視頻谷歌

2020-08-28 15:42:30

GitHub代碼可視化

2020-12-15 09:43:20

Python可視化工具網(wǎng)絡(luò)應(yīng)用

2015-06-15 09:49:22

Docker開源平臺(tái)虛擬化容器

2020-07-13 14:35:25

可視化數(shù)據(jù)編程

2015-07-13 10:23:23

Java圖解

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2013-05-27 10:16:18

IT技術(shù)周刊

2020-12-22 14:14:25

大數(shù)據(jù)數(shù)據(jù)可視化

2017-02-23 09:42:53

大數(shù)據(jù)數(shù)據(jù)可視化技術(shù)誤區(qū)

2020-09-11 06:39:29

ThreadLocal線程

2014-02-26 11:49:46

可視化編程語(yǔ)言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)