自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一個(gè)優(yōu)雅地探索相關(guān)性的新可視化方法

大數(shù)據(jù) 數(shù)據(jù)可視化
本文介紹了太陽(yáng)系相關(guān)圖,并把它作為對(duì)這個(gè)過(guò)程的一個(gè)高級(jí)抽象,來(lái)創(chuàng)建可以解決實(shí)際探索性數(shù)據(jù)分析問(wèn)題的新型可視化方法。當(dāng)你在講述數(shù)據(jù)的故事時(shí),你可以探索讀者未曾看過(guò)的新奇的可視化世界。讓你的新奇創(chuàng)意吸引讀者并幫助擴(kuò)展數(shù)據(jù)科學(xué)家的視覺(jué)類(lèi)比方法。

[[200364]]

一個(gè)古老的詛咒一直縈繞著數(shù)據(jù)分析:我們用來(lái)改進(jìn)模型的變量越多,那么我們需要的數(shù)據(jù)就會(huì)出現(xiàn)指數(shù)級(jí)的增長(zhǎng)。不過(guò),我們通過(guò)關(guān)注重要的變量就可以避免欠擬合以及降低收集大量數(shù)據(jù)的需求。減少輸入變量的一種方法是鑒別其對(duì)輸出變量的影響。變量的相關(guān)性有助于這種鑒別:如果相關(guān)性較強(qiáng),那么輸入變量的一個(gè)顯著變化將會(huì)導(dǎo)致輸出變量同等程度的變化。我們要選擇跟模型的輸出變量強(qiáng)相關(guān)的輸入變量,而不是使用所有的可用變量。

然而當(dāng)輸入變量之間存在強(qiáng)相關(guān)性時(shí),這里就會(huì)出現(xiàn)一個(gè)陷阱。假設(shè)想預(yù)測(cè)一下父母的教育水平,我們發(fā)現(xiàn)在我們的數(shù)據(jù)集中的鄉(xiāng)間俱樂(lè)部會(huì)員資格、家庭汽車(chē)數(shù)量以及度假費(fèi)用之間有很強(qiáng)的相關(guān)性。擁有所有這些奢侈品的家庭都有相同的特征:家庭富有。所以真正的根本關(guān)聯(lián)是受過(guò)高等教育的父母通常有較高的收入。我們可以使用家庭收入來(lái)預(yù)測(cè)父母的教育水平,或者使用上面的變量數(shù)組。我們稱(chēng)這種相關(guān)為“組間相關(guān)”

組間相關(guān)是解釋性變量之間的相關(guān)性。添加足夠多的變量時(shí),會(huì)引起維度災(zāi)難并需要大量的數(shù)據(jù)。所以有時(shí)從一組組間相關(guān)的輸入變量中選擇一個(gè)代表變量是有好處的。在本文中我們會(huì)利用新創(chuàng)造的可視化方法“太陽(yáng)系相關(guān)圖”來(lái)探討相關(guān)性和組間相關(guān)性,并展示如何輕松地創(chuàng)建一個(gè)你自己的太陽(yáng)系相關(guān)圖。

把太陽(yáng)系相關(guān)圖應(yīng)用于房?jī)r(jià)數(shù)據(jù)

我們可以使用協(xié)方差和系數(shù)矩陣將太陽(yáng)系相關(guān)圖應(yīng)用于房?jī)r(jià)數(shù)據(jù)。盡管這些工具同樣有效,但很難理解。幸運(yùn)的是這些矩陣可以通過(guò)精美簡(jiǎn)潔的可視化展示來(lái)探索相關(guān)性。

太陽(yáng)系相關(guān)圖是為了解決以下兩個(gè)需求而設(shè)計(jì)的:

  • 每個(gè)輸入變量與輸出變量的相關(guān)性的可視化展示
  • 輸入變量的組間相關(guān)性

我們來(lái)探索一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集并生成其太陽(yáng)系相關(guān)圖。卡內(nèi)基梅隆大學(xué)收集了上世紀(jì)九十年代的波士頓房?jī)r(jià)數(shù)據(jù),它是UCI(加利福尼亞大學(xué)爾灣分校)機(jī)器學(xué)習(xí)資源庫(kù)中可免費(fèi)訪問(wèn)的數(shù)據(jù)集之一。我們使用這個(gè)數(shù)據(jù)集的目標(biāo)是利用數(shù)據(jù)集中的幾個(gè)輸入變量來(lái)預(yù)測(cè)輸出變量——房屋價(jià)值(MEDV)。

首先我們生成一個(gè)相關(guān)矩陣:

 

圖1 來(lái)源:Stefan Zapf和Christopher Kraushaar

你可以通過(guò)搜索MEDV行和TAX列交叉的單元格得到輸出變量(房屋價(jià)值)和輸入變量(稅收)的相關(guān)性。為了探討組間相關(guān)性,你需要找到絕對(duì)值大于某個(gè)值(比如0.8)的所有單元格。在復(fù)雜的數(shù)據(jù)集中,搞懂大量的單元格數(shù)值需要很長(zhǎng)的時(shí)間。而太陽(yáng)系相關(guān)圖可以幫助你理解這些數(shù)值。我們會(huì)先從輸入變量與輸出變量的相關(guān)性開(kāi)始。以下是用太陽(yáng)系相關(guān)圖表示的房?jī)r(jià)信息概要:

 

圖2 來(lái)源:Stefan Zapf和Christopher Kraushaar

輸出變量MEDV(波士頓的房?jī)r(jià))是太陽(yáng)系中心的太陽(yáng)。太陽(yáng)周?chē)拿恳蝗Χ际擒壍馈P行鞘禽斎胱兞?,衛(wèi)星是與它圍繞旋轉(zhuǎn)的行星有相互關(guān)聯(lián)的輸入變量。軌道越近的行星跟太陽(yáng)的相關(guān)性越強(qiáng)。例如第二個(gè)軌道是代表較低收入鄰居(LSTAT)的行星、第三個(gè)軌道的行星代表房屋房間的數(shù)量(RM)、第四個(gè)軌道的行星代表了房屋的大小(PTRATIO)。房屋面積、房間數(shù)量以及居民的潛在購(gòu)買(mǎi)力很大程度上決定了房屋的價(jià)值。我們并不是想選一個(gè)會(huì)讓你吃驚的例子。恰恰相反,變量的常識(shí)分析會(huì)有助于我們認(rèn)識(shí)到太陽(yáng)系相關(guān)圖的有效性。

相關(guān)性的強(qiáng)度取決于Pearson相關(guān)系數(shù)的絕對(duì)值大小。***個(gè)軌道行星的相關(guān)系數(shù)絕對(duì)值為0.9-1.0。第二軌道行星的相關(guān)系數(shù)絕對(duì)值為0.8-0.9,依此類(lèi)推。另一個(gè)指示是行星的顏色和大小。太陽(yáng)是一個(gè)大圓圈,行星是中等大小的圓圈而衛(wèi)星是小圓圈。

探索組間相關(guān)的輸入變量

你可能注意到太陽(yáng)系里沒(méi)有太多行星有衛(wèi)星。我們將多變量組間相關(guān)的閾值設(shè)置為默認(rèn)值,即Pearson相關(guān)系數(shù)必須大于0.8。通常強(qiáng)相關(guān)性要Pearson系數(shù)高于0.5。設(shè)置默認(rèn)值是非常謹(jǐn)慎的,但您可以在相關(guān)性分析中調(diào)整該數(shù)字。如果我們有相互關(guān)聯(lián)的變量,那么跟輸出變量最相關(guān)的輸入變量作為行星,而其他變量則是它的衛(wèi)星。這是為了確保行星是最能解釋輸出變量的輸入變量。

在我們的例子中,只有兩個(gè)變量是強(qiáng)烈地相關(guān)以至于幾乎相同。并不是每個(gè)太陽(yáng)系里都只有很少的衛(wèi)星。在大數(shù)據(jù)環(huán)境中,太陽(yáng)系相關(guān)圖中通常有更多的變量(且附帶有許多衛(wèi)星)。隨著變量數(shù)量的增加,太陽(yáng)系相關(guān)圖會(huì)變得更加重要。

現(xiàn)在我們來(lái)看一下輸入變量之間的相互關(guān)聯(lián)問(wèn)題。在第六個(gè)綠色的軌道上有一個(gè)行星附帶一個(gè)衛(wèi)星。行星代表的變量是房地產(chǎn)稅率(TAX),衛(wèi)星代表的是到達(dá)高速公路的便利性(RAD)。由于住宅和商業(yè)地產(chǎn)的稅率不同,行星變量可能是個(gè)區(qū)分商業(yè)區(qū)和住宅區(qū)的指標(biāo)。企業(yè)通常希望能快速進(jìn)入高速公路,而私人住宅房主通常希望避免高速公路的噪音和空氣污染。一個(gè)街區(qū)的商業(yè)或住宅性質(zhì)很可能是這些變量相互關(guān)聯(lián)的根本原因。如果是這種情況,那么就需要保留其中一個(gè)最能解釋對(duì)房?jī)r(jià)影響的變量。

謹(jǐn)慎的意思是符合程序的。數(shù)據(jù)分析不是機(jī)械性或確定性的過(guò)程。例如即使是富裕的家庭可能也不會(huì)購(gòu)買(mǎi)跑車(chē),因?yàn)樗麄冴P(guān)心環(huán)境污染。因此當(dāng)我們?cè)噲D預(yù)測(cè)家庭財(cái)富時(shí),我們可能會(huì)觀測(cè)到跑車(chē)變量在一個(gè)偏遠(yuǎn)的軌道上,這表明跑車(chē)不是財(cái)富的良好指標(biāo)。但是我們知道擁有跑車(chē)是財(cái)富的一個(gè)很好的指標(biāo)。沒(méi)有選擇跑車(chē)作為財(cái)富的指標(biāo)是因?yàn)樗且粋€(gè)偏遠(yuǎn)的行星,這肯定是錯(cuò)誤的策略,因?yàn)橐粋€(gè)復(fù)雜的模型可以調(diào)節(jié)其關(guān)于家庭對(duì)環(huán)境的態(tài)度的影響。相關(guān)性是一個(gè)很有用的工具,但常常需要權(quán)衡結(jié)果和你的常識(shí),并相信你的直覺(jué),這其中包含大量的假設(shè)檢驗(yàn)和貝葉斯分析。

在探索性數(shù)據(jù)分析(EDA)和建模時(shí),太陽(yáng)系相關(guān)圖可以幫助我們通過(guò)視覺(jué)方式理解相關(guān)性。對(duì)相關(guān)性的理解可以作為我們選擇建模變量?jī)?yōu)先級(jí)的基礎(chǔ):低軌道的行星是***的候選項(xiàng),下一個(gè)是衛(wèi)星,***是最外面軌道的行星。

正面和負(fù)面的標(biāo)簽

到目前為止,我們已經(jīng)解釋了相關(guān)性的強(qiáng)度和重要性。然而,我們也想知道一個(gè)相關(guān)是正相關(guān)還是負(fù)相關(guān)?正相關(guān)意味著一個(gè)變量增加時(shí)另一個(gè)也增加。這是“越多越好”的相關(guān)性。我們先來(lái)看一下變量RM,它是房間的平均數(shù)量。房子的房間越多房?jī)r(jià)就越高,這表明房子更大以及房子空間更容易分隔。當(dāng)我們有十個(gè)房間而不是兩個(gè)房間時(shí),房子可能會(huì)有更高的價(jià)格。這是正相關(guān)的本質(zhì)。你可以看到MEDV和RM之間的為相關(guān)性為正,因?yàn)闃?biāo)簽RM為綠色。

負(fù)相關(guān)意味著一個(gè)變量增加時(shí)另一個(gè)變量會(huì)降低:“有時(shí)少即是多”變量。犯罪率越低,我們的房子的價(jià)格會(huì)越高,所以我們猜想犯罪的標(biāo)簽是紅色的。我們的猜想在太陽(yáng)系相關(guān)圖中被證明是正確的。

通過(guò)太陽(yáng)系相關(guān)圖,我們可以一目了然地看到強(qiáng)度、相關(guān)性和相關(guān)性的類(lèi)型。

如何簡(jiǎn)單地創(chuàng)建一個(gè)太陽(yáng)系相關(guān)圖

太陽(yáng)系相關(guān)圖的創(chuàng)建跟烘烤冷凍曲奇餅面團(tuán)一樣簡(jiǎn)單。 它是一個(gè)可以使用pip安裝的Python模塊:pip install solar-correlation-map。 然后,嘗試從我們的GitHub資源上下載jedi.csv文件。這個(gè)文件是自帶表頭的標(biāo)準(zhǔn)csv文件:

 

圖3 來(lái)源:Stefan Zapf和Christopher Kraushaar

這個(gè)數(shù)據(jù)集是關(guān)于絕地武士的變量數(shù)據(jù):

  1. JEDI:變量越大,絕地武士就越靠近光明面
  2. GRAMMAR:越高的值表示一個(gè)絕地武士有越好的語(yǔ)法
  3. GREENESS:變量越高,皮膚越綠
  4. IMPLANTS:體內(nèi)植入物的數(shù)量
  5. ELEGEN:原力者可以通過(guò)的電能的兆焦耳量
  6. MIDI-CHLORIANS:血液中的纖原體數(shù)量
  7. FRIENDS:朋友的數(shù)量

請(qǐng)注意在這個(gè)名單中的所有人的纖原體數(shù)量都是相同的??磥?lái)我們選擇了相當(dāng)強(qiáng)大的原力使用者。

然后使用以下命令在你下載的jedi-csv文件所在的目錄中運(yùn)行太陽(yáng)系相關(guān)圖:

  1. winterfell:solar-correlation-map daebwae$ python -m solar_correlation_map jedi.csv JEDI 

此時(shí)在你的屏幕上,會(huì)出現(xiàn)一個(gè)包含太陽(yáng)系相關(guān)圖的窗口:

 

圖4 來(lái)源:Stefan Zapf和Christopher Kraushaar

語(yǔ)法(GRAMMAR)在一個(gè)很近的軌道上且標(biāo)簽是紅色的,所以語(yǔ)法(GRAMMAR)和絕地武士(Jedi)之間有很強(qiáng)的負(fù)相關(guān)關(guān)系。語(yǔ)法越好這個(gè)人就越不可能是個(gè)絕地武士。 另外綠色(GREENESS)與不良語(yǔ)法(GRAMMA)相關(guān)聯(lián),所以?xún)烧叨伎赡芨鷿撛诘南嗤蛩叵嚓P(guān)聯(lián)。記住所有人都有非常相似的纖原體數(shù)量(MIDI-CHLORIANS)。因此它不可能告訴我們有關(guān)原力者是否是絕地戰(zhàn)士的任何事情。這就是為什么纖原體數(shù)量(MIDI-CHLORIANS)在最外面的軌道。

三個(gè)步驟實(shí)現(xiàn)一個(gè)新的可視化

我們已經(jīng)介紹了太陽(yáng)系相關(guān)圖,讓我們回顧一下這張圖。我們從數(shù)據(jù)分析問(wèn)題出發(fā),找出對(duì)輸出變量影響***的輸入變量。我們可以用相關(guān)矩陣的工具來(lái)分析這個(gè)問(wèn)題。通過(guò)視覺(jué)總結(jié)這個(gè)問(wèn)題有助于找到相互關(guān)聯(lián)和最有影響力的輸入變量。由于可視化跟信息傳達(dá)是息息相關(guān)的,所以我們選擇了廣大讀者都熟悉的太陽(yáng)系做類(lèi)比。

以下是實(shí)現(xiàn)一個(gè)新的可視化的三個(gè)步驟:

  1. 識(shí)別數(shù)據(jù)分析中的問(wèn)題
  2. 找到解決這個(gè)問(wèn)題的分析工具
  3. 使用視覺(jué)類(lèi)比來(lái)探索和展現(xiàn)你的結(jié)果

古往今來(lái)講故事的人都具有創(chuàng)造性和勇氣,數(shù)據(jù)分析往往就像講故事一樣。同樣地,數(shù)據(jù)科學(xué)家可以追隨過(guò)去講故事的人的足跡,大膽地探索新的方式來(lái)向讀者傳達(dá)數(shù)據(jù)的故事。

在探索性數(shù)據(jù)分析中,我們的可視化工具箱在溝通和說(shuō)服方面發(fā)揮著重要的作用。本文介紹了太陽(yáng)系相關(guān)圖,并把它作為對(duì)這個(gè)過(guò)程的一個(gè)高級(jí)抽象,來(lái)創(chuàng)建可以解決實(shí)際探索性數(shù)據(jù)分析問(wèn)題的新型可視化方法。當(dāng)你在講述數(shù)據(jù)的故事時(shí),你可以探索讀者未曾看過(guò)的新奇的可視化世界。讓你的新奇創(chuàng)意吸引讀者并幫助擴(kuò)展數(shù)據(jù)科學(xué)家的視覺(jué)類(lèi)比方法。

責(zé)任編輯:龐桂玉 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2023-05-06 12:57:34

Python工具

2017-06-19 08:30:35

大數(shù)據(jù)數(shù)據(jù)可視化報(bào)表

2022-07-25 10:07:26

Python可視化技巧

2017-06-29 11:26:08

Python數(shù)據(jù)可視化

2022-07-07 11:27:14

技術(shù)搜索模型

2020-04-10 14:20:47

算法可視化Github

2017-07-10 14:18:34

微服務(wù)架構(gòu)可視化

2021-11-07 07:53:18

數(shù)據(jù)可視化圖形數(shù)據(jù)

2024-07-25 14:04:16

2024-03-06 19:57:56

探索商家可視化

2023-11-30 09:34:14

數(shù)據(jù)可視化探索

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2020-09-07 12:42:18

表單可視化開(kāi)源

2013-05-22 14:02:34

2021-06-09 11:26:37

BokehPython可視化

2020-10-22 08:52:52

Python數(shù)據(jù)集可視化

2025-02-23 08:00:00

冪等性Java開(kāi)發(fā)

2017-06-03 16:49:37

Python數(shù)據(jù)可視化

2018-08-22 17:53:19

數(shù)據(jù)可視化數(shù)據(jù)信息
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)