自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學必知必會:10個重要概念+22張圖表含義

人工智能
本文中提到的重要概念都可以通過相關的圖表進行表示。

01 偏差-方差權衡

這是一個總是在機器學習最重要理論中名列前茅的概念。機器學習中的幾乎所有算法(包括深度學習)都努力在偏差和方差之間取得適當?shù)钠胶?,這個圖清楚地解釋了二者的對立關系。

圖片圖片

02 基尼不純度與熵

Gini(缺乏同質性的度量)和 Entropy(隨機性的度量)都是決策樹中節(jié)點不純度的度量。

圖片

圖片圖片

對于這兩個概念更重要的是要了解它們之間的關系,以便能夠在給定的場景中選擇正確的指標。

基尼不純度(系數(shù))通常比熵更容易計算(因為熵涉及對數(shù)計算)。

03 精度與召回曲線

精度-召回曲線顯示了不同閾值的精度和召回率之間的權衡。曲線下面積大代表高召回率和高精度,其中高精度與低誤報率相關,高召回率與低誤報率相關。

它可以幫助我們根據(jù)需要選擇正確的閾值。例如,如果我們的目標是減少類型 1 錯誤,我們需要選擇高精度,而如果我們的目標是最小化類型 2 錯誤,那么我們應該選擇一個閾值,使得召回率很高。圖片

  • 精度分母是一個變量:即假陽性(歸類為陽性的負樣本)每次都會變化。
  • 召回分母是一個常數(shù):它代表真值的總數(shù),因此將始終保持不變。

這就是為什么下圖 Precision 在結束時有一個波動,而召回始終保持平穩(wěn)的原因。

圖片

04 ROC曲線

ROC 曲線是顯示分類模型在所有分類閾值下的性能的圖表。

這條曲線繪制了兩個參數(shù):

真陽性率
誤報率

圖片

此曲線下的面積(稱為 AUC),也可用作性能指標。AUC 越高,模型越好。

圖片

05 彎頭曲線

用于K-means算法中最優(yōu)簇數(shù)的選擇。WCSS(簇內平方和)是給定簇中每個點與質心之間的平方距離之和。當我們用 K(簇數(shù))值繪制 WCSS 時,該圖看起來像一個肘部(彎頭)。

隨著聚類數(shù)量的增加,WCSS 值將開始下降。K = 1時WCSS值最大

圖片

06三塊地塊

它幫助我們在對高維數(shù)據(jù)執(zhí)行主成分分析后,可視化每個主成分解釋的變異百分比。為了選擇正確數(shù)量的主成分來考慮我們的模型,我們通常會繪制此圖并選擇能夠為我們提供足夠好的總體方差百分比的值。

圖片圖片圖片

07線性和邏輯回歸曲線

圖片

對于線性可分數(shù)據(jù),我們可以進行線性回歸或邏輯回歸,二者都可以作為決策邊界曲線/線。但是,在邏輯回歸的情況下,由于通常只有 2 個類別,因此具有線性直線決策邊界可能不起作用,在一條直線上值從低到高非常均勻地上升,因為它不夠陡峭在值突然上升后會得到很多臨界的高值或者低值,最終會錯誤分類。因此,"邊界"區(qū)域,即概率從高到低轉變的區(qū)域并不真正存在。所以一般情況下會應用 sigmoid 變換將其轉換為 sigmoid 曲線,該曲線在極端情況下是平滑的,在中間幾乎是線性的。

圖片

08支持向量機(幾何理解)

圖片

09標準正態(tài)分布規(guī)則(z-分布)

均值為0,標準差為1的特殊正態(tài)分布。圖片

經(jīng)驗法則指出,按照正態(tài)分布觀察到的數(shù)據(jù)中有 99.7% 位于平均值的 3 個標準差以內。根據(jù)該規(guī)則,68% 的數(shù)據(jù)在一個標準差內,95% 在兩個標準差內,99.7% 在三個標準差內。10學生T分布T 分布(也稱為學生 T 分布)是一系列分布,看起來幾乎與正態(tài)分布曲線相同,只是更短和更寬/更胖。當我們有較小的樣本時,我們使用 T分布而不是正態(tài)分布。樣本量越大,t 分布越像正態(tài)分布。事實上,在 30 個樣本之后,T 分布幾乎與正態(tài)分布完全一樣。

圖片

總結

我們可能會遇到許多小而關鍵的概念,這些概念構成了我們做出決定或選擇正確模型的基礎。本文中提到的重要概念都可以通過相關的圖表進行表示,這些概念是非常重要的,需要我們在看到其第一眼時就知道他的含義,如果你已經(jīng)對上面的概念都掌握了,那么可以試試說明下圖代表了什么:

圖片

責任編輯:張燕妮 來源: 數(shù)倉寶貝庫
相關推薦

2021-03-03 10:39:11

容器微服務IT

2023-10-13 00:00:00

設計模式GO語言

2020-07-10 07:58:14

Linux

2022-08-19 10:31:32

Kafka大數(shù)據(jù)

2024-08-09 09:09:14

深度學習神經(jīng)元網(wǎng)絡

2018-10-26 14:10:21

2024-11-15 11:11:48

2023-05-08 15:25:19

Python編程語言編碼技巧

2023-04-20 14:31:20

Python開發(fā)教程

2024-01-03 07:56:50

2024-01-09 13:58:22

PandasPython數(shù)據(jù)分析

2022-05-18 09:01:19

JSONJavaScript

2020-08-23 18:18:27

Python列表數(shù)據(jù)結構

2019-11-06 10:56:59

Python數(shù)據(jù)分析TGI

2011-07-08 16:37:20

2021-04-15 10:01:18

Sqlite數(shù)據(jù)庫數(shù)據(jù)庫知識

2021-06-09 11:06:00

數(shù)據(jù)分析Excel

2022-07-29 16:28:19

Kubernetes通信服務通信

2022-09-28 08:40:04

殺死一個終端進程

2024-01-23 18:49:38

SQL聚合函數(shù)數(shù)據(jù)分析
點贊
收藏

51CTO技術棧公眾號