自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

15種常見的數(shù)據(jù)科學技術

大數(shù)據(jù) 數(shù)據(jù)分析
以下將更深入地研究數(shù)據(jù)科學家使用的常見統(tǒng)計和分析技術。其中一些數(shù)據(jù)科學技術植根于數(shù)世紀的數(shù)學和統(tǒng)計工作,而另一些技術則相對較新,利用了機器學習、深度學習和其他形式的高級分析的研究成果。

數(shù)據(jù)科學技術如今已在許多組織中占有一席之地,數(shù)據(jù)科學家正迅速成為以數(shù)據(jù)為中心的組織最受歡迎的角色之一。數(shù)據(jù)科學的應用程序利用機器學習等技術和大數(shù)據(jù)的力量來獲取深入的見解和新的功能,其中包括預測分析、圖像和對象識別、會話人工智能系統(tǒng)等。

事實上,那些沒有在數(shù)據(jù)科學上進行充分投資的組織可能很快落后于在數(shù)據(jù)科學方面獲得顯著競爭優(yōu)勢的競爭對手。

[[375319]]

數(shù)據(jù)科學家可以做些什么以提供這種變革性的業(yè)務收益?數(shù)據(jù)科學領域是一些關鍵要素的集合:準確提取可量化數(shù)據(jù)的統(tǒng)計和數(shù)學方法;使用先進的分析技術和方法從科學角度解決數(shù)據(jù)分析的技術和算法,有助于處理大型數(shù)據(jù)集;以及可以幫助將大量數(shù)據(jù)整理成獲得高質(zhì)量見解的所需格式的工具和方法。

以下將更深入地研究數(shù)據(jù)科學家使用的常見統(tǒng)計和分析技術。其中一些數(shù)據(jù)科學技術植根于數(shù)世紀的數(shù)學和統(tǒng)計工作,而另一些技術則相對較新,利用了機器學習、深度學習和其他形式的高級分析的研究成果。

數(shù)據(jù)科學如何發(fā)現(xiàn)數(shù)據(jù)之間的關系

當識別大量數(shù)據(jù)中的信息時,數(shù)據(jù)科學家首先需要辨別不同的數(shù)據(jù)元素如何相互關聯(lián)。例如,如果在一張圖上繪制了一堆數(shù)據(jù)點,那么如何知道它們是否有意義?

數(shù)據(jù)科學家最廣泛使用的有三種統(tǒng)計和分析技術。也許數(shù)據(jù)表示兩個或多個變量之間的關系,而其工作是繪制某種最能描述這種關系的曲線或多維平面?;蛘撸砭哂心撤N親和力的集群。其他數(shù)據(jù)可能代表不同的類別。通過發(fā)現(xiàn)這些關系,可以使數(shù)據(jù)的其他隨機性具有意義,然后可以對其進行分析和可視化,以提供組織可以用來制定決策或計劃策略的信息。

以下了解可用于執(zhí)行分析的各種數(shù)據(jù)科學技術和方法:

分類技術

在分類問題中,數(shù)據(jù)科學家要回答的首要問題是:“這些數(shù)據(jù)屬于什么類別?”將數(shù)據(jù)分類的原因很多。也許數(shù)據(jù)是手繪的圖像,人們需要知道圖像代表什么字母或數(shù)字?;蛘叽碣J款申請的數(shù)據(jù),想知道它應該屬于“已批準”還是“已拒絕”類別。其他分類可以集中在確定患者治療方案或電子郵件是否是垃圾郵件。

數(shù)據(jù)科學家用來將數(shù)據(jù)過濾到類別中的算法和方法包括:

  • 決策樹。這些是分支邏輯結構,使用機器生成的參數(shù)和數(shù)值樹將數(shù)據(jù)分類為已定義的類別。
  • 貝葉斯分類器。利用概率的力量,貝葉斯分類器可以幫助將數(shù)據(jù)分為簡單的類別。
  • 支持向量機(SVM)。支持向量機的目標是繪制一條寬邊距的曲線或平面,將數(shù)據(jù)分成不同的類別。
  • K-近鄰算法。該技術使用一種簡單的“惰性決策”方法,根據(jù)數(shù)據(jù)集中最鄰近的類別來確定數(shù)據(jù)點應該屬于哪個類別。
  • 邏輯回歸。盡管使用了分類技術,但它使用將數(shù)據(jù)擬合到一條線的想法來區(qū)分每一邊的不同類別。這條線的形狀使數(shù)據(jù)可以移至某個類別。
  • 神經(jīng)網(wǎng)絡。這種方法使用訓練有素的人工神經(jīng)網(wǎng)絡,尤其是具有多個隱藏層的深度學習網(wǎng)絡。神經(jīng)網(wǎng)絡已經(jīng)顯示出強大的分類能力,其中包含大量的訓練數(shù)據(jù)。

回歸技術

如果不知道數(shù)據(jù)屬于哪一類,而是想知道不同數(shù)據(jù)點之間的關系該怎么辦?回歸的主要思想是回答以下問題:“這個數(shù)據(jù)的預測值是多少?”一個簡單的概念來自“均值回歸”的統(tǒng)計概念,它可以是一個獨立變量和一個因變量之間的直接回歸,也可以是一個試圖找到多個變量之間關系的多維回歸。

例如決策樹支持向量機(SVM)和神經(jīng)網(wǎng)絡一些分類技術,也可以用來進行回歸。此外,數(shù)據(jù)科學家可以使用的回歸技術包括:

  • 線性回歸。作為數(shù)據(jù)科學中應用最廣泛的方法之一,這種方法試圖根據(jù)兩個變量之間的相關性找到最適合所分析數(shù)據(jù)的曲線。
  • 套索回歸。Lasso(套索)是“最小絕對收縮和選擇算符”的縮寫,是一種通過在最終模型中使用數(shù)據(jù)子集來提高線性回歸模型預測準確性的技術。
  • 多元回歸。這涉及尋找適合可能包含多個變量的多維數(shù)據(jù)的線或平面的不同方法。

聚類和關聯(lián)分析技術

另一組數(shù)據(jù)科學技術側(cè)重于回答這樣一個問題:“這些數(shù)據(jù)是如何分組的,不同的數(shù)據(jù)點屬于哪些組?”數(shù)據(jù)科學家可以發(fā)現(xiàn)相關數(shù)據(jù)點的聚類,這些數(shù)據(jù)點具有共同的各種特征,從而在分析應用程序中產(chǎn)生有用的信息。

可用于聚類用途的方法包括:

  • K-均值聚類。K-均值算法確定數(shù)據(jù)集中的一定數(shù)量的聚類,并找到“質(zhì)心”,以標識不同聚類的位置,并將數(shù)據(jù)點分配給最接近的聚類。
  • 均值漂移聚類。另一種基于質(zhì)心的聚類技術,它可以單獨使用,也可以通過移動指定的質(zhì)心來改進k-均值聚類。
  • DBSCAN。DBSCAN是“基于密度的帶噪空間聚類算法DBSCAN”的縮寫,是另一種發(fā)現(xiàn)聚類的技術,它使用一種更高級的方法來識別聚類的密度。
  • 高斯混合模型。高斯混合模型通過使用高斯分布將數(shù)據(jù)分組在一起而不是將數(shù)據(jù)視為奇點來幫助找到聚類。
  • 分層聚類。與決策樹類似,這種技術使用層次化的分支方法來查找聚類。

關聯(lián)分析是一種相關但獨立的技術。其背后的主要思想是找到描述不同數(shù)據(jù)點之間公共性的關聯(lián)規(guī)則。與聚類類似,人們正在尋找數(shù)據(jù)所屬的組。但是在這種情況下,試圖確定何時數(shù)據(jù)點一起出現(xiàn),而不是僅僅識別它們的集群。在聚類中,其目標是將大數(shù)據(jù)集劃分為可識別的組,而通過關聯(lián)分析,人們正在測量數(shù)據(jù)點之間的關聯(lián)程度。

數(shù)據(jù)科學應用實例

數(shù)據(jù)科學工具帶中的上述方法和技術需要適當?shù)貞糜谔囟ǖ姆治鰡栴}以及可用于解決這些問題的數(shù)據(jù)。優(yōu)秀的數(shù)據(jù)科學家必須能夠理解當前問題的本質(zhì)——是聚類、分類還是回歸?以及在給定數(shù)據(jù)特征的情況下可以產(chǎn)生所需答案的最佳算法。這就是數(shù)據(jù)科學實際上是一個科學過程而不是具有嚴格規(guī)則的過程,并允許通過編程解決問題的原因。

使用這些技術,數(shù)據(jù)科學家可以處理廣泛的應用程序,其中許多應用程序通常出現(xiàn)在不同類型的行業(yè)和組織中。以下是一些例子:

  • 異常檢測。如果可以找到預期或正常數(shù)據(jù)的模式,那么也可以找到那些不符合模式的數(shù)據(jù)點。金融服務、醫(yī)療保健、零售和制造業(yè)等行業(yè)組織經(jīng)常采用各種數(shù)據(jù)科學方法來識別其數(shù)據(jù)中的異常情況,以用于欺詐檢測、客戶分析、網(wǎng)絡安全和IT系統(tǒng)監(jiān)控。異常檢測還可以用來消除數(shù)據(jù)集中的異常值,以提高分析的準確性。
  • 二分類和多分類。分類技術的一個主要應用是確定某物是否屬于某一特定類別。這就是所謂的二分類,因為人們可能會問諸如“圖片中是否有貓?”之類的問題。實際的業(yè)務應用是使用圖像識別在大量文件中識別合同或發(fā)票。在多類分類中,在數(shù)據(jù)集中有許多不同的類別,正在努力尋找最適合數(shù)據(jù)點的類別。例如,美國勞工統(tǒng)計局會對工傷進行自動分類。
  • 個性化。希望與客戶進行個性化交互或向客戶推薦產(chǎn)品和服務的組織首先需要將數(shù)據(jù)分組到具有共享特征的數(shù)據(jù)桶中。有效的數(shù)據(jù)科學工作可以使用推薦引擎和超個性化系統(tǒng)等技術,根據(jù)個人的具體需求和喜好量身來定制網(wǎng)站,推銷產(chǎn)品及更多內(nèi)容,這些技術是通過匹配人員詳細資料中的數(shù)據(jù)來驅(qū)動的。

這只是數(shù)據(jù)科學應用程序的一些示例。通過采用數(shù)據(jù)分析的各種工具和方法,數(shù)據(jù)科學家可以幫助使用它們的組織獲得戰(zhàn)略和競爭優(yōu)勢。

 

責任編輯:趙寧寧 來源: 企業(yè)網(wǎng)D1Net
相關推薦

2020-12-31 06:18:08

人工智能物聯(lián)網(wǎng)大數(shù)據(jù)

2021-05-10 11:33:11

數(shù)字化

2016-12-16 11:56:56

大數(shù)據(jù)數(shù)據(jù)科學

2021-01-10 11:19:04

數(shù)據(jù)科學工具技術

2020-03-19 22:16:05

數(shù)據(jù)概率分布Python實現(xiàn)

2021-04-26 08:28:55

數(shù)據(jù)科學機器學習數(shù)據(jù)科學工具

2017-02-13 12:54:00

大數(shù)據(jù)人工智能技術

2017-11-23 14:14:17

CDCC 數(shù)據(jù)中心

2020-04-22 15:14:48

華為

2019-08-01 11:27:46

數(shù)據(jù)復制數(shù)據(jù)源中間層

2018-06-29 16:00:56

數(shù)據(jù)科學家數(shù)據(jù)清理數(shù)據(jù)分析

2023-03-28 00:04:42

2020-12-23 07:56:13

數(shù)據(jù)科學數(shù)據(jù)工程技術

2017-09-20 08:34:37

大數(shù)據(jù)技術開發(fā)者UI

2019-06-26 10:34:05

數(shù)據(jù)科學工具數(shù)據(jù)集

2010-01-26 20:54:14

備忘錄可持續(xù)發(fā)展思科

2015-03-27 17:22:20

智能客服

2021-10-15 17:05:39

阿里云網(wǎng)絡數(shù)據(jù)中心
點贊
收藏

51CTO技術棧公眾號