自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

大數(shù)據(jù)
數(shù)據(jù)科學(xué)、大數(shù)據(jù)、數(shù)據(jù)湖、人工智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、商業(yè)智能、商業(yè)分析……近些年,眾多的文章和言論都探討了上述術(shù)語。像往常一樣,當(dāng)某樣?xùn)|西變得流行時,它的概念、定義和限制就會逐漸消失。

數(shù)據(jù)科學(xué)、大數(shù)據(jù)、數(shù)據(jù)湖、人工智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、商業(yè)智能、商業(yè)分析……近些年,眾多的文章和言論都探討了上述術(shù)語。像往常一樣,當(dāng)某樣?xùn)|西變得流行時,它的概念、定義和限制就會逐漸消失。 

[[271031]]

如果你注冊了Linkedin還經(jīng)常使用的話,你能已經(jīng)注意到了,光看標(biāo)題越來越猜不出別人到底在做什么。我們已經(jīng)厭倦了眼花繚亂的科技詞匯和縮略詞,也越來越?jīng)]有費(fèi)心去了解它們的含義。 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

“但是你……你到底是做什么的?”

有趣的時刻來了……

  • 如果詢問者與你職位相同,你可以詳細(xì)解釋(或者你應(yīng)該能做到)。
  • 如果詢問者和你是一個部門的,你可能會假設(shè)他知道你使用的所有技術(shù),并給出解釋,但你可能會解釋不清。
  • 詢問者和你從事的領(lǐng)域不同:那么考驗(yàn)?zāi)愕臅r候到了。尤其是他開始問你問題的時候……
  • 要是你不得不向你的祖母解釋呢? 
這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

有一句“名言”(作者被誤傳為阿爾伯特·愛因斯坦)是這樣說的:

  • 如果你能向你的祖母解釋清楚一件事,那你才是真的理解了。
  • 另一種說法說的是6歲的孩子而不是祖母,但如果我們要說的是技術(shù),那還是祖母吧。

1. 數(shù)據(jù)科學(xué)(DS)

簡單定義為:數(shù)據(jù)科學(xué)是從數(shù)據(jù)中提取有用知識的一系列技能和技術(shù)。

這些技能通常用德魯·康威(Drew Conway)創(chuàng)造的維恩圖(或它的變體)來表示: 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

三個圓圈分別代表三個不同的領(lǐng)域:編程領(lǐng)域(語言知識、語言庫、設(shè)計模式、體系結(jié)構(gòu)等);數(shù)學(xué)(代數(shù)、微積分等)和統(tǒng)計學(xué)領(lǐng)域;數(shù)據(jù)領(lǐng)域(特定領(lǐng)域的知識:醫(yī)療、金融、工業(yè)等)。

這些領(lǐng)域共同構(gòu)成了定義中的技能和技術(shù)。它們包括獲取數(shù)據(jù)、數(shù)據(jù)清理、數(shù)據(jù)分析、創(chuàng)建假設(shè)、算法、機(jī)器學(xué)習(xí)、優(yōu)化、結(jié)果可視化等等。

數(shù)據(jù)科學(xué)匯集了這些領(lǐng)域和技能,支持和改進(jìn)了從原始數(shù)據(jù)中提取見解和知識的過程。 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

什么是“有用的知識”?就是可以具有某種價值、可以回答或解決現(xiàn)實(shí)世界中問題的知識。

數(shù)據(jù)科學(xué)也可以定義為:研究應(yīng)用數(shù)據(jù)處理和分析方面的進(jìn)展,為我們提供解決方法和答案的領(lǐng)域。

2. 大數(shù)據(jù)

這個解釋起來就簡單了:大數(shù)據(jù)就是大量的數(shù)據(jù)。

要定義大數(shù)據(jù),通常會用3V來解釋,這是產(chǎn)生大數(shù)據(jù)的3個主要原因: 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!
  • 容量:收集的數(shù)據(jù)量每分鐘都在巨幅增長,我們需要使用分布式解決方案(使用多臺機(jī)器,而不是非常非常昂貴的超級計算機(jī)/主機(jī))來調(diào)整我們的存儲和處理工具以適應(yīng)該容量。
  • 速度:處理數(shù)據(jù)的緊急程度與產(chǎn)生/獲取數(shù)據(jù)的頻率相關(guān),還與決策中迫切使用數(shù)據(jù)的需求有關(guān);即使是實(shí)時(或者幾乎實(shí)時)。
  • 種類:數(shù)據(jù)不再(僅)是結(jié)構(gòu)化的,所以我們得忘記適用于傳統(tǒng)數(shù)據(jù)庫的東西。我們必須為添加各種格式的新數(shù)據(jù)源做準(zhǔn)備;純文本和多媒體內(nèi)容都包括在內(nèi)。

之后更多V被添加進(jìn)來:真實(shí)性 (數(shù)據(jù)必須真實(shí)、可靠、可用)、價值(數(shù)據(jù)應(yīng)有商業(yè)或社會價值)、易損性(數(shù)據(jù)必須合法、尊重隱私,并以安全的方式存儲和訪問)。

大數(shù)據(jù)可能是解決這些問題的方案。不要把它和本文解釋的***個概念混淆了:大數(shù)據(jù)就是實(shí)現(xiàn)或促進(jìn)應(yīng)用數(shù)據(jù)科學(xué)領(lǐng)域先進(jìn)技術(shù)的事物,是數(shù)據(jù)的本質(zhì)要求。例如,作為數(shù)據(jù)科學(xué)家,我們試圖從數(shù)據(jù)集中得到答案。數(shù)據(jù)集不僅超過了RAM的大小,還超過了硬盤的大小。大數(shù)據(jù)為我們提供了跨多臺機(jī)器承載數(shù)據(jù)的分布式存儲技術(shù),以及并行處理數(shù)據(jù)的分布式處理技術(shù)。

3. 數(shù)據(jù)湖

數(shù)據(jù)湖是一個集中存儲庫,用于存儲各種數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)(我們填入表格的數(shù)據(jù))、半結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)幾乎符合所有格式:CSV,日志,JSON,XML等)和非結(jié)構(gòu)化數(shù)據(jù)(文檔、電子郵件、PDF、圖片、視頻、音頻等)。數(shù)據(jù)是在公司內(nèi)部生成的還是在公司外部生成的并不重要。

“集中”意味著一切都將存儲在同一個地方,每個人都將訪問那兒獲取數(shù)據(jù)。這并不是說所有的數(shù)據(jù)都在同一個機(jī)器里或公司里;分布式存儲將成為一種慣例,數(shù)據(jù)還可以儲存在云端。 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

不要忽略一個重要的細(xì)節(jié):數(shù)據(jù)是以原始格式存儲的,沒有進(jìn)行任何更改。這意味著未來進(jìn)行分析時信息都是完整的;數(shù)據(jù)只有在使用時才會被處理和轉(zhuǎn)換。此外,把魚煮熟了再放回湖里有什么意義呢? :)

4. 人工智能

機(jī)器能思考嗎?

1950年,艾倫·圖靈(Alan Turing)提出了這個問題,他甚至發(fā)明了一個著名的測試,來評估機(jī)器給出的答案是否與人類的答案相似。從那以后,對人工智能的幻想就開始了,重點(diǎn)在于模仿人類行為。 

[[271034]]

你做過那個測試嗎?

人工智能不是《銀翼殺手》中的復(fù)制人,也不是《太空堡壘卡拉狄加》中的賽昂人。我們可以把人工智能定義為任何具有某種智能行為的機(jī)器或軟件。

什么是智能行為?

問得好!這就是有分歧的地方。隨著機(jī)器不斷被開發(fā)出新功能,以前被認(rèn)為是智能的任務(wù)也從人工智能環(huán)境中剝離了出來。 

[[271035]]

我們可將人工智能定義為能夠從其環(huán)境中正確解釋數(shù)據(jù)、從中學(xué)習(xí),并在不斷變化的環(huán)境中使用所獲得的知識來執(zhí)行特定任務(wù)的機(jī)器或軟件。

例如:一輛會自行停車的汽車不是智能汽車;它只是按照常規(guī)測量距離和移動。我們認(rèn)為能夠自動駕駛的汽車就是智能的,因?yàn)樗軌蚋鶕?jù)周邊發(fā)生的事件(在完全不確定的環(huán)境中)做出決定。

人工智能領(lǐng)域包括幾個分支,它們目前正處于鼎盛時期。將其可視化后就能準(zhǔn)確地知道我們在說什么: 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

5. 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是一項(xiàng)使用數(shù)據(jù)探索技術(shù)發(fā)現(xiàn)一些有趣(而不明顯)的模式的技術(shù)。

什么模式?例如:根據(jù)某些特征對數(shù)據(jù)進(jìn)行分組的方式、異常檢測(罕見值)、某些觀察值與其他值之間的相關(guān)性、某些事件的連續(xù)性、行為的識別等。 

[[271036]]

數(shù)據(jù)挖掘使用機(jī)器學(xué)習(xí)等方法。

6. 機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是人工智能最重要的分支。它的任務(wù)是:研究和開發(fā)技術(shù),使機(jī)器能夠在沒有人類明確指令的情況下自學(xué),從而執(zhí)行特定的任務(wù)。

機(jī)器將從輸入數(shù)據(jù)集(稱為樣本或訓(xùn)練數(shù)據(jù))中學(xué)習(xí),根據(jù)算法檢測到的模式建立數(shù)學(xué)模型。該模型的最終目標(biāo)是對之后來自相同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行(準(zhǔn)確的)預(yù)測或決策。

傳統(tǒng)的機(jī)器學(xué)習(xí)主要有兩種類型:

  • 監(jiān)督學(xué)習(xí):當(dāng)訓(xùn)練數(shù)據(jù)被“標(biāo)記”時。這意味著,對于每個樣本,我們都有與觀察到的變量(輸入)和我們想要學(xué)習(xí)預(yù)測或分類的變量(輸出、目標(biāo)或因變量)相對應(yīng)的值。在這種類型中,我們找到了回歸算法(預(yù)測數(shù)值的算法)和分類算法(輸出僅限于某些分類值時)。
  • 無監(jiān)督學(xué)習(xí):當(dāng)訓(xùn)練數(shù)據(jù)沒有標(biāo)記時(我們沒有目標(biāo)變量)。這里的目標(biāo)是找到某種結(jié)構(gòu)或模式,例如對訓(xùn)練樣本進(jìn)行分組,這樣我們就可以對未來的樣本進(jìn)行分類。

傳統(tǒng)的機(jī)器學(xué)習(xí)已經(jīng)讓位于更復(fù)雜或更現(xiàn)代的學(xué)習(xí)類型:

  • 集成方法:基本上是幾種算法聯(lián)合使用,將它們的結(jié)果結(jié)合起來以獲取更好的結(jié)果。盡管XGBoost憑借在Kaggle的勝利而得名,但最常見的例子還是隨機(jī)森林。
  • 強(qiáng)化學(xué)習(xí):機(jī)器通過反復(fù)試誤來學(xué)習(xí),這得益于它對周圍環(huán)境的迭代做出的反饋。你可能聽說過AlphaGo或AlphaStar(在《星際爭霸2》中實(shí)力碾壓人類)。
  • 深度學(xué)習(xí):皇冠上的寶石……

7. 深度學(xué)習(xí)

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個子領(lǐng)域。 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

它基于人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)是一個計算模型,具有分層結(jié)構(gòu),由相互連接的節(jié)點(diǎn)共同工作而形成。這個名字的靈感來自(或試圖模仿)大腦的生物神經(jīng)網(wǎng)絡(luò)。 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

雖然神經(jīng)網(wǎng)絡(luò)已經(jīng)被研究和使用多年,但該領(lǐng)域的進(jìn)展一直很緩慢;主要是限于計算能力不足。盡管深度學(xué)習(xí)近些年來取得蓬勃發(fā)展,這多少要?dú)w功于神經(jīng)網(wǎng)絡(luò)訓(xùn)練采用了CPU,但其開始不過才十年。

人們普遍認(rèn)為:任何機(jī)器學(xué)習(xí)問題,無論多么復(fù)雜,都可以通過神經(jīng)網(wǎng)絡(luò)解決,只要把它做得足夠大就行了。如今,深度學(xué)習(xí)的發(fā)展帶動了人工智能其他領(lǐng)域的發(fā)展;無論是更傳統(tǒng)的領(lǐng)域(改善獲得的結(jié)果),還是***的領(lǐng)域:自然語言處理、人工視覺、語音識別、逼真多媒體內(nèi)容的生成等。

8. 商業(yè)智能(BI)

這個術(shù)語指在公司內(nèi)部使用數(shù)據(jù),幫助經(jīng)理做出決策。

BI工具(報告、儀表板)告訴我們發(fā)生了什么,因此基于這些工具的決策將是被動的。 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!
一個隨機(jī)儀表板

9. 商業(yè)分析(BA)

它是傳統(tǒng)商業(yè)智能的進(jìn)化,利用大數(shù)據(jù)的進(jìn)步,使企業(yè)能夠探索數(shù)據(jù),并與更多的數(shù)據(jù)交互,這些數(shù)據(jù)不限類型不限來源;所有這些(幾乎)都是實(shí)時的。它還利用了數(shù)據(jù)科學(xué)領(lǐng)域的進(jìn)步,因此從數(shù)據(jù)中獲得的發(fā)現(xiàn)將更有價值。

BA工具告知我們過去和現(xiàn)在發(fā)生的;它們也會根據(jù)我們的行為預(yù)測未來,甚至模擬可能的未來。因此,所做的決定可能是主動的,而不是被動的。 

這樣解釋數(shù)據(jù)科學(xué),奶奶輩也聽得懂!

BA的目的是使整個公司都能從這些發(fā)現(xiàn)中受益,這意味著公司在所有領(lǐng)域都能做出更好(和更快)的決策。

 

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2015-10-16 09:19:12

2018-12-06 10:50:28

Android快應(yīng)用

2015-06-05 10:13:22

程序員信任

2023-06-14 15:08:11

GPT-4工作

2016-07-15 10:44:56

座席 管理

2018-07-20 17:05:43

IT架構(gòu)云計算數(shù)據(jù)中心

2020-08-14 09:04:34

分布式事務(wù)

2019-07-01 05:02:34

IP地址子網(wǎng)掩碼 網(wǎng)關(guān)

2021-02-22 02:25:36

中間人攻擊加密網(wǎng)絡(luò)安全

2021-07-21 07:55:22

技術(shù)

2015-08-12 14:03:17

2013-08-22 10:28:50

.NET MVC.NETRazor

2020-07-09 10:21:03

網(wǎng)絡(luò)排錯TCPIP

2022-03-07 17:45:50

敏捷開發(fā)

2021-03-04 20:25:20

神經(jīng)網(wǎng)絡(luò)AI人工智能

2017-12-18 10:50:14

數(shù)據(jù)科學(xué)家人工智能自動化

2025-04-14 00:00:00

MCPjson 信息地理編碼

2016-04-25 10:47:49

源碼閱讀學(xué)習(xí)

2017-04-12 10:15:21

大數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)分析

2023-10-18 13:15:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號