自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)簡(jiǎn)介:分?jǐn)?shù)據(jù)、結(jié)構(gòu)和數(shù)據(jù)科學(xué)管道(一)

大數(shù)據(jù)
本文探討了一種用于機(jī)器學(xué)習(xí)的通用數(shù)據(jù)管道,其中涵蓋了數(shù)據(jù)工程、模型學(xué)習(xí)和操作。本系列的下一篇文章將探討使用公有數(shù)據(jù)集進(jìn)行預(yù)測(cè)的兩種機(jī)器學(xué)習(xí)模型。

數(shù)據(jù)是一種商品,但是,如果無(wú)法處理數(shù)據(jù),數(shù)據(jù)的價(jià)值就值得懷疑。數(shù)據(jù)科學(xué)是一個(gè)多學(xué)科領(lǐng)域,其目的是從所有形式的數(shù)據(jù)中提取價(jià)值。本文從數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)以及可用于將數(shù)據(jù)轉(zhuǎn)換為價(jià)值的高級(jí)流程方面來(lái)探討數(shù)據(jù)科學(xué)領(lǐng)域。

數(shù)據(jù)科學(xué)是一個(gè)流程。這并不是說(shuō)數(shù)據(jù)是機(jī)械的,缺乏創(chuàng)造力的。但是,當(dāng)您深入到數(shù)據(jù)處理的各個(gè)階段,從再加工數(shù)據(jù)源和清理數(shù)據(jù)到機(jī)器學(xué)習(xí)及最終的可視化,您就會(huì)看到將原始數(shù)據(jù)轉(zhuǎn)換為洞察過(guò)程中涉及到一些獨(dú)特步驟。

您采用的步驟可能也會(huì)有所不同(參見(jiàn)圖 1)。在探索性數(shù)據(jù)分析中,您可能有一個(gè)已清理好的、準(zhǔn)備導(dǎo)入 R 中的數(shù)據(jù)集,您將您的結(jié)果可視化,但不會(huì)將模型部署到生產(chǎn)環(huán)境中。在另一個(gè)環(huán)境中,您可能處理真實(shí)的數(shù)據(jù),除了數(shù)據(jù)擴(kuò)展和準(zhǔn)備之外,您還需要一個(gè)數(shù)據(jù)合并和清理流程,然后才能訓(xùn)練您的機(jī)器學(xué)習(xí)模型。

圖 1. 數(shù)據(jù)科學(xué)管道

 

讓我們首先分析一下數(shù)據(jù)科學(xué)管道的元素,以了解該流程。

數(shù)據(jù)及其結(jié)構(gòu)

數(shù)據(jù)有多種形式,但總體上講,它可以分為 3 類(lèi):結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化(參見(jiàn)圖 2)。結(jié)構(gòu)化數(shù)據(jù)是組織結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù),存在于諸如數(shù)據(jù)庫(kù)(或逗號(hào)分隔值 [CSV] 文件)之類(lèi)的存儲(chǔ)庫(kù)中。這類(lèi)數(shù)據(jù)可以輕松訪問(wèn),而且數(shù)據(jù)的格式使其適用于查詢(xún)和計(jì)算(通過(guò)使用結(jié)構(gòu)化查詢(xún)語(yǔ)言 (SQL) 或 Apache™ Hive™ 等語(yǔ)言)。非結(jié)構(gòu)化數(shù)據(jù)根本沒(méi)有任何內(nèi)容結(jié)構(gòu)(例如音頻流或自然語(yǔ)言文本)。介于它們之間的是半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)可能包括元數(shù)據(jù),或者可通過(guò)使用語(yǔ)義標(biāo)簽比非結(jié)構(gòu)化數(shù)據(jù)更輕松地進(jìn)行處理的數(shù)據(jù)。這類(lèi)數(shù)據(jù)不是完全結(jié)構(gòu)化的,因?yàn)樽畹图?jí)的內(nèi)容可能仍是需要經(jīng)過(guò)某種處理才有用的數(shù)據(jù)。

圖 2. 數(shù)據(jù)模型

 

結(jié)構(gòu)化數(shù)據(jù)是最有用的數(shù)據(jù)形式,因?yàn)榭梢灾苯訉?duì)它進(jìn)行處理。根據(jù)約略的估計(jì),結(jié)構(gòu)化數(shù)據(jù)僅占總數(shù)據(jù)的 20%。全球的大部分?jǐn)?shù)據(jù)(80% 的可用數(shù)據(jù))是非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。

請(qǐng)注意,定義為非結(jié)構(gòu)化數(shù)據(jù)的大部分?jǐn)?shù)據(jù)實(shí)際上都擁有結(jié)構(gòu)(比如一個(gè)包含元數(shù)據(jù)和內(nèi)容標(biāo)簽的文檔),但內(nèi)容本身缺乏結(jié)構(gòu),而且無(wú)法直接使用。因此,它們被視為非結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)工程

2016 年的一次調(diào)查發(fā)現(xiàn),數(shù)據(jù)科學(xué)家花了 80% 的時(shí)間來(lái)收集、清理和準(zhǔn)備要用在機(jī)器學(xué)習(xí)中的數(shù)據(jù)。剩余 20% 時(shí)間花費(fèi)在使用機(jī)器學(xué)習(xí)算法來(lái)挖掘數(shù)據(jù)或?yàn)閿?shù)據(jù)建模上。盡管這是該流程最無(wú)趣的部分,但這種數(shù)據(jù)工程非常重要,而且會(huì)影響從機(jī)器學(xué)習(xí)階段得到的結(jié)果的質(zhì)量。

我將數(shù)據(jù)工程分為 3 個(gè)部分:整理、清理和準(zhǔn)備??紤]到此階段涉及的工作單調(diào)乏味,一些人將此流程稱(chēng)為數(shù)據(jù)再加工。

數(shù)據(jù)整理

數(shù)據(jù)整理流程的簡(jiǎn)單定義是,處理原始數(shù)據(jù),讓數(shù)據(jù)可用于數(shù)據(jù)分析或訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型。數(shù)據(jù)工程的這部分可能包括從一個(gè)或多個(gè)數(shù)據(jù)集獲取數(shù)據(jù)(并將數(shù)據(jù)集精簡(jiǎn)為所需的數(shù)據(jù)),規(guī)范化數(shù)據(jù)以便從多個(gè)數(shù)據(jù)集合并的數(shù)據(jù)能夠保持一致,并將數(shù)據(jù)解析到某種結(jié)構(gòu)或存儲(chǔ)系統(tǒng)中供進(jìn)一步使用??紤]來(lái)自一個(gè)聯(lián)邦開(kāi)放數(shù)據(jù)網(wǎng)站的公有數(shù)據(jù)集。此數(shù)據(jù)可能以電子表格文件形式存在,您需要將其導(dǎo)出為更容易被數(shù)據(jù)科學(xué)語(yǔ)言(CSV 或 JavaScript Object Notation)接受的格式。該數(shù)據(jù)源也可能是一個(gè)網(wǎng)站,自動(dòng)化工具可從中抓取數(shù)據(jù)。最后,該數(shù)據(jù)可能來(lái)自多個(gè)來(lái)源,這要求您為結(jié)果數(shù)據(jù)集選擇一種通用格式。

這個(gè)結(jié)果數(shù)據(jù)集可能需要進(jìn)行后期處理,以便支持將其導(dǎo)入到分析應(yīng)用程序中(比如 R Project for Statistical Computing、GNU Data Language 或 Apache Hadoop)。然后,您可以通過(guò)數(shù)據(jù)整理流程來(lái)識(shí)別、收集、合并和預(yù)處理一個(gè)或多個(gè)數(shù)據(jù)集,為數(shù)據(jù)清理做好準(zhǔn)備。

數(shù)據(jù)清理

收集和合并數(shù)據(jù)集后,下一步是清理數(shù)據(jù)。未經(jīng)處理的數(shù)據(jù)集通常是雜亂的,存在許多常見(jiàn)問(wèn)題,包括缺少值(或太多值)、糟糕的或錯(cuò)誤的分隔符(用于分隔數(shù)據(jù))、不一致的記錄,或者不夠充足的參數(shù)。在一些情況下,數(shù)據(jù)無(wú)法修復(fù),因此必須刪除數(shù)據(jù);在其他情況下,可以手動(dòng)或自動(dòng)更正數(shù)據(jù)。

當(dāng)數(shù)據(jù)集的語(yǔ)法正確時(shí),下一步就是確保它的語(yǔ)義也正確。在包含數(shù)字?jǐn)?shù)據(jù)的數(shù)據(jù)集中,有一些需要更仔細(xì)地檢查的異常值??梢酝ㄟ^(guò)統(tǒng)計(jì)分析,查看均值、平均值,以及標(biāo)準(zhǔn)差來(lái)發(fā)現(xiàn)這些異常值。搜索異常值是一種輔助的清理方法,旨在確保數(shù)據(jù)統(tǒng)一且準(zhǔn)確。

數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)工程中的最后一步是數(shù)據(jù)準(zhǔn)備(或預(yù)處理)。這一步假設(shè)您有一個(gè)已清理的數(shù)據(jù)集,它可能未準(zhǔn)備好供機(jī)器學(xué)習(xí)算法進(jìn)行處理。下面給出了兩個(gè)可以應(yīng)用此準(zhǔn)備的示例。

在某些情況下,數(shù)據(jù)規(guī)范化可能很有用。通過(guò)使用規(guī)范化,您可以轉(zhuǎn)換一個(gè)輸入特征,將數(shù)據(jù)均勻分布到一個(gè)機(jī)器學(xué)習(xí)算法可接受的范圍內(nèi)。此任務(wù)可以像線性擴(kuò)展一樣簡(jiǎn)單(從一個(gè)任意的范圍,給定一個(gè)從 -1.0 到 1.0 的域最小值和最大值)。您也可以應(yīng)用更復(fù)雜的統(tǒng)計(jì)方法。數(shù)據(jù)規(guī)范化可以幫您避免在訓(xùn)練過(guò)程中卡在局部最優(yōu)值上(在神經(jīng)網(wǎng)絡(luò)環(huán)境中)。

另一種有用的數(shù)據(jù)準(zhǔn)備技術(shù)是將類(lèi)別數(shù)據(jù)轉(zhuǎn)換為數(shù)字值。可以考慮這樣一個(gè)數(shù)據(jù)集,其中包含一組表示某個(gè)特征的符號(hào)(比如 {T0..T5})。作為一個(gè)字符串,這無(wú)法用作神經(jīng)網(wǎng)絡(luò)的輸入,但可以使用 one-of-K 模式(也稱(chēng)為獨(dú)熱編碼)來(lái)轉(zhuǎn)換它。

在這種模式中(如圖 3 所示),您識(shí)別特征的符號(hào)數(shù)量(在本例中為 6),然后創(chuàng)建 6 個(gè)特征來(lái)表示原始字段。對(duì)于每個(gè)符號(hào),都只設(shè)置一個(gè)特征,這樣就可以正確地表示該符號(hào)的不同元素。這樣做的代價(jià)是增加了維度,但通過(guò)這么做,可以提供一個(gè)更適合機(jī)器學(xué)習(xí)算法的特征矢量。

圖 3. 將字符串轉(zhuǎn)換為一個(gè)獨(dú)熱矢量

 

一種替代方法是整數(shù)編碼(其中 T0 可以為值 0,T1 為值 1,依此類(lèi)推),但這種方法可能引入表示問(wèn)題。例如,在實(shí)值輸出中,0.5 表示什么?

機(jī)器學(xué)習(xí)

在此階段,您將創(chuàng)建并驗(yàn)證一個(gè)機(jī)器學(xué)習(xí)模型。有時(shí),機(jī)器學(xué)習(xí)模型是一款產(chǎn)品,它被部署在應(yīng)用程序的上下文中來(lái)提供某種功能(比如分類(lèi)或預(yù)測(cè))。在其他情況下,機(jī)器學(xué)習(xí)算法只是一種實(shí)現(xiàn)目標(biāo)的方法。在這些情況下,該產(chǎn)品不是經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)算法,而是它生成的數(shù)據(jù)。

本節(jié)將探討機(jī)器學(xué)習(xí)模型的構(gòu)造和驗(yàn)證。要進(jìn)一步了解如何利用數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),請(qǐng)參閱從干凈數(shù)據(jù)集中獲取寶貴洞察。

模型學(xué)習(xí)

數(shù)據(jù)科學(xué)管道的精髓是數(shù)據(jù)處理步驟。在一種模型中,算法可以處理數(shù)據(jù),提供一個(gè)新數(shù)據(jù)產(chǎn)品作為結(jié)果。但是,從生產(chǎn)意義上講,機(jī)器學(xué)習(xí)模型就是產(chǎn)品本身,它被部署來(lái)提供洞察或增加價(jià)值(比如部署一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)為保險(xiǎn)市場(chǎng)提供預(yù)測(cè)功能)。

機(jī)器學(xué)習(xí)方法多種多樣,如圖 4 所示。下面這個(gè)較小的機(jī)器學(xué)習(xí)算法列表(按學(xué)習(xí)模型分隔)演示了通過(guò)機(jī)器學(xué)習(xí)提供的功能的豐富程度。

圖 4. 機(jī)器學(xué)習(xí)方法

 

點(diǎn)擊查看大圖顧名思義,監(jiān)督學(xué)習(xí)由評(píng)價(jià)者驅(qū)動(dòng),提供了根據(jù)評(píng)論結(jié)果來(lái)修改模型的方法。給定一個(gè)包含某個(gè)類(lèi)(即依賴(lài)變量)的數(shù)據(jù)集,訓(xùn)練該算法來(lái)生成正確的類(lèi),并在未生成正確的類(lèi)時(shí)修改模型。訓(xùn)練模型,直到它達(dá)到一定的準(zhǔn)確度,此時(shí)您可以部署它來(lái)為未見(jiàn)過(guò)的數(shù)據(jù)提供預(yù)測(cè)。

相比之下,無(wú)監(jiān)督學(xué)習(xí)沒(méi)有類(lèi);它檢查數(shù)據(jù)并根據(jù)隱藏在數(shù)據(jù)中的某種結(jié)構(gòu)來(lái)進(jìn)行分組。您可以在推薦系統(tǒng)中應(yīng)用這些類(lèi)型的算法,根據(jù)查看或購(gòu)買(mǎi)歷史記錄對(duì)客戶(hù)進(jìn)行分組。

最后,強(qiáng)化學(xué)習(xí)是一種半監(jiān)督學(xué)習(xí)算法,在模型制定的一定數(shù)量的決策得到滿意結(jié)果時(shí)提供獎(jiǎng)勵(lì)。這種模型用于創(chuàng)建能在某種狀態(tài)/操作空間中進(jìn)行合理操作的代理(比如撲克牌代理)。

模型驗(yàn)證

訓(xùn)練一個(gè)模型后,它在生產(chǎn)中會(huì)如何表現(xiàn)?理解模型行為的一種方法是利用模型驗(yàn)證。一種常見(jiàn)的模型驗(yàn)證方法是保留少量可用的訓(xùn)練數(shù)據(jù),對(duì)最終模型進(jìn)行測(cè)試(這些數(shù)據(jù)被稱(chēng)為測(cè)試數(shù)據(jù))。您使用訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,在模型完成時(shí)使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證它對(duì)未見(jiàn)過(guò)的數(shù)據(jù)的概括程度(參見(jiàn)圖 5)。

圖 5. 用于模型驗(yàn)證的訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)

 

利用訓(xùn)練數(shù)據(jù)集構(gòu)造一個(gè)測(cè)試數(shù)據(jù)集可能很復(fù)雜。隨機(jī)采樣可能很有效,但也有可能帶來(lái)問(wèn)題。例如,隨機(jī)采樣是否會(huì)對(duì)給定的類(lèi)過(guò)度采樣,或者隨機(jī)采樣是否很好地覆蓋了該數(shù)據(jù)或其特征的所有潛在類(lèi)?按照某種分布對(duì)數(shù)據(jù)類(lèi)進(jìn)行隨機(jī)采樣,這樣可能有助于避免過(guò)擬合(即訓(xùn)練過(guò)于接近訓(xùn)練數(shù)據(jù))或欠擬合(即沒(méi)有建模訓(xùn)練數(shù)據(jù),而且缺乏概括能力)。

操作

操作是指數(shù)據(jù)科學(xué)管道的最終目標(biāo)。這個(gè)目標(biāo)可以像創(chuàng)建一個(gè)可視化的數(shù)據(jù)產(chǎn)品一樣簡(jiǎn)單,可以向一些受眾講述一個(gè)故事,或者回答在使用數(shù)據(jù)集訓(xùn)練一個(gè)模型之前創(chuàng)建的一些問(wèn)題?;蛘?,它可以像在生產(chǎn)環(huán)境中部署機(jī)器學(xué)習(xí)模型那樣復(fù)雜,處理未見(jiàn)過(guò)的數(shù)據(jù)來(lái)提供預(yù)測(cè)或分類(lèi)。本節(jié)將探討這兩種情況。

模型部署

當(dāng)機(jī)器學(xué)習(xí)階段的產(chǎn)品是一個(gè)您將用于未來(lái)數(shù)據(jù)的模型時(shí),將該模型部署到一個(gè)生產(chǎn)環(huán)境,以便將它應(yīng)用于新數(shù)據(jù)。此模型可以是一個(gè)預(yù)測(cè)系統(tǒng),它接受歷史財(cái)務(wù)數(shù)據(jù)(比如每月銷(xiāo)量和收入)作為輸入,并提供一個(gè)公司是否是合理的收購(gòu)目標(biāo)的分類(lèi)。

在類(lèi)似這樣的場(chǎng)景中,部署的模型通常不再是學(xué)習(xí)和簡(jiǎn)單地應(yīng)用數(shù)據(jù)進(jìn)行預(yù)測(cè)。有充分的理由來(lái)避免在生產(chǎn)中學(xué)習(xí)。在深度學(xué)習(xí)環(huán)境中(深層神經(jīng)網(wǎng)絡(luò)),已確定對(duì)抗性攻擊可能改變網(wǎng)絡(luò)的結(jié)果。例如,在一個(gè)圖像處理深度學(xué)習(xí)網(wǎng)絡(luò)中,對(duì)圖像應(yīng)用攝動(dòng)分析可以改變圖像的預(yù)測(cè)功能,這樣就不會(huì)“看到”一輛坦克,深度學(xué)習(xí)網(wǎng)絡(luò)看到的是一輛汽車(chē)。隨著深度學(xué)習(xí)的不斷應(yīng)用,對(duì)抗性攻擊也在增加,新的攻擊矢量是積極研究的一部分。

模型可視化

在較小規(guī)模的數(shù)據(jù)科學(xué)中,所尋求的產(chǎn)品是數(shù)據(jù),而不一定是機(jī)器學(xué)習(xí)階段產(chǎn)生的模型。此場(chǎng)景是數(shù)據(jù)科學(xué)管道中最常見(jiàn)的操作形式,其中的模型提供一種生產(chǎn)數(shù)據(jù)產(chǎn)品的方法,以回答關(guān)于原始數(shù)據(jù)集的某個(gè)問(wèn)題??梢暬x項(xiàng)豐富多樣,而且可以用 R 編程語(yǔ)言、gnuplot 和 D3.js(可以生成非常有吸引力的互動(dòng)情節(jié))生成這些選項(xiàng)。

結(jié)束語(yǔ)

本文探討了一種用于機(jī)器學(xué)習(xí)的通用數(shù)據(jù)管道,其中涵蓋了數(shù)據(jù)工程、模型學(xué)習(xí)和操作。本系列的下一篇文章將探討使用公有數(shù)據(jù)集進(jìn)行預(yù)測(cè)的兩種機(jī)器學(xué)習(xí)模型。

責(zé)任編輯:未麗燕 來(lái)源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2020-03-09 17:26:37

數(shù)據(jù)科學(xué)數(shù)據(jù)驅(qū)動(dòng)算法

2020-09-09 11:23:22

數(shù)據(jù)科學(xué)與分析

2018-04-16 12:14:34

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2024-12-04 08:00:00

數(shù)據(jù)科學(xué)數(shù)據(jù)ETL管道

2023-09-04 16:12:26

機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)

2019-07-08 15:38:56

FedoraJupyter數(shù)據(jù)科學(xué)家

2020-05-27 11:16:49

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)Python

2019-04-26 14:27:07

大數(shù)據(jù)數(shù)據(jù)科學(xué)數(shù)據(jù)工程師

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2022-11-14 10:36:55

數(shù)據(jù)科學(xué)數(shù)據(jù)分析

2016-10-21 19:24:35

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2023-05-04 12:35:39

AI科學(xué)

2023-01-28 10:09:00

Pandas數(shù)據(jù)分析Python

2019-09-16 13:14:37

數(shù)據(jù)科學(xué)家模型職業(yè)

2016-11-08 16:42:03

算法AI大數(shù)據(jù)

2016-12-16 11:56:56

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2024-03-20 11:24:47

云服務(wù)器物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)

2021-09-14 10:39:16

入侵檢測(cè)數(shù)據(jù)泄露日志文件

2023-08-16 14:20:26

人工智能AI

2018-06-29 16:00:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)清理數(shù)據(jù)分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)