自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

攻關(guān)克難:大數(shù)據(jù)系統(tǒng)中的預(yù)測(cè)技術(shù)

大數(shù)據(jù) 數(shù)據(jù)分析
大數(shù)據(jù)分析近年來(lái)逐漸成為預(yù)測(cè)分析技術(shù)的代名詞。這使得越來(lái)越多的人以為,任何用于預(yù)測(cè)分析的系統(tǒng)都必定涉及大數(shù)據(jù);而反過來(lái),任何大數(shù)據(jù)系統(tǒng)自然也一定會(huì)支持預(yù)測(cè)建模。

大數(shù)據(jù)分析近年來(lái)逐漸成為預(yù)測(cè)分析技術(shù)的代名詞。這使得越來(lái)越多的人以為,任何用于預(yù)測(cè)分析的系統(tǒng)都必定涉及大數(shù)據(jù);而反過來(lái),任何大數(shù)據(jù)系統(tǒng)自然也一定會(huì)支持預(yù)測(cè)建模。

[[234565]]

而事實(shí)上,這兩者并非一回事。盡管通過訪問海量數(shù)據(jù)與新的數(shù)據(jù)類型,開發(fā)出更好的預(yù)測(cè)模型的能力會(huì)得到顯著增強(qiáng)。但是分析管理人員與其團(tuán)隊(duì)需要更多考慮數(shù)據(jù)的構(gòu)成,以及在大數(shù)據(jù)環(huán)境中如何管理這類基礎(chǔ)性問題。

首先,讓我們審視預(yù)測(cè)分析過程本身。在主流的預(yù)測(cè)分析過程中,會(huì)涉及到某些與業(yè)務(wù)應(yīng)用相集成的統(tǒng)計(jì)分析與模式匹配,從而推動(dòng)運(yùn)營(yíng)決策與操作。但是,預(yù)測(cè)模型的實(shí)時(shí)需要多項(xiàng)步驟,其中包括:

數(shù)據(jù)準(zhǔn)備工作,清理、轉(zhuǎn)換與重組數(shù)據(jù),使其符合預(yù)測(cè)分析或機(jī)器學(xué)習(xí)算法所需的格式。包括分析數(shù)據(jù)、尋找異常、確定應(yīng)用和待修復(fù)的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)類型、設(shè)計(jì)適合分析的數(shù)據(jù)模型,并執(zhí)行轉(zhuǎn)換,使數(shù)據(jù)集保持一致。

預(yù)測(cè)模型開發(fā),包括創(chuàng)建試用數(shù)據(jù)集,選擇特定算法進(jìn)行處理,從而測(cè)試某些分析模式。這一步需要有計(jì)劃地進(jìn)行,將被分析的數(shù)據(jù)分為不同的子集,包括試用數(shù)據(jù)集和一份或多份測(cè)試數(shù)據(jù)集。

測(cè)試過程,即在各模型上運(yùn)行測(cè)試數(shù)據(jù)集,對(duì)性能加以評(píng)估,從而確定哪種模型能夠得到最佳效果。

集成與實(shí)施,選中的模型被納入生產(chǎn)業(yè)務(wù)流程、實(shí)際上線、并產(chǎn)生真實(shí)的分析結(jié)果,以此采取行動(dòng)。

調(diào)整所選的預(yù)測(cè)模型以確保其持續(xù)有效與準(zhǔn)確,重復(fù)分析、不斷更新。

大數(shù)據(jù)帶來(lái)特定的挑戰(zhàn)

接下來(lái),讓我們看看大數(shù)據(jù)環(huán)境中出名的3V數(shù)據(jù)——即容量,多樣性和速度——并思考在大數(shù)據(jù)環(huán)境,預(yù)測(cè)分析過程中必須解決的一些特定挑戰(zhàn)。

數(shù)據(jù)容量。除了那些顯而易見的,與管理與海量數(shù)據(jù)有關(guān)的考量因素,包括數(shù)據(jù)獲取、分段和防止延遲,你必須有精簡(jiǎn)的流程,從而支持各不同階段的分析過程。例如,你需要能夠提取到可以使用不同算法快速分析的試用數(shù)據(jù)集,也需要能夠充分反映整體數(shù)據(jù)的那部分信息。

數(shù)據(jù)的多樣化。企業(yè)越來(lái)越多地得到各式各樣的數(shù)據(jù)輸入,從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到日益增長(zhǎng)的非結(jié)構(gòu)化數(shù)據(jù)類型。而且,隨著更多的非結(jié)構(gòu)化數(shù)據(jù)流成為業(yè)務(wù)流程中不可或缺的組成部分,例如對(duì)推特信息流的持續(xù)監(jiān)測(cè)可以識(shí)別客戶情緒,非結(jié)構(gòu)化數(shù)據(jù)正成為預(yù)測(cè)模型必不可少的數(shù)據(jù)源。這意味著你必須擁有一套非常強(qiáng)大的流程,用于掃描、分析和處理非結(jié)構(gòu)化數(shù)據(jù),以將其轉(zhuǎn)化為可用作分析算法輸入的數(shù)據(jù)集。

數(shù)據(jù)的速度。處理大量不同數(shù)據(jù)所帶來(lái)的復(fù)雜性,與更快速的數(shù)據(jù)流輸入速度疊加。使得你不僅必須能夠處理輸入速度更快的數(shù)據(jù)源,而且需要應(yīng)對(duì)這些數(shù)據(jù)源的結(jié)構(gòu)或格式可能會(huì)發(fā)生的變化。更要命的是,這種變化通常難以預(yù)測(cè),因此迫切需要做好數(shù)據(jù)分析與準(zhǔn)備工作。

智慧的分析策略

設(shè)計(jì)大數(shù)據(jù)系統(tǒng)預(yù)測(cè)分析策略能夠應(yīng)對(duì)上述挑戰(zhàn),以便你可以成功管理或優(yōu)化流程中的關(guān)鍵點(diǎn)。

例如,考慮如何將龐大的數(shù)據(jù)集合轉(zhuǎn)化為容量更為合理的試用數(shù)據(jù)塊。在某些情況下,最佳實(shí)踐是,不要隨機(jī)選擇試用數(shù)據(jù)集,而是通過過濾器來(lái)減少數(shù)據(jù)集合的大小,這樣或許會(huì)消除特例的那部分記錄。另外一些情況中,你的目標(biāo)可能是增加大數(shù)據(jù)系統(tǒng)的計(jì)算資源,使分析算法有能力處理更大的訓(xùn)練集——并且無(wú)需過濾任何記錄。

另一個(gè)例子是,解決數(shù)據(jù)在速度方面挑戰(zhàn)或許意味著擴(kuò)大系統(tǒng)對(duì)數(shù)據(jù)流的吞吐能力,從而可以讓每個(gè)數(shù)據(jù)逐一進(jìn)入預(yù)測(cè)模型;當(dāng)然,你同樣可以降低模型的復(fù)雜度,以便更快速地加以執(zhí)行。

當(dāng)涉及到設(shè)計(jì)、工程量、復(fù)雜性和成本這些問題時(shí),每一次選擇都意味著相應(yīng)的取舍。一組更精確的預(yù)測(cè)模型可能需要更多的處理和存儲(chǔ)資源,但分析帶來(lái)的優(yōu)勢(shì)或許會(huì)超越所增加的成本。又或者,你所在的企業(yè)組織也許可以從并不復(fù)雜的模型中,以較少的處理資源,獲得大數(shù)據(jù)應(yīng)用中的預(yù)測(cè)分析能力。

預(yù)測(cè)分析必須與大數(shù)據(jù)處理相結(jié)合,從而為分析管理人員、甚至企業(yè)高層提供所期待的結(jié)果。要做到這一點(diǎn),就必須弄清楚如何在預(yù)測(cè)分析帶來(lái)的收益與大數(shù)據(jù)所需的性能和管理之間做出平衡。

責(zé)任編輯:未麗燕 來(lái)源: TechTarget中國(guó)
相關(guān)推薦

2017-04-12 09:49:54

大數(shù)據(jù)應(yīng)用預(yù)測(cè)性維修

2015-05-12 11:11:23

大數(shù)據(jù)大數(shù)據(jù)技術(shù)預(yù)測(cè)

2015-03-12 13:30:42

大數(shù)據(jù)大數(shù)據(jù)技術(shù)大數(shù)據(jù)預(yù)測(cè)

2022-11-21 14:33:53

大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)機(jī)器學(xué)習(xí)

2018-10-24 14:36:59

2014-01-22 15:27:13

大數(shù)據(jù)

2016-09-29 12:59:54

大數(shù)據(jù)采集系統(tǒng)

2017-04-27 14:41:34

2018-03-16 11:50:33

大數(shù)據(jù)數(shù)據(jù)科學(xué)安全

2022-02-15 15:34:10

大數(shù)據(jù)天體系統(tǒng)技術(shù)

2012-02-15 14:49:27

云計(jì)算大數(shù)據(jù)

2021-01-15 10:25:22

大數(shù)據(jù)云計(jì)算大數(shù)據(jù)分析

2022-03-30 11:14:25

大數(shù)據(jù)數(shù)據(jù)分析安全

2021-12-23 14:44:31

大數(shù)據(jù)大數(shù)據(jù)動(dòng)向數(shù)據(jù)技術(shù)

2023-11-02 07:24:41

大數(shù)據(jù)行業(yè)預(yù)測(cè)

2013-11-08 17:57:01

SAP

2015-12-29 17:06:17

大數(shù)據(jù)存儲(chǔ)

2016-03-18 15:51:24

大數(shù)據(jù)預(yù)測(cè)

2020-09-27 17:30:55

大數(shù)據(jù)軍事技術(shù)

2018-06-25 11:20:18

LinuxPython大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)