自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

探索性數(shù)據(jù)分析:決定人工智能與機(jī)器學(xué)習(xí)效果的第一步

人工智能 機(jī)器學(xué)習(xí) 數(shù)據(jù)分析
如今,企業(yè)手中掌握的數(shù)據(jù)總量遠(yuǎn)超以往任何時(shí)候,但將這些數(shù)據(jù)轉(zhuǎn)化為實(shí)際價(jià)值卻仍然困難重重。

 數(shù)據(jù)質(zhì)量低下正嚴(yán)重?fù)p害人工智能(AI)與機(jī)器學(xué)習(xí)(ML)技術(shù)的實(shí)際表現(xiàn)。這個(gè)問(wèn)題困擾著不同規(guī)模的企業(yè),從小型初創(chuàng)公司到谷歌這類(lèi)科技巨頭都無(wú)法幸免于難。但數(shù)據(jù)質(zhì)量為什么總不可靠?人為因素可能才是關(guān)鍵所在。

如今,企業(yè)手中掌握的數(shù)據(jù)總量遠(yuǎn)超以往任何時(shí)候,但將這些數(shù)據(jù)轉(zhuǎn)化為實(shí)際價(jià)值卻仍然困難重重。AI與ML帶來(lái)的自動(dòng)化功能,已被廣泛視為解決現(xiàn)實(shí)數(shù)據(jù)復(fù)雜難題的有效手段;眾多公司也迫切希望利用它們?cè)鰪?qiáng)自身業(yè)務(wù)。但是,這種熱潮本身,也引起大量上游數(shù)據(jù)分析項(xiàng)目的匆忙上馬。

[[396612]]

在自動(dòng)化管道構(gòu)建完成之后,其中的算法已經(jīng)能夠完成大部分工作,而且?guī)缀醪恍枰聰?shù)據(jù)收集過(guò)程。但請(qǐng)注意,管道建成并不代表它可以一勞永逸地永遠(yuǎn)運(yùn)作。我們需要隨時(shí)間推移不斷探索并分析底層數(shù)據(jù),關(guān)注哪些漂移模式正不斷侵蝕管道性能。

好消息是,數(shù)據(jù)團(tuán)隊(duì)完全有能力降低這種侵蝕風(fēng)險(xiǎn),但成本就是付出必要的時(shí)間與精力。為了維持自動(dòng)化管道的執(zhí)行效率,我們必須定期進(jìn)行探索性數(shù)據(jù)分析(EDA),保證整個(gè)體系始終精準(zhǔn)運(yùn)行。

探索性數(shù)據(jù)分析是什么?

EDA是成功實(shí)現(xiàn)AI與ML的第一步。在分析算法本體之前,我們首先需要理解數(shù)據(jù)內(nèi)容。數(shù)據(jù)質(zhì)量,終將決定下游分析管道的實(shí)際效果。在正確起效之后,EDA將幫助用戶(hù)識(shí)別出數(shù)據(jù)中不必要的模式與噪聲,同時(shí)指導(dǎo)企業(yè)更準(zhǔn)確地選取適當(dāng)算法。

在EDA階段,我們需要積極查詢(xún)數(shù)據(jù)以確保其中的行為模式合乎預(yù)期。首先,先從以下十個(gè)需要全面分析的重要問(wèn)題起步:

1、是否擁有充足的數(shù)據(jù)點(diǎn)?

2、數(shù)據(jù)中心與離散的量度,是否與預(yù)期相符?

3、有多少個(gè)數(shù)據(jù)點(diǎn)質(zhì)量良好、可用于實(shí)際分析?

4、是否存在缺失值?這些壞值是否構(gòu)成數(shù)據(jù)中的重要部分?

5、數(shù)據(jù)的經(jīng)驗(yàn)分布如何?數(shù)據(jù)是否符合正態(tài)分布?

6、數(shù)值中是否存在特殊聚類(lèi)或分組?

7、是否存在離群值?應(yīng)如何處理這些離群值?

8、不同維度間是否具有相關(guān)性?

9、是否需要通過(guò)重新格式化等手段進(jìn)行數(shù)據(jù)轉(zhuǎn)換,以供下游分析及解釋?

10、如果數(shù)據(jù)為高維形式,是否能夠在不損失過(guò)多信息的前提下降低維數(shù)?其中某些維度是否屬于噪聲?

這些問(wèn)題又會(huì)衍生出更多問(wèn)題。這不是完整的問(wèn)題清單,而僅僅只是思考的開(kāi)始。最終,希望大家能對(duì)現(xiàn)有數(shù)據(jù)模式建立起更好的理解,而后正確處理數(shù)據(jù)并選擇最適合的處理算法。

底層數(shù)據(jù)一直在不斷變化,這就要求我們?cè)贓DA上引入更多時(shí)間,確保算法接收到的輸入特征始終保持穩(wěn)定。例如,Airbnb發(fā)現(xiàn),數(shù)據(jù)科學(xué)家在模型開(kāi)發(fā)周期中近七成的時(shí)間被用于數(shù)據(jù)收集與特征工程,通過(guò)大量分析工作確定數(shù)據(jù)結(jié)構(gòu)與模式。簡(jiǎn)而言之,如果不花時(shí)間理解這些數(shù)據(jù),那么AI與ML計(jì)劃將極易失控。

唯一不變的,只有變化

目前,數(shù)字服務(wù)中最重要的應(yīng)用集中在網(wǎng)絡(luò)安全與欺詐檢測(cè)層面,這部分市場(chǎng)的總價(jià)值已經(jīng)超過(guò)300億美元。預(yù)計(jì)到2030年左右,市場(chǎng)總值有望超過(guò)1000億美元。雖然Amazon Fraud Detector及PayPal Fraud Management Filters等工具已經(jīng)在抗擊網(wǎng)絡(luò)欺詐方面發(fā)揮作用,但欺詐檢測(cè)中唯一不變的只有變化本身。企業(yè)需要不斷為新的欺詐行為做好準(zhǔn)備,而欺詐一方也在努力“創(chuàng)新”保證自己的攻擊能力。

每種新型欺詐往往都包含前所未有的數(shù)據(jù)模式。例如,新用戶(hù)在注冊(cè)與交易時(shí)往往對(duì)應(yīng)AI系統(tǒng)未曾見(jiàn)過(guò)的郵政編碼。雖然新用戶(hù)可能來(lái)自四面八方,但如果注冊(cè)地真的特別生僻,我們最好提高警惕。

這類(lèi)計(jì)算中最困難的部分,是讓AI模型準(zhǔn)確辨別欺詐交易與正常交易。作為數(shù)據(jù)科學(xué)家,我們需要先引導(dǎo)底層算法初步理解正常交易與欺詐交易的特征,之后再由它慢慢探索更多欺詐檢測(cè)途徑。后續(xù)學(xué)習(xí),離不開(kāi)由統(tǒng)計(jì)技術(shù)搜索到的大量數(shù)據(jù)。用戶(hù)可以剖析客戶(hù)群體,確定普通客戶(hù)與欺詐者之間的區(qū)別;之后提取出有助于進(jìn)行準(zhǔn)確分類(lèi)的信息,具體涵蓋注冊(cè)信息、交易內(nèi)容、客戶(hù)年齡、收入水平、姓名等等。需要注意的是,將正常交易標(biāo)記為欺詐行為,對(duì)客戶(hù)體驗(yàn)及產(chǎn)品聲譽(yù)造成的損害往往比欺詐本身更大。

更“有趣”的一點(diǎn)在于,EDA是個(gè)需要在整個(gè)產(chǎn)品生命周期內(nèi)不斷重復(fù)的過(guò)程。新的欺詐活動(dòng),必然對(duì)應(yīng)著新的數(shù)據(jù)模式。最終,企業(yè)需要投入大量時(shí)間與精力推進(jìn)EDA,借此保持最佳欺詐檢測(cè)能力以維持AI與ML管道的正常運(yùn)作。

總之,AI與ML的成功源自對(duì)數(shù)據(jù)的深刻理解,而非大量算法的盲目堆疊。

AI與ML管道應(yīng)該適應(yīng)數(shù)據(jù),而不要指望數(shù)據(jù)能適應(yīng)用戶(hù)的現(xiàn)有管道。只有滿(mǎn)足這些條件,AI與ML支撐起的新業(yè)務(wù)才有望勇猛精進(jìn)、一路向前。

 

責(zé)任編輯:姜華 來(lái)源: 科技行者
相關(guān)推薦

2020-05-13 11:32:28

數(shù)據(jù)分析數(shù)值分析

2020-10-28 18:28:12

Pandas數(shù)據(jù)分析GUI

2022-11-11 11:35:14

2024-06-12 11:57:51

2024-07-30 12:10:22

2022-05-26 21:30:37

人工智能AI

2009-01-18 08:49:04

Java入門(mén)JDK

2021-01-15 18:17:06

網(wǎng)絡(luò)協(xié)議分層

2018-02-10 11:24:39

Python數(shù)據(jù)程序

2017-07-19 13:08:27

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2017-07-21 12:52:32

人工智能機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2012-09-04 09:20:26

測(cè)試軟件測(cè)試探索測(cè)試

2023-12-22 09:14:48

EDA數(shù)據(jù)分析探索性數(shù)據(jù)分析

2024-05-21 13:33:49

2023-10-20 09:42:43

人工智能元宇宙

2018-06-14 16:01:10

2021-06-15 08:00:00

人工智能機(jī)器學(xué)習(xí)應(yīng)用

2010-01-21 10:29:54

java認(rèn)證

2018-06-25 11:35:01

2016-10-11 15:32:26

探索性大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)