自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)準(zhǔn)備工具:分析策略的秘密武器

開(kāi)發(fā) 開(kāi)發(fā)工具
數(shù)據(jù)準(zhǔn)備經(jīng)常被認(rèn)為是在組織內(nèi)利用數(shù)據(jù)的主要障礙,而為組織找到合適的工具可以取得突破。

 數(shù)據(jù)準(zhǔn)備經(jīng)常被認(rèn)為是在組織內(nèi)利用數(shù)據(jù)的主要障礙,而為組織找到合適的工具可以取得突破。

[[283880]]

要獲得數(shù)據(jù)分析的好處,首先必須做好數(shù)據(jù)準(zhǔn)備。根據(jù)調(diào)研機(jī)構(gòu)Gartner公司最近的研究,對(duì)于許多組織來(lái)說(shuō),這是一個(gè)很大的瓶頸,他們70%的時(shí)間都集中在數(shù)據(jù)準(zhǔn)備工作上。

Gartner公司數(shù)據(jù)和分析團(tuán)隊(duì)高級(jí)分析師、《Gartner公司數(shù)據(jù)準(zhǔn)備工具市場(chǎng)指南》的主要作者Ehtisham Zaidi說(shuō):“尋找、訪問(wèn)、清理、轉(zhuǎn)換數(shù)據(jù),以及及時(shí)與合適的人共享數(shù)據(jù),仍然是數(shù)據(jù)管理和分析中最耗時(shí)的障礙之一。”

Hitachi Vantara公司首席營(yíng)銷官Jonathan Martin表示,對(duì)于希望通過(guò)分析來(lái)轉(zhuǎn)變業(yè)務(wù)的組織而言,主要問(wèn)題不在于掌握人工智能,而在于掌握數(shù)據(jù)管道。

他說(shuō),“數(shù)據(jù)準(zhǔn)備工作是很具挑戰(zhàn)性的工作。如何確定所有這些數(shù)據(jù)在哪里?可以建立一個(gè)投資組合嗎?是否可以設(shè)計(jì)管道以自動(dòng)、托管和管理的方式將所有這些數(shù)據(jù)源連接在一起,從而使組織能夠在正確的時(shí)間將這些數(shù)據(jù)獲取到正確的位置、正確的人員、正確的機(jī)器?”

那么如何采用數(shù)據(jù)準(zhǔn)備工具以解決這些問(wèn)題?以及在為組織選擇數(shù)據(jù)準(zhǔn)備工具時(shí)需要尋找哪些內(nèi)容。以下是深入研究數(shù)據(jù)準(zhǔn)備為何仍然是重大分析面臨的挑戰(zhàn)的原因,

數(shù)據(jù)準(zhǔn)備面臨的挑戰(zhàn)

多種因素加劇了數(shù)據(jù)準(zhǔn)備面臨的挑戰(zhàn)。

首先,支持分析計(jì)劃所需的數(shù)據(jù)源和數(shù)據(jù)類型的數(shù)量和復(fù)雜性呈指數(shù)級(jí)增長(zhǎng)。通過(guò)組織內(nèi)部和外部的分布式數(shù)據(jù)生態(tài)系統(tǒng)訪問(wèn)這些數(shù)據(jù)源需要大量的時(shí)間、資源、技能和工具來(lái)完成。

IDC公司數(shù)據(jù)集成和完整性軟件服務(wù)研究總監(jiān)Stewart Bond說(shuō),“這是當(dāng)今時(shí)代數(shù)據(jù)環(huán)境具有的復(fù)雜性。因?yàn)榇嬖诙喾N不同的數(shù)據(jù)類型:交易數(shù)據(jù)、社交媒體數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、日志文件數(shù)據(jù)、圖形數(shù)據(jù)。數(shù)據(jù)環(huán)境存在各種不同的數(shù)據(jù),存儲(chǔ)這些數(shù)據(jù)的技術(shù)也各不相同。”

其次,對(duì)自助數(shù)據(jù)訪問(wèn)和集成的請(qǐng)求數(shù)量使IT團(tuán)隊(duì)不堪重負(fù)。Zaidi說(shuō),這表明從集中式IT模型到數(shù)據(jù)集成的功能不再有效。

他說(shuō):“IT部門需要通過(guò)易于用戶使用和理解的工具來(lái)配置數(shù)據(jù)訪問(wèn)和集成,這是對(duì)數(shù)據(jù)準(zhǔn)備的需求進(jìn)一步上升的原因。”

第三,數(shù)據(jù)需求不斷變化,因?yàn)闃I(yè)務(wù)分析師、集成商、業(yè)務(wù)用戶、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家對(duì)他們的項(xiàng)目都有不同的數(shù)據(jù)需求。

Zaidi說(shuō):“這使得一次準(zhǔn)備數(shù)據(jù)并使不同的角色/消費(fèi)者可以使用它們來(lái)滿足他們不斷變化的需求,”

下一代數(shù)據(jù)準(zhǔn)備工具

他補(bǔ)充說(shuō),隨著數(shù)據(jù)準(zhǔn)備工具的成熟,組織的痛點(diǎn)已經(jīng)顯著改變。其痛點(diǎn)在于用來(lái)連接哪些數(shù)據(jù)源以及準(zhǔn)備哪些數(shù)據(jù)。如今,組織將重點(diǎn)放在數(shù)據(jù)治理、沿襲、可追溯性和質(zhì)量上。他們還面臨著確保具有必要技能的合適人員可以使用數(shù)據(jù)準(zhǔn)備工具訪問(wèn)正確數(shù)據(jù)的權(quán)限。

Bond將此歸結(jié)為“數(shù)據(jù)智能”問(wèn)題,即有關(guān)數(shù)據(jù)的元數(shù)據(jù)。

他說(shuō),“人們需要了解數(shù)據(jù)的位置,數(shù)據(jù)的含義,誰(shuí)在使用它,誰(shuí)可以訪問(wèn)它,為什么擁有數(shù)據(jù),需要多長(zhǎng)時(shí)間保存數(shù)據(jù),以及如何使用它,這是一種智慧。”

值得慶幸的是,數(shù)據(jù)準(zhǔn)備工具市場(chǎng)正在不斷發(fā)展,以包括解決這些問(wèn)題的新功能。上一代工具僅限于支持業(yè)務(wù)用戶所需的最后一英里數(shù)據(jù)準(zhǔn)備工作的簡(jiǎn)單數(shù)據(jù)轉(zhuǎn)換要求。下一代工具現(xiàn)在具有與IT團(tuán)隊(duì)共享發(fā)現(xiàn)和準(zhǔn)備好的模型以進(jìn)行操作的功能,以及諸如數(shù)據(jù)編錄之類的數(shù)據(jù)管理功能,使用戶能夠查看和搜索連接的數(shù)據(jù)資產(chǎn)。

Zaidi說(shuō):“某些工具現(xiàn)在還嵌入了高級(jí)數(shù)據(jù)質(zhì)量功能,這些是上一代工具所沒(méi)有的。這些功能包括性能分析、標(biāo)記、注釋、重復(fù)數(shù)據(jù)刪除、模糊邏輯匹配、鏈接和合并功能。這些功能使IT和數(shù)據(jù)管理團(tuán)隊(duì)可以更輕松地提高質(zhì)量并確保治理和協(xié)作。”

在這里,機(jī)器學(xué)習(xí)(ML)是關(guān)鍵。基于機(jī)器學(xué)習(xí)的功能不僅可以在準(zhǔn)備之前自動(dòng)化數(shù)據(jù)的匹配、連接、配置文件、標(biāo)記和注釋,而且某些工具可以突出顯示敏感屬性、異常和異常值,并與元數(shù)據(jù)管理和治理工具協(xié)作以防止敏感數(shù)據(jù)被暴露。

Zaidi解釋說(shuō):“這些機(jī)器學(xué)習(xí)增強(qiáng)的數(shù)據(jù)準(zhǔn)備工具允許不同技能水平的用戶采用數(shù)據(jù)準(zhǔn)備,同時(shí)確保治理和合規(guī)性。”

在數(shù)據(jù)準(zhǔn)備工具中查找什么

當(dāng)組織評(píng)估現(xiàn)代數(shù)據(jù)準(zhǔn)備工具時(shí),Zaidi說(shuō)他們應(yīng)該尋找關(guān)鍵功能:

  • 數(shù)據(jù)攝取和分析。尋找一個(gè)可視化環(huán)境,使用戶能夠交互式地接收、搜索、采樣和準(zhǔn)備數(shù)據(jù)資產(chǎn)。
  • 數(shù)據(jù)編目和基本元數(shù)據(jù)管理。采用工具應(yīng)該允許創(chuàng)建和搜索元數(shù)據(jù)。
  • 數(shù)據(jù)建模和轉(zhuǎn)換。工具應(yīng)支持?jǐn)?shù)據(jù)混搭和混合、數(shù)據(jù)清理、過(guò)濾以及用戶定義的計(jì)算,組和層次結(jié)構(gòu)。
  • 數(shù)據(jù)安全。工具應(yīng)包括安全性功能,例如數(shù)據(jù)屏蔽、平臺(tái)身份驗(yàn)證以及用戶/組/角色級(jí)別的安全性篩選。
  • 基本數(shù)據(jù)質(zhì)量和治理支持。數(shù)據(jù)準(zhǔn)備工具應(yīng)與支持?jǐn)?shù)據(jù)治理/管理以及數(shù)據(jù)質(zhì)量,用戶權(quán)限和數(shù)據(jù)沿襲功能的工具集成。
  • 數(shù)據(jù)豐富。工具應(yīng)支持基本的數(shù)據(jù)豐富功能,包括實(shí)體提取和從集成數(shù)據(jù)中捕獲屬性。
  • 用戶協(xié)作和運(yùn)營(yíng)。這些工具應(yīng)有助于共享查詢和數(shù)據(jù)集,包括發(fā)布、共享和推廣具有治理功能的模型,例如數(shù)據(jù)集用戶評(píng)分或官方水印。

此外,Zaidi還強(qiáng)調(diào)了以下與眾不同的功能:

  • 數(shù)據(jù)源訪問(wèn)/連接。工具應(yīng)具有基于API和基于標(biāo)準(zhǔn)的連接性,包括對(duì)云計(jì)算應(yīng)用程序和數(shù)據(jù)源(例如流行的數(shù)據(jù)庫(kù)PaaS和云計(jì)算數(shù)據(jù)倉(cāng)庫(kù))的本地訪問(wèn)、內(nèi)部部署數(shù)據(jù)源,關(guān)系和非結(jié)構(gòu)化數(shù)據(jù)以及非關(guān)系數(shù)據(jù)庫(kù)。
  • 機(jī)器學(xué)習(xí)。工具應(yīng)支持使用機(jī)器學(xué)習(xí)人工智能來(lái)改善甚至自動(dòng)化數(shù)據(jù)準(zhǔn)備過(guò)程。
  • 混合和多云部署選項(xiàng)。數(shù)據(jù)準(zhǔn)備工具需要支持在云平臺(tái)、內(nèi)部部署或混合集成平臺(tái)設(shè)置中的部署。
  • 特定于域或垂直領(lǐng)域的產(chǎn)品或模板。工具應(yīng)提供針對(duì)特定領(lǐng)域或垂直領(lǐng)域的數(shù)據(jù)和模型的打包模板或產(chǎn)品,以加快數(shù)據(jù)準(zhǔn)備時(shí)間。

最后,Zaidi說(shuō),人們必須考慮的第一件事是,其組織是使用一個(gè)獨(dú)立的數(shù)據(jù)準(zhǔn)備工具,還是與一個(gè)將數(shù)據(jù)準(zhǔn)備嵌入到更廣泛的分析/商業(yè)智能、數(shù)據(jù)科學(xué)或數(shù)據(jù)集成工具中的供應(yīng)商合作。如果有一個(gè)依賴于一系列分析/商業(yè)智能和數(shù)據(jù)科學(xué)工具的數(shù)據(jù)集成的通用用例,請(qǐng)考慮使用獨(dú)立工具。另一方面,如果只需要在特定平臺(tái)或生態(tài)系統(tǒng)的場(chǎng)景中準(zhǔn)備數(shù)據(jù),那么使用這些工具的嵌入式數(shù)據(jù)準(zhǔn)備功能可能更有意義。

數(shù)據(jù)準(zhǔn)備市場(chǎng)概況

Gartner公司將數(shù)據(jù)準(zhǔn)備工具供應(yīng)商分為四類,因?yàn)閿?shù)據(jù)準(zhǔn)備功能已嵌入所有數(shù)據(jù)管理和分析工具中,因此每一種都在不斷變化。

(1)獨(dú)立的數(shù)據(jù)準(zhǔn)備工具。該領(lǐng)域的供應(yīng)商專注于實(shí)現(xiàn)與下游流程的更緊密集成,例如API訪問(wèn)以及對(duì)多個(gè)分析/商業(yè)智能、數(shù)據(jù)科學(xué)和數(shù)據(jù)集成工具的支持。該領(lǐng)域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供應(yīng)商的產(chǎn)品。

(2)數(shù)據(jù)集成工具。這一類別的供應(yīng)商歷來(lái)注重?cái)?shù)據(jù)集成和管理。這包括來(lái)自供應(yīng)商的產(chǎn)品,如Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData。

(3)現(xiàn)代分析和商業(yè)智能平臺(tái)。這些供應(yīng)商專注于數(shù)據(jù)準(zhǔn)備,將其作為端到端分析工作流的一部分。Zaidi說(shuō),由于數(shù)據(jù)準(zhǔn)備對(duì)于現(xiàn)代分析和商業(yè)智能至關(guān)重要,因此該領(lǐng)域的所有供應(yīng)商都在嵌入數(shù)據(jù)準(zhǔn)備功能。此類別中的供應(yīng)商包括Alteryx,Tableau、Cambridge Semantics、Infogix、Microsof、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCO Software和TMMData。

(4)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)。Gartner公司分析師表示,這些供應(yīng)商提供數(shù)據(jù)準(zhǔn)備功能,作為端到端數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)流程的一部分。其代表廠商包括Altery、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP和SAS。

除了上述四大類別之外,Gartner公司分析師還發(fā)現(xiàn)了具有數(shù)據(jù)準(zhǔn)備功能的新類別,其中包括以下平臺(tái)和具有代表性的供應(yīng)商:

  • 數(shù)據(jù)管理/數(shù)據(jù)湖支持平臺(tái):Informatica、Talend、Unifi和Zaloni
  • 數(shù)據(jù)工程平臺(tái):Infoworks
  • 數(shù)據(jù)質(zhì)量工具:Experian
  • 數(shù)據(jù)集成專家:Alooma、Nexla、StreamSet和Striim

6種關(guān)鍵數(shù)據(jù)準(zhǔn)備工具

以下六個(gè)數(shù)據(jù)準(zhǔn)備工具提供了有關(guān)當(dāng)前可用功能的更詳細(xì)的描述。

(1)Alteryx Designer

這個(gè)獨(dú)立的數(shù)據(jù)準(zhǔn)備工具也是Alteryx Analytics和數(shù)據(jù)科學(xué)平臺(tái)的一部分,這意味著它還作為更廣泛的現(xiàn)代分析和商業(yè)智能平臺(tái)中的功能以及更廣泛的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)中的功能而被嵌入。它提供了拖放工作流,無(wú)需SQL代碼即可分析、準(zhǔn)備、混合數(shù)據(jù)。它是按年度訂閱的,并按指定用戶定價(jià)。

(2)Cambridge Semantics Anzo

Anzo是Cambridge Semantics的端到端數(shù)據(jù)發(fā)現(xiàn)和集成平臺(tái),因此涵蓋了Gartner公司的所有四個(gè)類別。Anzo在現(xiàn)有數(shù)據(jù)基礎(chǔ)設(shè)施上應(yīng)用了基于語(yǔ)義的基于圖形的數(shù)據(jù)結(jié)構(gòu)層,以映射企業(yè)數(shù)據(jù),公開(kāi)數(shù)據(jù)集之間的連接,啟用可視化探索和發(fā)現(xiàn),以及混合多個(gè)數(shù)據(jù)集。Anzo是通過(guò)訂閱提供的,其定價(jià)基于核心數(shù)量和用戶數(shù)量。

(3)Datameer Enterprise

Datameer Enterprise是一個(gè)數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)工程平臺(tái),完全屬于Gartner公司的獨(dú)立類別。它著重于使用向?qū)б龑?dǎo)的集成過(guò)程將分散的原始數(shù)據(jù)源聚集在一起,以創(chuàng)建單個(gè)數(shù)據(jù)存儲(chǔ)。Datameer Enterprise提供了類似于電子表格的界面,可用于混合和視覺(jué)探索功能。根據(jù)計(jì)算能力或數(shù)據(jù)量向客戶收費(fèi)。云計(jì)算客戶按小時(shí)或通過(guò)年度許可證收費(fèi)。

(4)Infogix Data3Sixty Analyze

Infogix公司的Data3Sixty Analyze是基于Web的解決方案,源于Infogix收購(gòu)Lavastorm。與Datameer一樣,它涵蓋Gartner公司的所有四個(gè)類別。Data3Sixty使用角色定義用戶。設(shè)計(jì)人員可以創(chuàng)建和編輯數(shù)據(jù)流,瀏覽器只能執(zhí)行數(shù)據(jù)流,而計(jì)劃程序可以創(chuàng)建和修改計(jì)劃以進(jìn)行自動(dòng)處理。Infogix公司出售Data3Sixty既是基于訂閱的桌面產(chǎn)品,又是基于永久和訂閱提供的基于服務(wù)器的產(chǎn)品。

(5)Talend Data Preparation

Talend提供了三種數(shù)據(jù)準(zhǔn)備工具:Talend Data Preparation(開(kāi)源桌面版本)、Talend Data Preparation Cloud(作為Talend云平臺(tái)的一部分提供的商業(yè)版本)和Talend Data Preparation的另一版本(作為內(nèi)部部署的Talend Data Fabric產(chǎn)品)。Talend Data Preparation是一個(gè)獨(dú)立的工具,而Talend Cloud和Talend Data Fabric是將數(shù)據(jù)準(zhǔn)備集成為更廣泛的數(shù)據(jù)集成/數(shù)據(jù)管理工具中功能的示例。Talend使用機(jī)器學(xué)習(xí)算法進(jìn)行標(biāo)準(zhǔn)化、清理、模式識(shí)別和對(duì)賬。開(kāi)源版本是免費(fèi)的。商業(yè)版本遵循基于命名用戶許可證的訂閱模型。

(6)Trifacta Wrangler

Trifacta Wrangle是一個(gè)獨(dú)立的數(shù)據(jù)準(zhǔn)備平臺(tái),提供各種版本以支持云計(jì)算和本地計(jì)算環(huán)境。它提供了嵌入式機(jī)器學(xué)習(xí)功能,用于推薦要與之連接的數(shù)據(jù)、推斷數(shù)據(jù)結(jié)構(gòu)和模式、推薦連接、定義用戶訪問(wèn)以及自動(dòng)化可視化以實(shí)現(xiàn)探索/數(shù)據(jù)質(zhì)量。Trifacta Wrangler提供免費(fèi)版本、Wrangler Pro(根據(jù)計(jì)算容量和用戶數(shù)量收費(fèi))、Wrangler Enterprise(根據(jù)計(jì)算/處理規(guī)模和用戶數(shù)量收費(fèi),同時(shí)提供內(nèi)部版本和云計(jì)算版本)和Trifacta公司的Google Cloud Dataprep(根據(jù)計(jì)算消耗收費(fèi))。

責(zé)任編輯:華軒 來(lái)源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2019-11-27 10:38:37

數(shù)據(jù)分析數(shù)據(jù)準(zhǔn)備工具

2013-10-16 09:28:14

亞馬遜AWSSDN

2011-08-11 17:05:26

2013-10-16 09:33:36

亞馬遜AWSSDN

2011-10-08 14:33:57

2014-01-07 10:46:39

2024-07-11 08:34:48

2022-07-19 11:31:59

數(shù)據(jù)

2022-02-11 10:47:17

CIOIT團(tuán)隊(duì)企業(yè)

2021-09-14 10:39:16

入侵檢測(cè)數(shù)據(jù)泄露日志文件

2023-05-08 14:54:00

AI任務(wù)HuggingGPT

2009-07-28 10:36:58

云計(jì)算Google秘密武器

2011-06-02 10:24:11

iTravel蘋果

2023-02-24 10:26:34

語(yǔ)音AI人工智能

2024-09-26 17:47:41

2015-03-30 16:58:05

秘密武器華為

2015-06-08 09:50:07

Android M谷歌

2023-09-25 15:29:44

Go并發(fā)Goroutines

2019-02-27 09:44:01

CIO秘密武器顧問(wèn)

2025-01-06 23:33:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)