自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

通過數(shù)據虛擬化 優(yōu)化數(shù)據

云計算 虛擬化
如今,不斷擴張的物聯(lián)網、隨處可見的移動設備、社交媒體、點擊流量、網頁以及開放的數(shù)據都是導致我們今日數(shù)據不斷增長的的主要因素。根據IDC-Seagate最近的一項研究顯示,截止到2025年,這些因素的導致的全球數(shù)據增長預計將是現(xiàn)在的10倍。

大數(shù)據就像是從當代數(shù)據環(huán)境中不斷涌現(xiàn)出的豐富的、極度膨脹的資源。如今,不斷擴張的物聯(lián)網、隨處可見的移動設備、社交媒體、點擊流量、網頁以及開放的數(shù)據都是導致我們今日數(shù)據不斷增長的的主要因素。根據IDC-Seagate最近的一項研究顯示,截止到2025年,這些因素的導致的全球數(shù)據增長預計將是現(xiàn)在的10倍,總計達到163ZB(ZB為十萬億億字節(jié))。

雖然數(shù)據資源富足,但這些數(shù)據都是最原始的、未經提煉的,其中存在大量不能用的數(shù)據。與其他”自然”資源一樣,“原始的”數(shù)據必須經過提煉后,才能被用于生產目的,例如設備維護、產品創(chuàng)新、競爭情報、市場營銷以及數(shù)據貨幣化等等。

數(shù)據細化、提煉的過程可以納入數(shù)據探查,準備,關聯(lián)和背景化,標注和注釋,統(tǒng)一和整合以及安全和治理政策的應用。 元數(shù)據也是一個重要的組成部分,它在數(shù)據整體細化過程中輸入、輸出階段起著十分重要的作用。

[[200304]]

其中,數(shù)據探查主要是對數(shù)據進行技術性分析,對數(shù)據的內容、一致性和結構進行描述。數(shù)據探查擔負著兩種不同的目標:戰(zhàn)略性的和戰(zhàn)術性的。

  1. 戰(zhàn)略性:一旦確定了某個候選數(shù)據源,就應當進行一次輕量級的探查評估來確定該數(shù)據源是否適合于包含到數(shù)據倉庫中,針對早期的采納/不采納問題提供決策。理想情況下,應當在業(yè)務需求分析過程中確定出一個候選數(shù)據源之后立即進行戰(zhàn)略性評估。較早地找出那些不合格的數(shù)據源是一個責任重大的步驟,即使帶來的是壞消息,也是必要的一步。如果很晚才發(fā)現(xiàn)數(shù)據源無法支持要做的工作,對DW/BI團隊的積極性將產生重大的打擊,特別是當項目已經展開數(shù)月之后才發(fā)現(xiàn)數(shù)據源存在問題時更是如此;
  2. 戰(zhàn)術性:一旦將某個數(shù)據源引入項目的基本戰(zhàn)略決策已經定下來,就需要進行一系列戰(zhàn)術性的數(shù)據探查工作來盡可能多地確定出各種問題。通常這一工作從數(shù)據建模過程就開始了,一直到ETL系統(tǒng)設計過程。有時ETL團隊也可能需要使用一個其內容沒有經過徹底評估的數(shù)據源。系統(tǒng)也可能支持產品過程的需求,但是卻存在ETL方面的難題,因為對產品處理并不重要的字段用來進行分析也是不可靠和不完整的。

該子系統(tǒng)中揭示出來的問題最終會產生兩種詳細說明:

  1. 將數(shù)據送回原來的數(shù)據源中,請求改善數(shù)據質量;
  2. 構成了數(shù)據質量子系統(tǒng)的需求。

(備注:元數(shù)據(Metadata),又稱中介數(shù)據、中繼數(shù)據,為描述數(shù)據的數(shù)據,主要是描述數(shù)據屬性的信息,用來支持如指示存儲位置、歷史數(shù)據、資源查找、文件記錄等功能。元數(shù)據算是一種電子式目錄,為了達到編制目錄的目的,必須在描述并收藏數(shù)據的內容或特色,進而達成協(xié)助數(shù)據檢索的目的。)

如果還沒有為分析提供數(shù)據,那么這些數(shù)據可能會受到碎片化、最小化標記和丟失信息的影響。這些特征在電子健康記錄(EHRs)中很明顯,這說明了優(yōu)化數(shù)據面對的挑戰(zhàn)。收集和分析EHR數(shù)據的其中的一個障礙就是缺乏適當?shù)臉撕灪鸵恢碌恼Z義的缺乏。

EHRs的設計主要是為了滿足病人的醫(yī)療、行政和經濟的需要。埃爾斯的多用途目標——不考慮每一種數(shù)據的數(shù)據分析——可能造成數(shù)據碎片化,這需要在為臨床研究等分析提供數(shù)據之前進行糾正。

從共享患者健康記錄中構建數(shù)據集的另一個挑戰(zhàn)是在衛(wèi)生保健組織中如何實現(xiàn)EHRs的標準化,甚至在相同的衛(wèi)生保健系統(tǒng)中也缺乏標準化。。例如,不同的部門(例如:同一家醫(yī)院的放射學、整形和內醫(yī)學)可能采用不同的方法來滿足他們獨特的數(shù)據輸入需求、文檔和排序需求,以及偏好,因此,會產生數(shù)據倉。

(備注:電子健康記錄(EHR,electronic health record)是個人官方的健康記錄,這些記錄可以在多個設備和機構中共享。一個電子健康記錄通常包括:聯(lián)系方式;訪問醫(yī)護專業(yè)人員信息;過敏史;醫(yī)療保險信息;家族遺傳病史;免疫狀況;身體狀況或疾病信息;服用藥物清單;住院記錄;做手術信息等

事實上,數(shù)據安全和隱私也可能成為分析受監(jiān)管數(shù)據的障礙,比如在EHRs中??朔@一障礙的最佳方法是在細化過程中應用適當?shù)陌踩院椭卫?。谷歌等公司正在試驗?lián)邦學習,以推進分析,同時確保隱私。

數(shù)據的優(yōu)化對于從數(shù)據分析中獲得可靠結果是至關重要的,數(shù)據分析包括有意義的結論、準確的預測和明智的決策。

事實上,與任何虛擬化一樣,數(shù)據虛擬化是一種允許用戶訪問、管理和優(yōu)化異構基礎架構的方法,就好像它們是一種單一、且在邏輯上是統(tǒng)一的資源一樣。這使得用戶能夠從一些服務、功能或其他資源的內部部署中對外部界面進行抽象化。

與支持邏輯上統(tǒng)一的訪問、查詢、報告、預測分析,以及針對關系型、Hadoop、NoSQL等不同后端數(shù)據庫應用的任何“SQL-虛擬化”解決方法相同,數(shù)據虛擬化的核心是抽象層。當然,數(shù)據虛擬化可能會轉而依靠其他的基礎設施虛擬化層,例如存儲與服務器平臺。在某些情況下,數(shù)據虛擬化可能會在地理上和多云環(huán)境中進行擴張。

在我們討論的眾多層中,虛擬化無疑是這些枯燥數(shù)據話題的一個縮影。但是如果希望自己的大數(shù)據云平臺能夠解決以下業(yè)務需求,那么它們無疑是最基礎的。這些具體的業(yè)務需求是:

  • 基于彈性、靈活拓撲結構的先進分析型資源
  • 汲取源自任何來源、格式和方案的純消費性資源
  • 能夠留存、聚合、處理任何動靜結合信息的“延遲-靈敏”資源
  • 在價值鏈中擴展,在私有云和公有云中擴張的聯(lián)合資源
  • 能夠讓你通過現(xiàn)有工具和應用,調整、擴展和升級后端數(shù)據平臺的無縫互操作資源

理想情況下,精煉原始數(shù)據以生成完整而有意義的信息的過程如下:

  • 構建相關語義
  • 處理數(shù)據異常
  • 建立完整的、全面的、相關數(shù)據的視圖
  • 充實下行流程的元數(shù)據
  • 處理數(shù)據保護、隱私及合規(guī)性要求

利用數(shù)據虛擬化作為數(shù)據處理的三個優(yōu)點:

1. 數(shù)據優(yōu)化的范圍

現(xiàn)代分析依賴于來自大量碎片數(shù)據源的數(shù)據。經驗表明,當數(shù)據分布在多個系統(tǒng)時,大數(shù)據源并不總是能夠復制并遷移的。數(shù)據虛擬化通過提供替代性范式交付具有大數(shù)據源的有效工作范圍:將數(shù)據處理轉移到數(shù)據。換句話說,就是處理存在的數(shù)據并盡可能降低網絡流量。

(備注:數(shù)據虛擬化(Data virtualization)– 數(shù)據整合的過程,以此獲得更多的數(shù)據信息,這個過程通常會引入其他技術,例如數(shù)據庫,應用程序,文件系統(tǒng),網頁技術,大數(shù)據技術等等。)

數(shù)據虛擬化帶來了數(shù)據優(yōu)化所需的速度和規(guī)模,而無需復制或重新定位數(shù)據源。它使用邏輯數(shù)據體系結構,使所有底層數(shù)據源都以單個系統(tǒng)的形式出現(xiàn)。它提供了多種優(yōu)化策略(例如:特定于平臺的優(yōu)化和下推處理),選擇特定優(yōu)化的智能,以及預先構建的優(yōu)化庫,如MPP內存中的處理。

(備注:MPP (Massively Parallel Processing),意為大規(guī)模并行處理系統(tǒng),這樣的系統(tǒng)是由許多松耦合處理單元組成的,要注意的是這里指的是處理單元而不是處理器。每個單元內的CPU都有自己私有的資源,如總線、內存、硬盤等。在每個單元內都有操作系統(tǒng)和管理數(shù)據庫的實例復本。這種結構最大的特點在于不共享資源。)

2. 負責數(shù)據共享

文化和法律障礙往往阻礙數(shù)據共享,這已成為大數(shù)據分析的主要組成部分。 數(shù)據隱私法規(guī)是令人信服的組織在新項目的每個設計和實施階段納入或以其他方式說明數(shù)據隱私的充分考慮。 數(shù)據虛擬化采用的中央方式,降低了遵守越來越多的活動數(shù)據隱私法規(guī)的成本,并允許通過設計包含數(shù)據隱私。

數(shù)據虛擬化的核心功能是使分布式數(shù)據保持在源代碼中,同時通過一個邏輯層將其暴露給消費者。這種方法消除了對連續(xù)數(shù)據復制的需要。較少的復制可以減少組織中個人和敏感數(shù)據的副本,減少數(shù)據安全和治理方面的問題。

數(shù)據虛擬化還使組織能夠很容易地在整個組織中創(chuàng)建聚合的、一致的數(shù)據視圖,例如風險數(shù)據。這些視圖可以有選擇地共享,同時完全遵守組織的數(shù)據訪問和隱私策略。如圖1 所示

 

數(shù)據虛擬化能克服以下主要信息共享方面的挑戰(zhàn):

  • 不同的數(shù)據源。使用數(shù)據虛擬化,可以輕松地將數(shù)據集成到各種內部和外部系統(tǒng)中。
  • 不同的數(shù)據格式。數(shù)據虛擬化可以使用不同的技術和協(xié)議連接到不同格式的數(shù)據。這些復雜性被用戶和應用程序所隱藏。
  • 不同的數(shù)據標準。使用查詢表或內存映射,數(shù)據虛擬化可以集成數(shù)據,即使它來自不同的標準。
  • 數(shù)據不完整。數(shù)據虛擬化允許將數(shù)據匯總在不同的系統(tǒng)中,以實現(xiàn)整體的視圖。
  • 未處理數(shù)據。對聚合數(shù)據進行的數(shù)據計算(與部分,孤立數(shù)據相反)可以提供整個企業(yè)組織完整的風險視圖。
  • 敏感數(shù)據。數(shù)據虛擬化可以提供安全性和隱私功能,以便用戶只能看到他們被允許看到的數(shù)據。

3. 通用語義模型

企業(yè)用戶的形式及規(guī)模各不相同。因此,必須了解客戶是誰?(例如,他們是數(shù)據分析師,高級用戶,高管還是機器)。以及他們需要的數(shù)據(例如,預先聚合的,預先計算,特定精確,特定作用的還是特定領域的)是必需的。對于特定的機器而言,正確的標記數(shù)據集對于有效的機器學習至關重要。在為分析提供數(shù)據時使用企業(yè)用戶了解的語言也是很重要的。使用業(yè)務用戶在提供數(shù)據進行分析時了解的語言也很重要。 例如,帳戶適用于財務中的用戶,而客戶是客戶關懷中的用戶的首選術語。 支持多種語義是避免強迫用戶改變術語的關鍵。

由數(shù)據虛擬化驅動的通用語義模式可以為整個組織提供常見且統(tǒng)一的數(shù)據視圖。通過不被嵌入到單一的商業(yè)智能(BI)工具中,語義模型對于多個BI工具是通用的,并且可以訪問幾乎任何數(shù)據源。

數(shù)據虛擬化實現(xiàn)自助分析方面,完成下列目標:

  • 能夠快速方便地構建靈活的語義模式
  • 提供具有保護措施的自助服務平臺
  • 既支持“data cowboys”(在一定范圍內)也支持常規(guī)業(yè)務用戶
  • 加快自我服務舉措(消除分析孤島),同時保持控制和治理

提供完整的、可信的、高質量的信息對決策制定以及預測性和規(guī)范性分析都是至關重要的。數(shù)據虛擬化是滿足這一需求的理想技術,這些組織力圖將數(shù)據用作戰(zhàn)略資產。當然,要沿著“數(shù)據-虛擬化”路線走多遠,將取決于用戶業(yè)務需求和大數(shù)據環(huán)境的復雜性。此外,還取決于用戶對風險、復雜性和困難的承受程度。在未來,隨著分析模型、規(guī)則和大數(shù)據云上匯聚的信息日益復雜,平臺將成為虛擬化訪問、執(zhí)行和管理的核心。在這一新領域內,MapReduce將成為關鍵的(但并不是唯一的)開發(fā)框架。此外,MapReduce還將成為針對內聯(lián)分析和交易計算的虛擬化架構的一部分。不過,目前這一虛擬化架構雖然涵蓋范圍更廣,但是大部分仍沒有被明確定義。

責任編輯:未麗燕 來源: 機房360
相關推薦

2013-07-03 09:39:07

產品優(yōu)化產品通過數(shù)據優(yōu)化產品

2024-01-29 17:02:10

數(shù)據治理大數(shù)據數(shù)據工程

2020-11-11 17:47:10

數(shù)據庫

2021-04-12 13:07:36

數(shù)據治理數(shù)據資產CIO

2018-01-31 07:09:57

數(shù)據中心虛擬化可擴展性

2023-10-31 17:50:58

2020-02-24 15:06:13

亞馬遜數(shù)據湖AWS

2022-03-13 08:52:07

數(shù)據安全數(shù)據泄露

2021-05-20 10:10:13

數(shù)據可視化工具大數(shù)據

2013-09-17 18:27:27

SAP

2012-06-15 09:53:11

2020-05-07 11:13:44

NLPAI產品

2021-12-01 14:54:37

數(shù)據即服務物聯(lián)網數(shù)據

2021-04-03 14:00:59

物聯(lián)網IoT預測性維護

2011-06-13 09:15:18

AIXlinuxunix

2020-09-17 10:13:09

數(shù)據中心

2017-12-06 10:48:18

數(shù)據DevOps

2023-12-23 11:54:58

智能建筑大數(shù)據能源效率

2021-10-27 11:19:10

數(shù)據分析微博大V
點贊
收藏

51CTO技術棧公眾號