自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何提升數(shù)據(jù)質(zhì)量更好地滿足AI項目需求

譯文 精選
人工智能
當今社會,人工智能的發(fā)展成為全球企業(yè)和政府關注的重點。然而,與人工智能息息相關的另一個問題卻被忽視:數(shù)據(jù)質(zhì)量差。

?譯者 | 崔皓

審校 | 孫淑娟

開篇

當今社會,人工智能的發(fā)展成為全球企業(yè)和政府關注的重點。然而,與人工智能息息相關的另一個問題卻被忽視:數(shù)據(jù)質(zhì)量差。

人工智能算法依賴可靠的數(shù)據(jù)來產(chǎn)生最佳結(jié)果——如果數(shù)據(jù)有偏差、不完整、不充分、甚至是不準確,會導致毀滅性的后果。

識別患者疾病的人工智能系統(tǒng)便是一個很好的例子,由于數(shù)據(jù)質(zhì)量不高而導致不良后果。當數(shù)據(jù)不足時,這些系統(tǒng)會產(chǎn)生錯誤的診斷和不準確的預測,從而導致誤診和延誤治療。例如,劍橋大學對用于診斷 Covid-19 的 400 多種工具進行的一項研究發(fā)現(xiàn),由于使用了缺陷數(shù)據(jù)集導致 AI 生成的報告完全無法使用。

換句話說,如果數(shù)據(jù)不夠好,AI 計劃將對現(xiàn)實世界產(chǎn)生毀滅性的后果。

“足夠好”的數(shù)據(jù)意味著什么?

關于什么是“足夠好”的數(shù)據(jù),人們一直存在巨大的爭論。有人說不存在足夠好的數(shù)據(jù)。另外一些人表示“太好”的數(shù)據(jù)會導致分析癱瘓(譯者:應該是指過擬合)——而 HBR 則直截了當?shù)刂赋觯绻愀獾男畔е聶C器學習工具無法工作。

在 WinPure,將足夠好的數(shù)據(jù)定義為“完整、準確、有效,可以放心地用于具有風險的業(yè)務流程中,數(shù)據(jù)水平取決于個人目標和業(yè)務環(huán)境?!?/p>

大多數(shù)公司在數(shù)據(jù)質(zhì)量和治理方面飽受折磨,盡管他們都不會承認。這種折磨不斷增加項目的緊張感,讓他們不堪重負,可以想象他們正在承受著部署人工智能計劃以保持競爭優(yōu)勢的巨大壓力??杀氖?,像臟數(shù)據(jù)這類問題都不可能成為董事會討論的議題,直到它導致項目失敗時才有人會關注。

糟糕的數(shù)據(jù)如何影響人工智能系統(tǒng)?

當算法以訓練數(shù)據(jù)為基礎來學習時,數(shù)據(jù)質(zhì)量問題出現(xiàn)在流程的開始階段。例如,如果向 AI 算法提供未經(jīng)過濾的社交媒體數(shù)據(jù),它會抽取濫用、種族主義評論和厭惡女性的言論,如 Microsoft 的 AI 機器人所表現(xiàn)的那樣。最近,人工智能無法檢測深色皮膚的人也被認為是訓練數(shù)據(jù)問題導致的。

這與數(shù)據(jù)質(zhì)量有何關系?

缺乏數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量意識淡薄和孤立的數(shù)據(jù)視圖才是數(shù)據(jù)質(zhì)量不佳的罪魁禍首。

該怎么辦?

當企業(yè)意識到數(shù)據(jù)質(zhì)量出現(xiàn)問題時,他們會對招聘感到恐慌。通過盲目聘請顧問、工程師和分析師來診斷、清理數(shù)據(jù),希望盡快解決問題。不幸的是,幾個月過去了,盡管花費了數(shù)百萬美元,但問題似乎并沒有消失。對數(shù)據(jù)質(zhì)量問題采取下意識的方法幾乎沒有幫助。

真正的改變從基層開始。

如果您希望您的 AI/ML 項目朝著正確的方向發(fā)展,請采取以下三個關鍵步驟。

認識并承認數(shù)據(jù)質(zhì)量問題

首先,通過建立數(shù)據(jù)素養(yǎng)文化來評估數(shù)據(jù)質(zhì)量。Bill Schmarzo 是這方面的有力代言人,他建議使用設計思維來創(chuàng)建一種文化,讓每個人都能理解并為組織的數(shù)據(jù)目標和挑戰(zhàn)做出貢獻。

在當今的業(yè)務環(huán)境中,數(shù)據(jù)和數(shù)據(jù)質(zhì)量不再是 IT 或數(shù)據(jù)團隊的唯一責任。業(yè)務用戶必須意識到臟數(shù)據(jù)問題以及不一致和重復的數(shù)據(jù)等問題。

因此,首先要讓數(shù)據(jù)質(zhì)量培訓成為受到重視的組織工作,并使團隊能夠識別不良數(shù)據(jù)屬性。

通過下面的清單,您可以使用它來跟蹤數(shù)據(jù)質(zhì)量。

數(shù)據(jù)健康檢查表

  • 如何捕獲、存儲和管理數(shù)據(jù)?
  • 有多少數(shù)據(jù)源連接到您的中央數(shù)據(jù)庫,數(shù)據(jù)的傳播情況如何?
  • 您的數(shù)據(jù)管理得如何?您是否實施了數(shù)據(jù)治理標準?有多少數(shù)據(jù)是結(jié)構化、半結(jié)構化或非結(jié)構化的?
  • 與自動化數(shù)據(jù)管理相比,您在手動修復數(shù)據(jù)上花費了多少?在訪問和處理數(shù)據(jù)時,您的團隊如何相互協(xié)調(diào)?IT和業(yè)務用戶之間是否經(jīng)常發(fā)生內(nèi)部沖突?
  • 您的數(shù)據(jù)質(zhì)量狀況如何?您的數(shù)據(jù)是否及時、完整、準確、獨特并遵循標準化規(guī)則?

制定滿足質(zhì)量指標的計劃

關于數(shù)據(jù)質(zhì)量問題,企業(yè)經(jīng)常犯錯誤。例如聘請數(shù)據(jù)分析師來完成日常的數(shù)據(jù)清理任務,而不是專注于計劃和戰(zhàn)略工作。一些企業(yè)在沒有計劃的情況下使用數(shù)據(jù)管理工具來清理、重復數(shù)據(jù)刪除、合并和清除數(shù)據(jù)。不幸的是,工具和人才不能孤立地解決問題。滿足數(shù)據(jù)質(zhì)量維度的策略才是解決問題的根本。

該策略必須解決數(shù)據(jù)收集、標記、處理以及數(shù)與AI/ML 項目匹配的問題。例如,如果人工智能招聘計劃只選擇男性候選人擔任技術職位,那么該項目的培訓數(shù)據(jù)顯然是有偏見的、不完整的(沒有收集足夠的女性候選人數(shù)據(jù))和不準確的。因此,這些數(shù)據(jù)不符合人工智能項目的真正目的。

對數(shù)據(jù)質(zhì)量的要求已經(jīng)超出了清理和修復數(shù)據(jù)的日常任務。所以,需要在開始項目之前設置數(shù)據(jù)完整性和治理標準。它使項目免于陷入失敗的境地!

提出正確的問題并設置問責制度

對于“足夠好的數(shù)據(jù)或數(shù)據(jù)質(zhì)量水平”沒有通用標準。相反,這一切都取決于企業(yè)的信息管理系統(tǒng)、數(shù)據(jù)治理指南,以及團隊和業(yè)務目標的知識,甚至許多其他因素。

不過在啟動項目之前,有幾個問題要問團隊:

  • 我們信息的來源是什么,數(shù)據(jù)收集的方法是什么?
  • 哪些問題會影響數(shù)據(jù)收集過程并威脅積極成果?
  • 數(shù)據(jù)傳遞什么信息?它是否符合數(shù)據(jù)質(zhì)量標準(即信息準確、完全可靠和恒定)?
  • 指定人員是否意識到數(shù)據(jù)質(zhì)量和低質(zhì)量的重要性?
  • 是否定義了角色和職責?例如,誰需要維護定期數(shù)據(jù)清理計劃?誰負責創(chuàng)建主記錄?
  • 數(shù)據(jù)是否符合目的?

提出正確的問題、分配正確的角色、實施數(shù)據(jù)質(zhì)量標準并幫助團隊在問題出現(xiàn)之前應對挑戰(zhàn)!

總結(jié)

數(shù)據(jù)質(zhì)量不僅僅是修復錯別字或錯誤那么簡單。它確保人工智能系統(tǒng)沒有歧視性、誤導性或不準確性。在啟動 AI 項目之前,有必要解決數(shù)據(jù)中的缺陷從而應對數(shù)據(jù)質(zhì)量的挑戰(zhàn)。此外,啟動組織范圍內(nèi)的數(shù)據(jù)素養(yǎng)計劃,將每個團隊與總體目標聯(lián)系起來。

譯者介紹

崔皓,51CTO社區(qū)編輯,資深架構師,擁有18年的軟件開發(fā)和架構經(jīng)驗,10年分布式架構經(jīng)驗。

原文標題:??Is Your Data Good Enough for Your Machine Learning/AI Plans???,作者:Farah Kim?

責任編輯:華軒 來源: 51CTO
相關推薦

2020-09-10 18:36:09

大數(shù)據(jù)+醫(yī)療

2012-04-17 09:21:12

企業(yè)IT運維服務

2015-11-18 09:56:24

數(shù)據(jù)中心監(jiān)控

2018-03-14 14:16:00

唯諦Giovanni ZaUPS

2019-03-22 14:20:26

管理多云云計算

2017-10-12 15:20:57

數(shù)據(jù)中心遷移數(shù)據(jù)云端

2011-04-29 10:32:46

項目管理

2024-04-25 11:00:42

數(shù)據(jù)中心能源管理

2022-03-25 09:22:42

代碼開發(fā)

2018-04-26 15:00:29

云存儲云計算數(shù)據(jù)中心

2015-10-19 10:37:35

云應用數(shù)據(jù)安全云監(jiān)管

2017-11-30 11:36:15

混合數(shù)據(jù)中心環(huán)境

2019-06-24 15:11:00

大數(shù)據(jù)SEO優(yōu)化搜索引擎

2014-04-22 10:04:50

服務器VDI

2013-03-20 10:19:19

數(shù)據(jù)中心解決方案

2015-06-12 09:42:36

數(shù)據(jù)中心互聯(lián)網(wǎng)時代

2015-07-01 09:58:28

大數(shù)據(jù)移動化開放云

2024-05-08 11:03:53

數(shù)據(jù)中心PDU電纜

2021-08-03 14:19:45

谷歌蘋果芯片

2025-01-14 10:29:34

點贊
收藏

51CTO技術棧公眾號