自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

合成數(shù)據(jù)定義：重大的機會和陷阱詳解

作者：布加迪 2022-11-08 07:40:55

大數(shù)據(jù) 數(shù)據(jù)分析

盡管人類每天生成海量數(shù)據(jù)，但仍然缺乏可用的真實數(shù)據(jù)。當(dāng)建模目標(biāo)只有少量的真實數(shù)據(jù)或根本沒有數(shù)據(jù)時，合成數(shù)據(jù)用作解決方案最好不過了。

?譯者 | 布加迪

審校 | 孫淑娟

去年Gartner預(yù)測，到2024年，用于開發(fā)人工智能（AI）和分析項目的數(shù)據(jù)中60%將是合成數(shù)據(jù)。從那時起，合成數(shù)據(jù)變得越來越受歡迎，這種方案可以解決這個問題：缺少訪問高質(zhì)量的實際數(shù)據(jù)以訓(xùn)練機器學(xué)習(xí)算法的途徑。但是隨著合成數(shù)據(jù)日益用于代替不可訪問的分布式數(shù)據(jù)，有必要問一個問題：合成數(shù)據(jù)真的是合適的解決方案嗎？

1.何時使用合成數(shù)據(jù)、何時不使用？

在知道合成數(shù)據(jù)是不是訓(xùn)練算法的最佳解決方案之前，重要的是要全面了解合成數(shù)據(jù)何時有用、何時沒用。

盡管人類每天生成海量數(shù)據(jù)，但仍然缺乏可用的真實數(shù)據(jù)。當(dāng)建模目標(biāo)只有少量的真實數(shù)據(jù)或根本沒有數(shù)據(jù)時，合成數(shù)據(jù)用作解決方案最好不過了。比如說，它是冷啟動問題以及基于文本和圖像的模型訓(xùn)練的有用資源。此外，合成數(shù)據(jù)在已經(jīng)在不同問題之間有標(biāo)準(zhǔn)化數(shù)據(jù)的數(shù)據(jù)集中顯示出了價值——比如測試用例中存在單詞和語法以及存在像素，這允許模型將數(shù)據(jù)的本質(zhì)抽象出來。

然而，合成數(shù)據(jù)不適合這種用例：真實數(shù)據(jù)已經(jīng)存在，但因隱私法規(guī)、集中成本或互操作性障礙而隔離孤立。此外，在大多數(shù)這些用例中，數(shù)據(jù)集并不得益于該輸入單元，因此很難確定用于創(chuàng)建合成數(shù)據(jù)的合適的抽象級別。因此，挑戰(zhàn)就出現(xiàn)了，因為問題的性質(zhì)與合成數(shù)據(jù)適合解決的問題有著根本上的不同。

2.合成數(shù)據(jù)存在的問題

由于大多數(shù)源數(shù)據(jù)天生就有未知的方面，生成高質(zhì)量的合成數(shù)據(jù)總是一個挑戰(zhàn)。合成數(shù)據(jù)就好比模糊的圖像。目前還不清楚它如何影響訓(xùn)練和學(xué)習(xí)模型的結(jié)果，這使得將來調(diào)試任何問題都很困難。

合成數(shù)據(jù)還存在大多數(shù)機器學(xué)習(xí)項目都存在的問題：將錯誤的問題與錯誤的工具聯(lián)系起來，然后得出模型沒有效果的結(jié)論，而實際情況可能是合成數(shù)據(jù)根本不合標(biāo)準(zhǔn)。

未知偏差也是使用合成數(shù)據(jù)方面的一個問題，因為用戶無法保證模型學(xué)會的表示具有的質(zhì)量。如果開發(fā)人員無法訪問真實數(shù)據(jù)，只能看到真實數(shù)據(jù)的局部情況，增加的抽象層可能會為固有的偏見帶來機會。

最后，機器學(xué)習(xí)訓(xùn)練模型中使用合成數(shù)據(jù)的成本很高。若使用合成數(shù)據(jù)，團(tuán)隊常常需要運行計算、調(diào)整模型數(shù)百次（如果不是數(shù)千次），以獲得最精確的結(jié)果。加上傳輸全面訓(xùn)練所需的大量數(shù)據(jù)的額外成本，從時間和投入角度來看，合成數(shù)據(jù)最終會比利用使用來自數(shù)據(jù)源的真實數(shù)據(jù)的其他方法更燒錢，比如隱私增強技術(shù)。

3.聯(lián)合學(xué)習(xí)是未來

在真實數(shù)據(jù)存在但孤立的情況下，解決使用合成數(shù)據(jù)的數(shù)據(jù)訪問挑戰(zhàn)與聯(lián)合學(xué)習(xí)解決方案相比稍遜一籌。聯(lián)合學(xué)習(xí)通過將一個或多個模型的版本發(fā)送到環(huán)境中的數(shù)據(jù)，而不是要求數(shù)據(jù)移動到模型中，從而實現(xiàn)對AI模型的出色訓(xùn)練。因為聯(lián)合學(xué)習(xí)能夠安全訪問真實的高質(zhì)量數(shù)據(jù)，同時允許數(shù)據(jù)托管者對相應(yīng)數(shù)據(jù)保留完全控制度和安全性，它在互操作性、隱私法規(guī)或集中成本這幾個障礙的用例中不需要生成和使用合成數(shù)據(jù)。

聯(lián)合學(xué)習(xí)真正大放異彩的地方是在醫(yī)療保健和金融等高度監(jiān)管行業(yè)的用例中；在這些行業(yè)，開發(fā)人員基本上無法訪問機密的、受保護(hù)的數(shù)據(jù)集。想象這一幕：由于現(xiàn)在可以訪問之前因敏感性而無法訪問的數(shù)據(jù)，現(xiàn)在擁有更好的癌癥診斷、病毒爆發(fā)預(yù)測和欺詐檢測。突破性的AI進(jìn)步可以讓這一幕成為現(xiàn)實，但這種現(xiàn)實有賴于訪問大量數(shù)據(jù)，這些數(shù)據(jù)目前分布在各個業(yè)務(wù)部門、組織和國家，每個國家都有不同的隱私法規(guī)。現(xiàn)在能夠安全地獲取這些數(shù)據(jù)的價值，但目前只有大型科技公司這個群體才能訪問這些數(shù)據(jù)，因為它們有豐富的資源。

雖然合成數(shù)據(jù)解決了無法訪問數(shù)據(jù)來訓(xùn)練模型的問題，但對于大多數(shù)其他用例來說，它將不如針對使用聯(lián)合學(xué)習(xí)工具訪問的數(shù)據(jù)進(jìn)行模型訓(xùn)練，后者可以更好地保護(hù)隱私；通過能夠處理細(xì)粒度的高質(zhì)量源數(shù)據(jù)，獲得更準(zhǔn)確的結(jié)果；并且避免合成數(shù)據(jù)不可避免的固有的、附加的抽象層。

通過聯(lián)合學(xué)習(xí)，隱私增強技術(shù)的普及打破了組織內(nèi)部和組織之間在協(xié)作方面的障礙，加大了對高質(zhì)量數(shù)據(jù)的訪問。力求創(chuàng)新的數(shù)據(jù)科學(xué)家和工程師可以用最好的數(shù)據(jù)無縫地構(gòu)建最好的AI系統(tǒng)，無論數(shù)據(jù)在何處，同時為提供相應(yīng)數(shù)據(jù)的組織和個人保持最高標(biāo)準(zhǔn)的信任和安全。

原文鏈接：https://solutionsreview.com/data-management/synthetic-data-definition-key-opportunities-and-pitfalls-explained/?utm_source=rss&utm_medium=rss&utm_campaign=synthetic-data-definition-key-opportunities-and-pitfalls-explained

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

合成數(shù)據(jù)AI 真實數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<dfn id="nzcjm"><fieldset id="nzcjm"></fieldset></dfn>

<big id="nzcjm"></big>

<legend id="nzcjm"><abbr id="nzcjm"><dfn id="nzcjm"></dfn></abbr></legend>