自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

合成數(shù)據(jù)定義:重大的機會和陷阱詳解

譯文
大數(shù)據(jù) 數(shù)據(jù)分析
盡管人類每天生成海量數(shù)據(jù),但仍然缺乏可用的真實數(shù)據(jù)。當(dāng)建模目標(biāo)只有少量的真實數(shù)據(jù)或根本沒有數(shù)據(jù)時,合成數(shù)據(jù)用作解決方案最好不過了。

?譯者 | 布加迪

審校 | 孫淑娟

去年Gartner預(yù)測,到2024年,用于開發(fā)人工智能(AI)和分析項目的數(shù)據(jù)中60%將是合成數(shù)據(jù)。從那時起,合成數(shù)據(jù)變得越來越受歡迎,這種方案可以解決這個問題:缺少訪問高質(zhì)量的實際數(shù)據(jù)以訓(xùn)練機器學(xué)習(xí)算法的途徑。但是隨著合成數(shù)據(jù)日益用于代替不可訪問的分布式數(shù)據(jù),有必要問一個問題:合成數(shù)據(jù)真的是合適的解決方案嗎?

1.何時使用合成數(shù)據(jù)、何時不使用?

在知道合成數(shù)據(jù)是不是訓(xùn)練算法的最佳解決方案之前,重要的是要全面了解合成數(shù)據(jù)何時有用、何時沒用。

盡管人類每天生成海量數(shù)據(jù),但仍然缺乏可用的真實數(shù)據(jù)。當(dāng)建模目標(biāo)只有少量的真實數(shù)據(jù)或根本沒有數(shù)據(jù)時,合成數(shù)據(jù)用作解決方案最好不過了。比如說,它是冷啟動問題以及基于文本和圖像的模型訓(xùn)練的有用資源。此外,合成數(shù)據(jù)在已經(jīng)在不同問題之間有標(biāo)準(zhǔn)化數(shù)據(jù)的數(shù)據(jù)集中顯示出了價值——比如測試用例中存在單詞和語法以及存在像素,這允許模型將數(shù)據(jù)的本質(zhì)抽象出來。

然而,合成數(shù)據(jù)不適合這種用例:真實數(shù)據(jù)已經(jīng)存在,但因隱私法規(guī)、集中成本或互操作性障礙而隔離孤立。此外,在大多數(shù)這些用例中,數(shù)據(jù)集并不得益于該輸入單元,因此很難確定用于創(chuàng)建合成數(shù)據(jù)的合適的抽象級別。因此,挑戰(zhàn)就出現(xiàn)了,因為問題的性質(zhì)與合成數(shù)據(jù)適合解決的問題有著根本上的不同。

2.合成數(shù)據(jù)存在的問題

由于大多數(shù)源數(shù)據(jù)天生就有未知的方面,生成高質(zhì)量的合成數(shù)據(jù)總是一個挑戰(zhàn)。合成數(shù)據(jù)就好比模糊的圖像。目前還不清楚它如何影響訓(xùn)練和學(xué)習(xí)模型的結(jié)果,這使得將來調(diào)試任何問題都很困難。

合成數(shù)據(jù)還存在大多數(shù)機器學(xué)習(xí)項目都存在的問題:將錯誤的問題與錯誤的工具聯(lián)系起來,然后得出模型沒有效果的結(jié)論,而實際情況可能是合成數(shù)據(jù)根本不合標(biāo)準(zhǔn)。

未知偏差也是使用合成數(shù)據(jù)方面的一個問題,因為用戶無法保證模型學(xué)會的表示具有的質(zhì)量。如果開發(fā)人員無法訪問真實數(shù)據(jù),只能看到真實數(shù)據(jù)的局部情況,增加的抽象層可能會為固有的偏見帶來機會。

最后,機器學(xué)習(xí)訓(xùn)練模型中使用合成數(shù)據(jù)的成本很高。若使用合成數(shù)據(jù),團(tuán)隊常常需要運行計算、調(diào)整模型數(shù)百次(如果不是數(shù)千次),以獲得最精確的結(jié)果。加上傳輸全面訓(xùn)練所需的大量數(shù)據(jù)的額外成本,從時間和投入角度來看,合成數(shù)據(jù)最終會比利用使用來自數(shù)據(jù)源的真實數(shù)據(jù)的其他方法更燒錢,比如隱私增強技術(shù)。

3.聯(lián)合學(xué)習(xí)是未來

在真實數(shù)據(jù)存在但孤立的情況下,解決使用合成數(shù)據(jù)的數(shù)據(jù)訪問挑戰(zhàn)與聯(lián)合學(xué)習(xí)解決方案相比稍遜一籌。聯(lián)合學(xué)習(xí)通過將一個或多個模型的版本發(fā)送到環(huán)境中的數(shù)據(jù),而不是要求數(shù)據(jù)移動到模型中,從而實現(xiàn)對AI模型的出色訓(xùn)練。因為聯(lián)合學(xué)習(xí)能夠安全訪問真實的高質(zhì)量數(shù)據(jù),同時允許數(shù)據(jù)托管者對相應(yīng)數(shù)據(jù)保留完全控制度和安全性,它在互操作性、隱私法規(guī)或集中成本這幾個障礙的用例中不需要生成和使用合成數(shù)據(jù)。

聯(lián)合學(xué)習(xí)真正大放異彩的地方是在醫(yī)療保健和金融等高度監(jiān)管行業(yè)的用例中;在這些行業(yè),開發(fā)人員基本上無法訪問機密的、受保護(hù)的數(shù)據(jù)集。想象這一幕:由于現(xiàn)在可以訪問之前因敏感性而無法訪問的數(shù)據(jù),現(xiàn)在擁有更好的癌癥診斷、病毒爆發(fā)預(yù)測和欺詐檢測。突破性的AI進(jìn)步可以讓這一幕成為現(xiàn)實,但這種現(xiàn)實有賴于訪問大量數(shù)據(jù),這些數(shù)據(jù)目前分布在各個業(yè)務(wù)部門、組織和國家,每個國家都有不同的隱私法規(guī)。現(xiàn)在能夠安全地獲取這些數(shù)據(jù)的價值,但目前只有大型科技公司這個群體才能訪問這些數(shù)據(jù),因為它們有豐富的資源。

雖然合成數(shù)據(jù)解決了無法訪問數(shù)據(jù)來訓(xùn)練模型的問題,但對于大多數(shù)其他用例來說,它將不如針對使用聯(lián)合學(xué)習(xí)工具訪問的數(shù)據(jù)進(jìn)行模型訓(xùn)練,后者可以更好地保護(hù)隱私;通過能夠處理細(xì)粒度的高質(zhì)量源數(shù)據(jù),獲得更準(zhǔn)確的結(jié)果;并且避免合成數(shù)據(jù)不可避免的固有的、附加的抽象層。

通過聯(lián)合學(xué)習(xí),隱私增強技術(shù)的普及打破了組織內(nèi)部和組織之間在協(xié)作方面的障礙,加大了對高質(zhì)量數(shù)據(jù)的訪問。力求創(chuàng)新的數(shù)據(jù)科學(xué)家和工程師可以用最好的數(shù)據(jù)無縫地構(gòu)建最好的AI系統(tǒng),無論數(shù)據(jù)在何處,同時為提供相應(yīng)數(shù)據(jù)的組織和個人保持最高標(biāo)準(zhǔn)的信任和安全。

原文鏈接:https://solutionsreview.com/data-management/synthetic-data-definition-key-opportunities-and-pitfalls-explained/?utm_source=rss&utm_medium=rss&utm_campaign=synthetic-data-definition-key-opportunities-and-pitfalls-explained

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2022-08-11 08:00:00

機器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2022-04-17 23:13:02

人工智能元宇宙數(shù)據(jù)

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2024-09-02 16:11:39

大數(shù)據(jù)

2024-01-16 14:23:32

大數(shù)據(jù)人工智能AI

2022-08-23 14:56:04

合成數(shù)據(jù)數(shù)據(jù)

2022-06-13 11:18:08

合成數(shù)據(jù)AIML

2021-03-23 23:17:18

AI人工智能

2019-10-23 19:33:24

數(shù)據(jù)科學(xué)保護(hù)數(shù)據(jù)匿名化

2021-01-29 08:00:00

服務(wù)器安全SELinux

2022-06-13 15:28:42

人工智能機器學(xué)習(xí)數(shù)據(jù)

2023-08-01 14:59:35

人工智能合成數(shù)據(jù)

2018-08-23 04:26:54

合成數(shù)據(jù)機器學(xué)習(xí)數(shù)據(jù)集

2022-06-20 11:28:20

人工智能數(shù)據(jù)生成器

2024-04-18 08:38:15

LLM數(shù)據(jù)訓(xùn)練模型

2022-11-17 11:48:51

自動駕駛算法

2023-08-01 15:46:18

數(shù)據(jù)

2010-12-14 16:22:02

數(shù)據(jù)庫

2024-12-27 10:00:00

數(shù)據(jù)自動駕駛

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型
點贊
收藏

51CTO技術(shù)棧公眾號