自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用深度學習模型生成合成數(shù)據(jù)

譯文
大數(shù)據(jù) 數(shù)據(jù)倉庫
合成數(shù)據(jù)倉庫(SDV)是一個生成合成數(shù)據(jù)的生態(tài)系統(tǒng),允許用戶通過了解單表、多表、文本和時間序列數(shù)據(jù)集,輕松創(chuàng)建合成數(shù)據(jù)。SDV使用概率圖形模型和深度學習技術來生成合成數(shù)據(jù)。

譯者 | 布加迪

審校 | 孫淑娟

不可否認,21世紀最大的資源是數(shù)據(jù)——數(shù)據(jù)通常被稱為第四代工業(yè);只有公司采用這種模式收集數(shù)據(jù),并利用數(shù)據(jù)做出明智決策的公司,才會蓬勃發(fā)展。但是收集數(shù)據(jù)和進行實驗并不像聽起來那么簡單,大多數(shù)中等公司沒有存儲可擴展數(shù)據(jù)的基礎設施或資源。在大多數(shù)情況下,當您必須在沒有可擴展數(shù)據(jù)的情況下測試機器學習/人工智能模型時,我們必須使用機器學習生成合成數(shù)據(jù)。在一些用例中,公司之所以生成合成數(shù)據(jù),是由于它希望對數(shù)據(jù)保密。

使用合成數(shù)據(jù)倉庫生成合成數(shù)據(jù)

合成數(shù)據(jù)倉庫(SDV)是一個生成合成數(shù)據(jù)的生態(tài)系統(tǒng),允許用戶通過了解單表、多表、文本和時間序列數(shù)據(jù)集,輕松創(chuàng)建合成數(shù)據(jù)。SDV使用概率圖形模型和深度學習技術來生成合成數(shù)據(jù)。

在我們的場景中,我們將使用高斯連接函數(shù)(Gaussian Coupla)來生成合成數(shù)據(jù)——高斯連接函數(shù)是一種方法,我們通過使用協(xié)方差矩陣來生成多變量隨機變量。

下面是安裝和導入高斯連接函數(shù)實例的代碼:

圖片

為了使實例擬合高斯連接函數(shù),不妨將通用數(shù)據(jù)集導入到筆記本(notebook),我們不妨從kaggle下載保險索賠數(shù)據(jù)集。該數(shù)據(jù)集具有分類、連續(xù)和自由的文本數(shù)據(jù),因此我們可以看到SDV庫的有效性/范圍。

圖片

我們可以從上圖中看到,該保險索賠數(shù)據(jù)的數(shù)據(jù)類型有object、int64和float64這幾種。

將數(shù)據(jù)集擬合到高斯連接函數(shù)實例中,生成10萬個樣本:

圖片

不妨為生成的合成變量檢查數(shù)據(jù)類型:

圖片

只需觀察原始數(shù)據(jù)和生成的合成數(shù)據(jù)之間的數(shù)據(jù)類型;它們完全匹配,這表明SDV運行起來有多高效。

不妨更進一步,使用table_evaluator庫來比較真實數(shù)據(jù)集和合成數(shù)據(jù)集:

圖片

真實數(shù)據(jù)和虛假數(shù)據(jù)的對數(shù)均值和標準偏差比較

圖片

真實數(shù)據(jù)和虛假數(shù)據(jù)變量比較的示意圖:

我已經(jīng)加入了一些選定變量的視覺元素——為44個變量生成的完整報告相當全面,這里僅顯示部分。

圖片


圖片

我們從上面圖表中可以看到SDV生成分類和規(guī)范化連續(xù)變量的功能有多強大。

咱們還是編程吧,生成合成數(shù)據(jù),并使用它訓練機器學習模型及更多!

原文鏈接:??https://omkargawade.medium.com/generating-synthetic-data-using-deep-learning-model-5066aed80e30?

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2022-08-11 08:00:00

機器學習合成數(shù)據(jù)深度學習

2016-08-23 13:35:22

MVCEFNuGet

2024-04-18 08:38:15

LLM數(shù)據(jù)訓練模型

2023-08-01 15:46:18

數(shù)據(jù)

2024-08-09 08:12:35

深度學習VAEsGANs

2009-12-30 14:12:53

ADO.NET Fra

2022-07-11 08:00:00

開源工具DoppelGANg

2022-06-20 11:28:20

人工智能數(shù)據(jù)生成器

2025-01-23 09:15:00

數(shù)據(jù)技術模型

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-01-16 14:23:32

大數(shù)據(jù)人工智能AI

2022-07-22 08:00:00

深度學習數(shù)據(jù)機器學習

2025-04-21 09:20:00

2022-08-23 14:56:04

合成數(shù)據(jù)數(shù)據(jù)

2024-10-14 09:25:00

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2023-01-09 08:00:00

遷移學習機器學習數(shù)據(jù)集

2018-08-23 04:26:54

合成數(shù)據(jù)機器學習數(shù)據(jù)集

2019-10-23 19:33:24

數(shù)據(jù)科學保護數(shù)據(jù)匿名化
點贊
收藏

51CTO技術棧公眾號