使用深度學習模型生成合成數(shù)據(jù)
譯文譯者 | 布加迪
審校 | 孫淑娟
不可否認,21世紀最大的資源是數(shù)據(jù)——數(shù)據(jù)通常被稱為第四代工業(yè);只有公司采用這種模式收集數(shù)據(jù),并利用數(shù)據(jù)做出明智決策的公司,才會蓬勃發(fā)展。但是收集數(shù)據(jù)和進行實驗并不像聽起來那么簡單,大多數(shù)中等公司沒有存儲可擴展數(shù)據(jù)的基礎設施或資源。在大多數(shù)情況下,當您必須在沒有可擴展數(shù)據(jù)的情況下測試機器學習/人工智能模型時,我們必須使用機器學習生成合成數(shù)據(jù)。在一些用例中,公司之所以生成合成數(shù)據(jù),是由于它希望對數(shù)據(jù)保密。
使用合成數(shù)據(jù)倉庫生成合成數(shù)據(jù)
合成數(shù)據(jù)倉庫(SDV)是一個生成合成數(shù)據(jù)的生態(tài)系統(tǒng),允許用戶通過了解單表、多表、文本和時間序列數(shù)據(jù)集,輕松創(chuàng)建合成數(shù)據(jù)。SDV使用概率圖形模型和深度學習技術來生成合成數(shù)據(jù)。
在我們的場景中,我們將使用高斯連接函數(shù)(Gaussian Coupla)來生成合成數(shù)據(jù)——高斯連接函數(shù)是一種方法,我們通過使用協(xié)方差矩陣來生成多變量隨機變量。
下面是安裝和導入高斯連接函數(shù)實例的代碼:
為了使實例擬合高斯連接函數(shù),不妨將通用數(shù)據(jù)集導入到筆記本(notebook),我們不妨從kaggle下載保險索賠數(shù)據(jù)集。該數(shù)據(jù)集具有分類、連續(xù)和自由的文本數(shù)據(jù),因此我們可以看到SDV庫的有效性/范圍。
我們可以從上圖中看到,該保險索賠數(shù)據(jù)的數(shù)據(jù)類型有object、int64和float64這幾種。
將數(shù)據(jù)集擬合到高斯連接函數(shù)實例中,生成10萬個樣本:
不妨為生成的合成變量檢查數(shù)據(jù)類型:
只需觀察原始數(shù)據(jù)和生成的合成數(shù)據(jù)之間的數(shù)據(jù)類型;它們完全匹配,這表明SDV運行起來有多高效。
不妨更進一步,使用table_evaluator庫來比較真實數(shù)據(jù)集和合成數(shù)據(jù)集:
真實數(shù)據(jù)和虛假數(shù)據(jù)的對數(shù)均值和標準偏差比較
真實數(shù)據(jù)和虛假數(shù)據(jù)變量比較的示意圖:
我已經(jīng)加入了一些選定變量的視覺元素——為44個變量生成的完整報告相當全面,這里僅顯示部分。
我們從上面圖表中可以看到SDV生成分類和規(guī)范化連續(xù)變量的功能有多強大。
咱們還是編程吧,生成合成數(shù)據(jù),并使用它訓練機器學習模型及更多!
原文鏈接:??https://omkargawade.medium.com/generating-synthetic-data-using-deep-learning-model-5066aed80e30?