自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文讀懂:什么是合成數(shù)據(jù)?

大數(shù)據(jù)
合成數(shù)據(jù)是在詳細(xì)的算法和仿真的幫助下系統(tǒng)生成的人工數(shù)據(jù)。它是完全匿名的數(shù)據(jù),是真實(shí)數(shù)據(jù)的絕佳替代品,因?yàn)樗试S組織創(chuàng)建按需培訓(xùn)數(shù)據(jù),無(wú)論他們想要多大的規(guī)模。

如今,數(shù)據(jù)正在大規(guī)模地產(chǎn)生,為機(jī)器學(xué)習(xí)提供了絕佳的機(jī)會(huì)。然而,對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)實(shí)踐者來(lái)說(shuō),這些數(shù)據(jù)的很大一部分仍然是超界的。嚴(yán)格的隱私管理、高昂的成本、長(zhǎng)時(shí)間的處理都阻礙了數(shù)據(jù)的分析。

因此,Gartner預(yù)估85%的AI項(xiàng)目都將失敗,這就是合成數(shù)據(jù)的好處所在。

合成數(shù)據(jù)是在詳細(xì)的算法和仿真的幫助下系統(tǒng)生成的人工數(shù)據(jù)。它是完全匿名的數(shù)據(jù),是真實(shí)數(shù)據(jù)的絕佳替代品,因?yàn)樗试S組織創(chuàng)建按需培訓(xùn)數(shù)據(jù),無(wú)論他們想要多大的規(guī)模。

什么是合成數(shù)據(jù)?

人工智能算法人工創(chuàng)建合成數(shù)據(jù),但它是在真實(shí)數(shù)據(jù)集上訓(xùn)練的,具有與原始數(shù)據(jù)相同的屬性。由于合成數(shù)據(jù)與實(shí)際數(shù)據(jù)沒(méi)有一對(duì)一的關(guān)聯(lián),因此重新識(shí)別的機(jī)會(huì)更少。

因此,數(shù)據(jù)科學(xué)家可以自信地復(fù)制和使用數(shù)據(jù)進(jìn)行測(cè)試和建模,而不會(huì)有暴露個(gè)人身份信息的風(fēng)險(xiǎn),也不會(huì)與監(jiān)管機(jī)構(gòu)發(fā)生沖突。

如何生成合成數(shù)據(jù)?

有幾種方法可以生成合成數(shù)據(jù)。更簡(jiǎn)單的選擇包括蒙特卡洛模擬和從分布集中繪制數(shù)字,但如果數(shù)據(jù)集很復(fù)雜,通常首選生成模型。

生成模型是基于神經(jīng)網(wǎng)絡(luò)的,它可以自動(dòng)從現(xiàn)實(shí)數(shù)據(jù)中找到的模式中學(xué)習(xí),并產(chǎn)生與現(xiàn)實(shí)數(shù)據(jù)精確匹配的信息。生成對(duì)抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs)是兩種常見(jiàn)的生成模型架構(gòu)。

在GAN模型中,兩個(gè)神經(jīng)網(wǎng)絡(luò)模型(稱為生成器和鑒別器)在一個(gè)零和游戲中競(jìng)爭(zhēng),其中一個(gè)網(wǎng)絡(luò)的收益就是另一個(gè)網(wǎng)絡(luò)的損失。另一方面,變分自編碼器是工作在編碼器-解碼器概念上的無(wú)監(jiān)督模型。

什么工具有助于合成數(shù)據(jù)的生成?

下面是可以用來(lái)創(chuàng)建合成數(shù)據(jù)的工具示例:

  • Datagen是一個(gè)合成數(shù)據(jù)集解決方案,提供逼真的數(shù)據(jù)集,可用于物聯(lián)網(wǎng)(IoT)、機(jī)器人和增強(qiáng)現(xiàn)實(shí)(AR)。
  • Scikit-learn構(gòu)建于Matplotlib、NumPy和SciPy之上,是一個(gè)開(kāi)源的Python庫(kù),提供了生成合成數(shù)據(jù)集的工具。
  • Pydgben是一個(gè)Python庫(kù),它可以創(chuàng)建常見(jiàn)的條目,如姓名、工作、信用卡號(hào)碼、電子郵件地址等。
  • 并行域是一個(gè)合成數(shù)據(jù)平臺(tái),產(chǎn)生高質(zhì)量的傳感器數(shù)據(jù),以改善ML模型和計(jì)算機(jī)視覺(jué)工作流程。

使用合成數(shù)據(jù)的好處

在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí),合成數(shù)據(jù)比其他類型的數(shù)據(jù)更具可擴(kuò)展性、更容易使用、更具有成本效益。

  • 可伸縮性。ML模型消耗大量數(shù)據(jù)。為了訓(xùn)練和測(cè)試的目的,根本不可能獲得如此大量的有關(guān)數(shù)據(jù)。借助合成數(shù)據(jù)工具,數(shù)據(jù)科學(xué)家可以創(chuàng)建任意數(shù)量的數(shù)據(jù)副本,以構(gòu)建高質(zhì)量的AI/ML模型。
  • 易用性。在處理真實(shí)數(shù)據(jù)時(shí),保護(hù)個(gè)人信息、消除不準(zhǔn)確信息和有效地處理不同格式的數(shù)據(jù)至關(guān)重要。合成數(shù)據(jù)處理起來(lái)要容易得多,因?yàn)樗谏w了私人信息、消除了錯(cuò)誤,并標(biāo)準(zhǔn)化了格式,以更直觀地進(jìn)行標(biāo)記。
  • 具有成本效益。獲取真實(shí)的培訓(xùn)數(shù)據(jù)可能會(huì)讓企業(yè)花費(fèi)大量資金。此外,手動(dòng)標(biāo)記它們是耗時(shí)的。有了合成數(shù)據(jù)生成工具,這一過(guò)程被簡(jiǎn)化,并證明是一個(gè)更經(jīng)濟(jì)和更快的過(guò)程。

使用合成數(shù)據(jù)的挑戰(zhàn)

合成數(shù)據(jù)提供了一些好處,但它也有一定的局限性。例如,一個(gè)顯著的缺點(diǎn)是,有效地使用合成數(shù)據(jù)需要高技能的分析師,他們知道如何使用復(fù)雜的數(shù)據(jù)生成器工具。這通常是困難的,因?yàn)樵诰蜆I(yè)市場(chǎng)上缺乏合格的人工智能工人。

此外,合成數(shù)據(jù)只與原始數(shù)據(jù)一樣好,而真實(shí)數(shù)據(jù)往往充滿偏見(jiàn)。因此,當(dāng)神經(jīng)網(wǎng)絡(luò)在有偏差的歷史數(shù)據(jù)上訓(xùn)練時(shí),它們反映了相同的偏差。這通常會(huì)導(dǎo)致機(jī)器學(xué)習(xí)模型的輸出不準(zhǔn)確。

合成數(shù)據(jù)的用例

合成數(shù)據(jù)最突出的兩個(gè)應(yīng)用案例是自動(dòng)駕駛汽車和醫(yī)療保健。

  • 自動(dòng)駕駛。到目前為止,自動(dòng)駕駛汽車是合成數(shù)據(jù)的最佳用例。汽車制造商必須考慮數(shù)以百萬(wàn)計(jì)的場(chǎng)景,并收集相應(yīng)的數(shù)據(jù),以制造安全的汽車。這在現(xiàn)實(shí)中是不可能實(shí)現(xiàn)的,但通過(guò)合成數(shù)據(jù),組織可以生成任何可以想象的駕駛場(chǎng)景的數(shù)百萬(wàn)甚至數(shù)十億種排列,從而達(dá)成安全駕駛解決方案。
  • 醫(yī)療保健。醫(yī)療保健是一個(gè)高度監(jiān)管的行業(yè),有嚴(yán)格的法律管理患者數(shù)據(jù)的使用。由于合成數(shù)據(jù)是完全匿名的,不存在重新識(shí)別的風(fēng)險(xiǎn),醫(yī)療機(jī)構(gòu)可以輕松地使用它進(jìn)行科學(xué)研究、臨床試驗(yàn)和訓(xùn)練醫(yī)療行業(yè)的ML模型。

合成數(shù)據(jù)的未來(lái)

合成數(shù)據(jù)生成是創(chuàng)建具有成本效益和高度可伸縮數(shù)據(jù)的革命性方法。隨著人們對(duì)合成數(shù)據(jù)及其各種好處的認(rèn)識(shí)越來(lái)越多,越來(lái)越多的企業(yè)將挖掘其潛力以獲得好處。

此外,隨著隱私法的收緊,企業(yè)將別無(wú)選擇,只能求助于合成數(shù)據(jù)。因此,它將繼續(xù)受到歡迎,直到它完全成為主流。

責(zé)任編輯:趙寧寧 來(lái)源: IT168網(wǎng)站
相關(guān)推薦

2021-10-18 14:30:55

物聯(lián)網(wǎng)IOT

2023-05-11 15:24:12

2023-03-08 11:54:00

NB-IoT智能管理

2024-02-29 14:27:37

人工智能機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)

2023-04-11 14:48:34

2022-10-20 08:01:23

2023-02-23 15:32:55

2023-06-26 16:51:49

數(shù)字孿生數(shù)字技術(shù)

2022-10-08 06:38:01

元宇宙NFT加密貨幣

2022-08-27 10:37:48

電子取證信息安全

2018-08-23 04:26:54

合成數(shù)據(jù)機(jī)器學(xué)習(xí)數(shù)據(jù)集

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領(lǐng)云

2018-09-05 15:51:25

Java自動(dòng)拆裝箱

2023-06-19 13:57:00

數(shù)據(jù)系統(tǒng)

2017-06-02 15:32:09

大數(shù)據(jù)數(shù)據(jù)可視化

2018-09-28 14:06:25

前端緩存后端

2022-09-22 09:00:46

CSS單位

2025-04-03 10:56:47

2022-11-06 21:14:02

數(shù)據(jù)驅(qū)動(dòng)架構(gòu)數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)