自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI訓(xùn)練的福音：關(guān)于合成數(shù)據(jù)的一切

作者：佚名 2021-03-23 23:17:18

合成數(shù)據(jù)是指由計算機(jī)人工生成的數(shù)據(jù)，可用于替代自現(xiàn)實世界中采集的真實數(shù)據(jù)。

如今，AI技術(shù)面臨數(shù)個難以攻克的核心挑戰(zhàn)。其不僅需要大量數(shù)據(jù)以提供準(zhǔn)確結(jié)果，同時也要求我們認(rèn)真挑選數(shù)據(jù)內(nèi)容以避免引入偏見，而且必須嚴(yán)格遵守日益苛刻的數(shù)據(jù)隱私法規(guī)。過去幾年以來，圍繞這些挑戰(zhàn)誕生出一系列解決方案——包括用于幫助識別并減少偏差/偏見的各類工具、用戶數(shù)據(jù)匿名化方案以及用于保證僅在用戶同意時收集數(shù)據(jù)的管理框架等等。然而，每一種解決方案都有著自己的問題與短板。

如今，我們正迎來合成數(shù)據(jù)這一新興行業(yè)，有望全面破除上述困局。合成數(shù)據(jù)是指由計算機(jī)人工生成的數(shù)據(jù)，可用于替代自現(xiàn)實世界中采集的真實數(shù)據(jù)。

合成數(shù)據(jù)集必須與真實數(shù)據(jù)集擁有相同的數(shù)學(xué)與統(tǒng)計學(xué)屬性，但不可明確指代真實個體。大家可以將其理解為真實數(shù)據(jù)的一種數(shù)字化鏡像，能夠在統(tǒng)計學(xué)層面反映實際情況。如此一來，我們就可以在完全虛擬的場域當(dāng)中訓(xùn)練AI系統(tǒng)，并更輕松地針對醫(yī)療保健、零售、金融、運(yùn)輸乃至農(nóng)業(yè)等各類用例實現(xiàn)數(shù)據(jù)定制。

由此掀起的革命浪潮正在孕育當(dāng)中。StartUs Insights去年6月發(fā)布的研究結(jié)果表明，已經(jīng)有50多家供應(yīng)商開發(fā)出合成數(shù)據(jù)解決方案。但在具體介紹領(lǐng)先廠商之前，我們先來了解合成數(shù)據(jù)能夠解決哪些具體問題。

真實數(shù)據(jù)帶來的大麻煩

過去幾年以來，人們越來越關(guān)注數(shù)據(jù)集中的固有偏差/偏見如何在無意之間給AI算法帶來永久存在的系統(tǒng)性歧視。根據(jù)Gartner公司的預(yù)測，到2022年，由數(shù)據(jù)、算法或AI項目管理團(tuán)隊引入的偏差/偏見將在所有錯誤交付結(jié)果中占據(jù)85%的比例。

AI算法的激增也引發(fā)了人們對于數(shù)據(jù)隱私的日益關(guān)注。為此，歐盟通過GDPR、加利福尼亞州頒布州內(nèi)隱私法案，弗吉尼亞州最近也著手制定更為嚴(yán)苛的消費(fèi)者數(shù)據(jù)隱私與保護(hù)條款。

相關(guān)法律的出臺，使消費(fèi)者能夠更好地控制其個人數(shù)據(jù)。例如，弗吉尼亞州的新法律向消費(fèi)者授予訪問、更正、刪除及獲取個人數(shù)據(jù)副本的權(quán)利，同時也允許消費(fèi)者隨時拒絕企業(yè)銷售其個人數(shù)據(jù)、或者出于針對性廣告發(fā)布等目的對個人數(shù)據(jù)/資料進(jìn)行算法訪問的行為。

通過限制信息訪問渠道，個人信息確實得到了有效保護(hù)，但這同時也將犧牲算法的預(yù)測效果。要獲得高準(zhǔn)確性AI算法，模型希望數(shù)據(jù)供應(yīng)越多越好;而如果得不到充足的數(shù)據(jù)，則AI優(yōu)勢在實際應(yīng)用(例如協(xié)助醫(yī)學(xué)診斷及藥物研究)方面的表現(xiàn)也可能受到影響。

另一種隱私問題解決方案則是消費(fèi)者信息匿名化。例如，我們可以通過掩蔽或消除身份特征(例如刪除電子商務(wù)交易記錄中的姓名、信用卡號，或者清除醫(yī)療記錄中的身份內(nèi)容等)實現(xiàn)個人數(shù)據(jù)匿名化。但越來越多的證據(jù)表明，即使對某一數(shù)據(jù)源完成匿名處理，對方仍能夠利用不慎泄露的其他消費(fèi)者數(shù)據(jù)集實現(xiàn)內(nèi)容關(guān)聯(lián)與還原。實際上，通過合并來自多個來源的數(shù)據(jù)，即使經(jīng)過一定程度的匿名化，惡意方仍然能夠整理出令人驚訝的清晰身份形象。在某些特定情況下，對方甚至能夠直接關(guān)聯(lián)公共來源數(shù)據(jù)，在無需任何惡意攻擊的前提下完成身份定位。

合成數(shù)據(jù)解決方案

合成數(shù)據(jù)承諾在實現(xiàn)AI優(yōu)勢的同時，消除各類負(fù)面影響。除了將真實個人數(shù)據(jù)排除在外，合成數(shù)據(jù)還強(qiáng)調(diào)糾正現(xiàn)實場景中產(chǎn)生的種種偏差/偏見，由此實現(xiàn)超越真實數(shù)據(jù)的素材質(zhì)量。

除了高度依賴個人數(shù)據(jù)的應(yīng)用場景之外，合成數(shù)據(jù)還有其他多種用途。其一就是復(fù)雜的計算機(jī)視覺建模，這里往往涉及多種因素的實時交互。我們可以使用由高級游戲引擎合成的視頻數(shù)據(jù)集創(chuàng)建出超逼真圖像，用以描繪自動駕駛場景中可能發(fā)生的各種事件，由此獲得現(xiàn)實場景下幾乎不可能捕捉到、或者可能極度危險的圖像或視頻。這些合成數(shù)據(jù)集的出現(xiàn)，極大提升并改善了自動駕駛系統(tǒng)的訓(xùn)練效率與效果。

圖：使用合成圖像訓(xùn)練自動駕駛車輛算法

頗為諷刺的是，用于構(gòu)建合成數(shù)據(jù)的主要工具之一，恰巧與創(chuàng)建Deepfake深度偽造視頻的工具相同。二者均使用到生成對抗網(wǎng)絡(luò)，即GAN。GAN的本質(zhì)在于創(chuàng)建兩套神經(jīng)網(wǎng)絡(luò)，其一生成合成數(shù)據(jù)，其二則嘗試檢測合成數(shù)據(jù)是否真實。在整個操作循環(huán)當(dāng)中，生成器網(wǎng)絡(luò)將不斷改善數(shù)據(jù)質(zhì)量，直到分類器無法找出真實數(shù)據(jù)與合成數(shù)據(jù)之間的差異為止。

新興生態(tài)系統(tǒng)

Forrester Research最近確定了多項關(guān)鍵技術(shù)，其中就將合成數(shù)據(jù)列為實現(xiàn)“AI 2.0”的必要因素之一，使其能夠從本質(zhì)上擴(kuò)展AI的應(yīng)用可能性。通過更完備的數(shù)據(jù)匿名化功能以及強(qiáng)大的固有偏差/偏見糾正能力，再加上批量創(chuàng)建以往難于獲取的數(shù)據(jù)，合成數(shù)據(jù)有望成為多種大數(shù)據(jù)應(yīng)用的效率之選。

合成數(shù)據(jù)還具有其他一系列優(yōu)勢：您可以快速創(chuàng)建數(shù)據(jù)集，并重復(fù)使用這些標(biāo)記數(shù)據(jù)實現(xiàn)監(jiān)督學(xué)習(xí)。另外，合成數(shù)據(jù)不像真實數(shù)據(jù)那樣需要清洗與維護(hù)，因此至少從理論上講，這項技術(shù)能夠節(jié)約下大量時間與成本。

目前，市場上已經(jīng)出現(xiàn)了幾家信譽(yù)卓著的合成數(shù)據(jù)廠商。IBM表示其正著力推進(jìn)數(shù)據(jù)制造業(yè)務(wù)，希望通過創(chuàng)建合成測試數(shù)據(jù)以消除機(jī)密信息泄露風(fēng)險、解決GDPR及其他法規(guī)問題。AWS則開發(fā)出內(nèi)部合成數(shù)據(jù)工具，通過生成的數(shù)據(jù)集不斷對Alexa進(jìn)行新語種訓(xùn)練。微軟還與哈佛大學(xué)合作開發(fā)一款工具，其中的合成數(shù)據(jù)功能可以增強(qiáng)各研究部門之間的協(xié)作。雖然形勢一片大好，但合成數(shù)據(jù)仍處于起步階段，市場走向?qū)⒃诤艽蟪潭壬嫌尚屡d企業(yè)的發(fā)展所決定。

下面，我們整理出一份簡單的合成數(shù)據(jù)行業(yè)早期領(lǐng)導(dǎo)廠商清單，具體信息來自G2與StartUs Insights等行業(yè)研究組織。

1、AiFi — 使用合成數(shù)據(jù)模擬零售商店與購物者行為特征。

2、AI.Reverie — 生成合成數(shù)據(jù)以訓(xùn)練計算機(jī)視覺算法，借此實現(xiàn)活動識別、目標(biāo)檢測與劃分。應(yīng)用范圍包括智慧城市、稀有物質(zhì)示板識別、農(nóng)業(yè)以及智能零售等場景。

3、Anyverse — 使用原始傳感器數(shù)據(jù)、圖像處理功能以及汽車行業(yè)的定制化激光雷達(dá)創(chuàng)建合成數(shù)據(jù)集，借此實現(xiàn)場景模擬。

4、Cvedia — 創(chuàng)建合成圖像，簡化標(biāo)記、真實與視覺數(shù)據(jù)的收集流程。這套模擬平臺使用多種傳感器合成逼真環(huán)境，借此創(chuàng)建出豐富的實證數(shù)據(jù)集。

5、DataGen — 室內(nèi)環(huán)境用例，支持智能商店、家用機(jī)器人及增強(qiáng)現(xiàn)實等場景。

6、Diveplane — 為醫(yī)療保健行業(yè)創(chuàng)建與原始數(shù)據(jù)具有相同統(tǒng)計學(xué)屬性的合成“孿生”數(shù)據(jù)集。

7、Gretel — 為開發(fā)人員提供與GitHub數(shù)據(jù)等效的合成數(shù)據(jù)集，其中包含與原始數(shù)據(jù)源相同的洞見。

8、Hazy — 生成數(shù)據(jù)集以增強(qiáng)欺詐與洗錢檢測能力，用以打擊各類金融犯罪。

9、Mostly AI — 專注于保險與金融領(lǐng)域，也是最早創(chuàng)建合成結(jié)構(gòu)化數(shù)據(jù)的廠商之一。

10、OneView – 開發(fā)虛擬合成數(shù)據(jù)集，用于通過機(jī)器學(xué)習(xí)算法分析地球觀測圖像。

責(zé)任編輯：龐桂玉來源：科技行

AI 人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="opg3s"></style>