自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI訓(xùn)練的福音:關(guān)于合成數(shù)據(jù)的一切

人工智能
合成數(shù)據(jù)是指由計算機(jī)人工生成的數(shù)據(jù),可用于替代自現(xiàn)實世界中采集的真實數(shù)據(jù)。

如今,AI技術(shù)面臨數(shù)個難以攻克的核心挑戰(zhàn)。其不僅需要大量數(shù)據(jù)以提供準(zhǔn)確結(jié)果,同時也要求我們認(rèn)真挑選數(shù)據(jù)內(nèi)容以避免引入偏見,而且必須嚴(yán)格遵守日益苛刻的數(shù)據(jù)隱私法規(guī)。過去幾年以來,圍繞這些挑戰(zhàn)誕生出一系列解決方案——包括用于幫助識別并減少偏差/偏見的各類工具、用戶數(shù)據(jù)匿名化方案以及用于保證僅在用戶同意時收集數(shù)據(jù)的管理框架等等。然而,每一種解決方案都有著自己的問題與短板。 

如今,我們正迎來合成數(shù)據(jù)這一新興行業(yè),有望全面破除上述困局。合成數(shù)據(jù)是指由計算機(jī)人工生成的數(shù)據(jù),可用于替代自現(xiàn)實世界中采集的真實數(shù)據(jù)。

合成數(shù)據(jù)集必須與真實數(shù)據(jù)集擁有相同的數(shù)學(xué)與統(tǒng)計學(xué)屬性,但不可明確指代真實個體。大家可以將其理解為真實數(shù)據(jù)的一種數(shù)字化鏡像,能夠在統(tǒng)計學(xué)層面反映實際情況。如此一來,我們就可以在完全虛擬的場域當(dāng)中訓(xùn)練AI系統(tǒng),并更輕松地針對醫(yī)療保健、零售、金融、運(yùn)輸乃至農(nóng)業(yè)等各類用例實現(xiàn)數(shù)據(jù)定制。

由此掀起的革命浪潮正在孕育當(dāng)中。StartUs Insights去年6月發(fā)布的研究結(jié)果表明,已經(jīng)有50多家供應(yīng)商開發(fā)出合成數(shù)據(jù)解決方案。但在具體介紹領(lǐng)先廠商之前,我們先來了解合成數(shù)據(jù)能夠解決哪些具體問題。

真實數(shù)據(jù)帶來的大麻煩

過去幾年以來,人們越來越關(guān)注數(shù)據(jù)集中的固有偏差/偏見如何在無意之間給AI算法帶來永久存在的系統(tǒng)性歧視。根據(jù)Gartner公司的預(yù)測,到2022年,由數(shù)據(jù)、算法或AI項目管理團(tuán)隊引入的偏差/偏見將在所有錯誤交付結(jié)果中占據(jù)85%的比例。

AI算法的激增也引發(fā)了人們對于數(shù)據(jù)隱私的日益關(guān)注。為此,歐盟通過GDPR、加利福尼亞州頒布州內(nèi)隱私法案,弗吉尼亞州最近也著手制定更為嚴(yán)苛的消費(fèi)者數(shù)據(jù)隱私與保護(hù)條款。

相關(guān)法律的出臺,使消費(fèi)者能夠更好地控制其個人數(shù)據(jù)。例如,弗吉尼亞州的新法律向消費(fèi)者授予訪問、更正、刪除及獲取個人數(shù)據(jù)副本的權(quán)利,同時也允許消費(fèi)者隨時拒絕企業(yè)銷售其個人數(shù)據(jù)、或者出于針對性廣告發(fā)布等目的對個人數(shù)據(jù)/資料進(jìn)行算法訪問的行為。

通過限制信息訪問渠道,個人信息確實得到了有效保護(hù),但這同時也將犧牲算法的預(yù)測效果。要獲得高準(zhǔn)確性AI算法,模型希望數(shù)據(jù)供應(yīng)越多越好;而如果得不到充足的數(shù)據(jù),則AI優(yōu)勢在實際應(yīng)用(例如協(xié)助醫(yī)學(xué)診斷及藥物研究)方面的表現(xiàn)也可能受到影響。

另一種隱私問題解決方案則是消費(fèi)者信息匿名化。例如,我們可以通過掩蔽或消除身份特征(例如刪除電子商務(wù)交易記錄中的姓名、信用卡號,或者清除醫(yī)療記錄中的身份內(nèi)容等)實現(xiàn)個人數(shù)據(jù)匿名化。但越來越多的證據(jù)表明,即使對某一數(shù)據(jù)源完成匿名處理,對方仍能夠利用不慎泄露的其他消費(fèi)者數(shù)據(jù)集實現(xiàn)內(nèi)容關(guān)聯(lián)與還原。實際上,通過合并來自多個來源的數(shù)據(jù),即使經(jīng)過一定程度的匿名化,惡意方仍然能夠整理出令人驚訝的清晰身份形象。在某些特定情況下,對方甚至能夠直接關(guān)聯(lián)公共來源數(shù)據(jù),在無需任何惡意攻擊的前提下完成身份定位。

合成數(shù)據(jù)解決方案

合成數(shù)據(jù)承諾在實現(xiàn)AI優(yōu)勢的同時,消除各類負(fù)面影響。除了將真實個人數(shù)據(jù)排除在外,合成數(shù)據(jù)還強(qiáng)調(diào)糾正現(xiàn)實場景中產(chǎn)生的種種偏差/偏見,由此實現(xiàn)超越真實數(shù)據(jù)的素材質(zhì)量。

除了高度依賴個人數(shù)據(jù)的應(yīng)用場景之外,合成數(shù)據(jù)還有其他多種用途。其一就是復(fù)雜的計算機(jī)視覺建模,這里往往涉及多種因素的實時交互。我們可以使用由高級游戲引擎合成的視頻數(shù)據(jù)集創(chuàng)建出超逼真圖像,用以描繪自動駕駛場景中可能發(fā)生的各種事件,由此獲得現(xiàn)實場景下幾乎不可能捕捉到、或者可能極度危險的圖像或視頻。這些合成數(shù)據(jù)集的出現(xiàn),極大提升并改善了自動駕駛系統(tǒng)的訓(xùn)練效率與效果。 

圖:使用合成圖像訓(xùn)練自動駕駛車輛算法

頗為諷刺的是,用于構(gòu)建合成數(shù)據(jù)的主要工具之一,恰巧與創(chuàng)建Deepfake深度偽造視頻的工具相同。二者均使用到生成對抗網(wǎng)絡(luò),即GAN。GAN的本質(zhì)在于創(chuàng)建兩套神經(jīng)網(wǎng)絡(luò),其一生成合成數(shù)據(jù),其二則嘗試檢測合成數(shù)據(jù)是否真實。在整個操作循環(huán)當(dāng)中,生成器網(wǎng)絡(luò)將不斷改善數(shù)據(jù)質(zhì)量,直到分類器無法找出真實數(shù)據(jù)與合成數(shù)據(jù)之間的差異為止。

新興生態(tài)系統(tǒng)

Forrester Research最近確定了多項關(guān)鍵技術(shù),其中就將合成數(shù)據(jù)列為實現(xiàn)“AI 2.0”的必要因素之一,使其能夠從本質(zhì)上擴(kuò)展AI的應(yīng)用可能性。通過更完備的數(shù)據(jù)匿名化功能以及強(qiáng)大的固有偏差/偏見糾正能力,再加上批量創(chuàng)建以往難于獲取的數(shù)據(jù),合成數(shù)據(jù)有望成為多種大數(shù)據(jù)應(yīng)用的效率之選。

合成數(shù)據(jù)還具有其他一系列優(yōu)勢:您可以快速創(chuàng)建數(shù)據(jù)集,并重復(fù)使用這些標(biāo)記數(shù)據(jù)實現(xiàn)監(jiān)督學(xué)習(xí)。另外,合成數(shù)據(jù)不像真實數(shù)據(jù)那樣需要清洗與維護(hù),因此至少從理論上講,這項技術(shù)能夠節(jié)約下大量時間與成本。

目前,市場上已經(jīng)出現(xiàn)了幾家信譽(yù)卓著的合成數(shù)據(jù)廠商。IBM表示其正著力推進(jìn)數(shù)據(jù)制造業(yè)務(wù),希望通過創(chuàng)建合成測試數(shù)據(jù)以消除機(jī)密信息泄露風(fēng)險、解決GDPR及其他法規(guī)問題。AWS則開發(fā)出內(nèi)部合成數(shù)據(jù)工具,通過生成的數(shù)據(jù)集不斷對Alexa進(jìn)行新語種訓(xùn)練。微軟還與哈佛大學(xué)合作開發(fā)一款工具,其中的合成數(shù)據(jù)功能可以增強(qiáng)各研究部門之間的協(xié)作。雖然形勢一片大好,但合成數(shù)據(jù)仍處于起步階段,市場走向?qū)⒃诤艽蟪潭壬嫌尚屡d企業(yè)的發(fā)展所決定。

下面,我們整理出一份簡單的合成數(shù)據(jù)行業(yè)早期領(lǐng)導(dǎo)廠商清單,具體信息來自G2與StartUs Insights等行業(yè)研究組織。

1、AiFi — 使用合成數(shù)據(jù)模擬零售商店與購物者行為特征。

2、AI.Reverie — 生成合成數(shù)據(jù)以訓(xùn)練計算機(jī)視覺算法,借此實現(xiàn)活動識別、目標(biāo)檢測與劃分。應(yīng)用范圍包括智慧城市、稀有物質(zhì)示板識別、農(nóng)業(yè)以及智能零售等場景。

3、Anyverse — 使用原始傳感器數(shù)據(jù)、圖像處理功能以及汽車行業(yè)的定制化激光雷達(dá)創(chuàng)建合成數(shù)據(jù)集,借此實現(xiàn)場景模擬。

4、Cvedia — 創(chuàng)建合成圖像,簡化標(biāo)記、真實與視覺數(shù)據(jù)的收集流程。這套模擬平臺使用多種傳感器合成逼真環(huán)境,借此創(chuàng)建出豐富的實證數(shù)據(jù)集。

5、DataGen — 室內(nèi)環(huán)境用例,支持智能商店、家用機(jī)器人及增強(qiáng)現(xiàn)實等場景。

6、Diveplane — 為醫(yī)療保健行業(yè)創(chuàng)建與原始數(shù)據(jù)具有相同統(tǒng)計學(xué)屬性的合成“孿生”數(shù)據(jù)集。

7、Gretel — 為開發(fā)人員提供與GitHub數(shù)據(jù)等效的合成數(shù)據(jù)集,其中包含與原始數(shù)據(jù)源相同的洞見。

8、Hazy — 生成數(shù)據(jù)集以增強(qiáng)欺詐與洗錢檢測能力,用以打擊各類金融犯罪。

9、Mostly AI — 專注于保險與金融領(lǐng)域,也是最早創(chuàng)建合成結(jié)構(gòu)化數(shù)據(jù)的廠商之一。

10、OneView – 開發(fā)虛擬合成數(shù)據(jù)集,用于通過機(jī)器學(xué)習(xí)算法分析地球觀測圖像。 

 

責(zé)任編輯:龐桂玉 來源: 科技行
相關(guān)推薦

2020-09-11 10:55:10

useState組件前端

2022-06-13 11:18:08

合成數(shù)據(jù)AIML

2021-02-28 09:47:54

軟件架構(gòu)軟件開發(fā)軟件設(shè)計

2018-11-23 11:17:24

負(fù)載均衡分布式系統(tǒng)架構(gòu)

2021-02-19 23:08:27

軟件測試軟件開發(fā)

2020-10-14 08:04:28

JavaScrip

2021-05-28 07:12:59

Python閉包函數(shù)

2023-12-28 16:33:57

2023-12-11 16:36:09

2023-12-07 19:01:25

2022-08-21 17:35:31

原子多線程

2023-04-20 10:15:57

React組件Render

2015-05-29 11:43:57

Hadoop數(shù)據(jù)資源池

2018-01-17 09:15:52

負(fù)載均衡算法

2023-04-12 14:04:48

光纖網(wǎng)絡(luò)

2022-08-17 06:25:19

偽共享多線程

2018-01-05 14:23:36

計算機(jī)負(fù)載均衡存儲

2021-08-09 14:40:02

物聯(lián)網(wǎng)IOT智能家居

2023-07-10 10:36:17

人工智能AI

2023-02-10 08:44:05

KafkaLinkedIn模式
點贊
收藏

51CTO技術(shù)棧公眾號