自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這些令人毛骨悚然的“假人”預(yù)示著人工智能新時(shí)代的到來(lái)

譯文
人工智能
深度學(xué)習(xí)需要更多數(shù)據(jù)嗎?合成數(shù)據(jù)公司會(huì)為你制作。

【51CTO.com快譯】你可以清晰看到“他”嘴唇上的胡茬,前額的皺紋,皮膚上的斑點(diǎn),但“他”并不是一個(gè)真實(shí)的人。“他”是被制造出來(lái)的,他“誕生”于Datagen公司。這個(gè)公司制造了成千上萬(wàn)的“假人”。這些“人”不是游戲或電影中的虛擬角色,而是為了滿(mǎn)足深度學(xué)習(xí)算法日益增長(zhǎng)的需求而制作的合成數(shù)據(jù)。

[[408114]]

  對(duì)使用人工智能感興趣的公司往往會(huì)面臨一個(gè)巨大的挑戰(zhàn)——需要足夠正確的數(shù)據(jù)來(lái)訓(xùn)練他們的系統(tǒng)。這類(lèi)公司需要大量帶有標(biāo)簽的歷史示例來(lái)訓(xùn)練AI系統(tǒng),尤其是那些使用圖像和視頻的系統(tǒng)。這種需求催生了一個(gè)專(zhuān)門(mén)幫助其他企業(yè)注釋數(shù)據(jù)的子行業(yè)。但是還有另一種方法來(lái)產(chǎn)生足夠的數(shù)據(jù)來(lái)訓(xùn)練AI系統(tǒng):“制造”它。

  真實(shí)世界數(shù)據(jù)的收集不僅耗時(shí)且昂貴,像Datagen這樣的公司提供了一個(gè)引人注目的替代方案——他們會(huì)為你制造合成數(shù)據(jù):以你想要的方式,在你想要的時(shí)候——而且相對(duì)便宜。

  為了制造合成數(shù)據(jù),首要先掃描真實(shí)的人類(lèi)。Datagen與供應(yīng)商合作,以付費(fèi)方式招募志愿者,讓志愿者進(jìn)入巨大的全身掃描儀,捕捉從虹膜、皮膚紋理到手指彎曲的每一個(gè)細(xì)節(jié)。獲得原始數(shù)據(jù)后再通過(guò)一系列算法處理,開(kāi)發(fā)出人體、面部、眼睛和手的3D模型。

  這家總部位于以色列的初創(chuàng)公司表示,它已經(jīng)和美國(guó)四大科技巨頭(未公開(kāi))達(dá)成合作。和它最對(duì)標(biāo)的公司合成人工智能(Synthesis AI)也提供按需數(shù)字人類(lèi)。此外,也有其他公司生成用于金融、保險(xiǎn)和醫(yī)療保健的數(shù)據(jù)。有多少種類(lèi)型的數(shù)據(jù)需求,就有多少種合成數(shù)據(jù)公司。

  曾經(jīng),合成數(shù)據(jù)被認(rèn)為不如真實(shí)數(shù)據(jù)令人滿(mǎn)意,但現(xiàn)在卻被一些人視為“靈丹妙藥”。真實(shí)數(shù)據(jù)雜亂無(wú)章且充滿(mǎn)偏見(jiàn),而新的數(shù)據(jù)隱私條例又讓數(shù)據(jù)收集“雪上加霜”。相比之下,合成數(shù)據(jù)是原始的,可以用來(lái)構(gòu)建更多樣化的數(shù)據(jù)集。你可以制作出完美標(biāo)記的人臉,比如不同年齡、臉型和種族的人臉,從而構(gòu)建一個(gè)可以跨人群工作的人臉檢測(cè)系統(tǒng)。

  但合成數(shù)據(jù)也有其局限性。如果它不能反映現(xiàn)實(shí),它最終會(huì)產(chǎn)生比混亂的、有偏見(jiàn)的真實(shí)數(shù)據(jù)更糟糕的AI——或者繼承同樣的問(wèn)題。數(shù)據(jù)科學(xué)家、算法審計(jì)公司ORCAA的創(chuàng)始人凱西·奧尼爾說(shuō):“我不想對(duì)這種模式表示贊許,然后說(shuō)‘哦,這能解決很多問(wèn)題’。”“因?yàn)樗矔?huì)忽略很多事情。”

  現(xiàn)實(shí),而非真實(shí)

  深度學(xué)習(xí)一直與數(shù)據(jù)有關(guān)。在過(guò)去幾年里,人工智能領(lǐng)域已逐漸形成一種共識(shí):好的數(shù)據(jù)比大數(shù)據(jù)更重要。即使是少量正確的、標(biāo)簽清晰的數(shù)據(jù),對(duì)提高AI系統(tǒng)的性能所起的作用也要比大量未經(jīng)整理的數(shù)據(jù)或更先進(jìn)的算法高得多。

  Datagen首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ofir Chakon表示,合成數(shù)據(jù)改變了企業(yè)開(kāi)發(fā)人工智能模型的方式。起初,他們從獲取盡可能多的數(shù)據(jù)開(kāi)始,然后調(diào)整算法以期獲得更好的性能;而現(xiàn)在他們或許應(yīng)該嘗試另一種方式:使用相同的算法,同時(shí)改進(jìn)他們的數(shù)據(jù)組成。但是收集真實(shí)數(shù)據(jù)來(lái)執(zhí)行這種迭代實(shí)驗(yàn)的成本過(guò)高而且耗時(shí)也長(zhǎng)。Datagen的作用就在于此。有了合成數(shù)據(jù)生成器,團(tuán)隊(duì)可以每天創(chuàng)建和測(cè)試幾十個(gè)新數(shù)據(jù)集,以確定哪一個(gè)能最大限度地提高模型的性能。

  為了確保數(shù)據(jù)的現(xiàn)實(shí)性,Datagen向其供應(yīng)商提供了詳細(xì)的說(shuō)明,說(shuō)明每個(gè)年齡層、BMI范圍和種族需要掃描多少人,以及他們要執(zhí)行的一系列動(dòng)作,比如在房間里走動(dòng)或喝汽水。供應(yīng)商發(fā)回這些動(dòng)作的高保真靜態(tài)圖像和動(dòng)作捕捉數(shù)據(jù)。然后,Datagen的算法將這些數(shù)據(jù)擴(kuò)展為成千上萬(wàn)種組合。有時(shí)合成數(shù)據(jù)會(huì)再次復(fù)檢,比如,將合成人臉與真實(shí)人臉進(jìn)行對(duì)比,看它們是否貼合現(xiàn)實(shí)。

  Datagen公司目前正在通過(guò)生成面部表情來(lái)監(jiān)測(cè)智能汽車(chē)中的駕駛員的警覺(jué)性,通過(guò)生成身體動(dòng)作來(lái)跟蹤在無(wú)人商店中的顧客,通過(guò)生成虹膜和手勢(shì)來(lái)提高VR頭盔的眼手跟蹤能力。該公司表示,其數(shù)據(jù)已經(jīng)被用于開(kāi)發(fā)為數(shù)千萬(wàn)用戶(hù)服務(wù)的計(jì)算機(jī)視覺(jué)系統(tǒng)。

  大規(guī)模生產(chǎn)的不僅僅是合成“人”。Click-Ins是一家使用合成人工智能執(zhí)行車(chē)輛自動(dòng)檢測(cè)的初創(chuàng)公司。通過(guò)設(shè)計(jì)軟件,它重新創(chuàng)建了所有汽車(chē)標(biāo)識(shí)和模型,其人工智能需要識(shí)別在不同光照條件或不同背景下,以不同的顏色、損傷和變形加以渲染的各種形態(tài)。這使得該公司可以在汽車(chē)制造商推出新車(chē)型時(shí)更新其人工智能,并幫助其避免在一些國(guó)家被視為侵犯隱私。在這些國(guó)家,車(chē)牌被視為私人信息,因此不能出現(xiàn)在用于訓(xùn)練AI的照片中。

  當(dāng)下人工智能在金融、電信和保險(xiǎn)公司的應(yīng)用較為廣泛。某些情況下,企業(yè)需要以合法的方式與外部供應(yīng)商共享他們的客戶(hù)數(shù)據(jù)庫(kù),但匿名化并不能充分保護(hù)人們的隱私。而合成數(shù)據(jù)卻可以用來(lái)生成詳細(xì)的虛假數(shù)據(jù)集,這些數(shù)據(jù)集與公司的真實(shí)數(shù)據(jù)具有相同的統(tǒng)計(jì)屬性。它還可以用來(lái)模擬公司尚未擁有的數(shù)據(jù),包括更多樣化的客戶(hù)群體或欺詐活動(dòng)場(chǎng)景。

  偽裝的極限合成數(shù)據(jù)是否被過(guò)度炒作了?

  當(dāng)涉及到隱私問(wèn)題時(shí),賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)教授艾倫·羅斯說(shuō):“雖然這些數(shù)據(jù)是‘合成的’,沒(méi)有直接對(duì)應(yīng)真實(shí)用戶(hù)數(shù)據(jù),但這并不意味著它沒(méi)有對(duì)真實(shí)人物的敏感信息進(jìn)行編碼。”例如,一些數(shù)據(jù)生成技術(shù)已經(jīng)被證明可以近距離再現(xiàn)訓(xùn)練數(shù)據(jù)中的圖像或文本,而另一些技術(shù)則容易受到攻擊,使它們完全重現(xiàn)這些數(shù)據(jù)。

  對(duì)于Datagen這樣的公司來(lái)說(shuō),這可能沒(méi)什么問(wèn)題,因?yàn)樗暮铣蓴?shù)據(jù)并不意味著要隱藏同意被掃描的個(gè)人的身份。但對(duì)于那些提供解決方案以保護(hù)敏感財(cái)務(wù)或患者信息的公司來(lái)說(shuō),這將是一個(gè)壞消息。

  華盛頓大學(xué)科學(xué)研究所的數(shù)據(jù)科學(xué)家貝爾尼斯·赫爾曼說(shuō),研究表明,兩種合成數(shù)據(jù)技術(shù)——差分隱私和生成式對(duì)抗網(wǎng)絡(luò)——的結(jié)合可以產(chǎn)生最強(qiáng)的隱私保護(hù)。但持懷疑態(tài)度的人擔(dān)心,這種細(xì)微差別可能會(huì)在合成數(shù)據(jù)供應(yīng)商的營(yíng)銷(xiāo)行話(huà)中消失,因?yàn)樗麄儾粫?huì)總是透露自己使用的是什么技術(shù)。

  與此同時(shí),幾乎沒(méi)有證據(jù)表明,合成數(shù)據(jù)可以有效地減少人工智能系統(tǒng)的偏見(jiàn)。首先,從一個(gè)有偏差的現(xiàn)有的數(shù)據(jù)集中推斷出新的數(shù)據(jù)并不一定會(huì)產(chǎn)生更有代表性的數(shù)據(jù)。例如,Datagen的原始數(shù)據(jù)包含的少數(shù)民族按比例減少,這意味著它使用更少的真實(shí)數(shù)據(jù)點(diǎn)從這些群體中生成假人。雖然生成過(guò)程并不完全是猜測(cè),但這些假人仍然更有可能脫離現(xiàn)實(shí)。

  另一方面,東北大學(xué)計(jì)算機(jī)科學(xué)副教授克里斯托·威爾遜表示,即使是完美平衡的數(shù)據(jù)集也不會(huì)自動(dòng)轉(zhuǎn)化為完全公平的人工智能系統(tǒng)。如果一家信用卡放貸機(jī)構(gòu)試圖開(kāi)發(fā)一種為潛在貸款者評(píng)分的人工智能算法,僅僅在其數(shù)據(jù)中代表白人和黑人,是無(wú)法消除所有可能的歧視的。歧視仍然可能由于白人和黑人申請(qǐng)者之間的差異無(wú)聲蔓延。

  更復(fù)雜的是,早期研究表明,在某些情況下,用合成數(shù)據(jù)實(shí)現(xiàn)私人和公平的人工智能甚至是不可能的。在近期的一篇論文中,多倫多大學(xué)和維克托研究所的研究人員發(fā)現(xiàn),當(dāng)他們?cè)噲D通過(guò)差分隱私和生成式對(duì)抗網(wǎng)絡(luò)的結(jié)合來(lái)制作多樣化的合成數(shù)據(jù)集時(shí),他們無(wú)法創(chuàng)建一個(gè)精確的醫(yī)療AI系統(tǒng)。

  當(dāng)然這些事實(shí)的存在并不意味著不應(yīng)該使用合成數(shù)據(jù)。事實(shí)上,它很可能成為一種必需品。奧尼爾表示,當(dāng)要面對(duì)人工智能系統(tǒng)是否符合法律要求的質(zhì)詢(xún)時(shí),這可能是唯一一種方法,使他們能夠靈活地生成按需的、有針對(duì)性的測(cè)試數(shù)據(jù)。但這使得關(guān)于其局限性的問(wèn)題變得更加重要。“隨著時(shí)間的推移,合成數(shù)據(jù)可能會(huì)變得更好,但這絕非出于偶然。”

  These creepy fake humans herald a new age in AI | MIT Technology Review  by Karen Hao

  https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_220

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:張潔 來(lái)源: 51CTO
相關(guān)推薦

2018-01-05 16:35:54

人工智能AI神經(jīng)網(wǎng)絡(luò)

2018-03-18 15:44:21

2019-10-15 11:33:19

云計(jì)算Kubernetes互聯(lián)網(wǎng)

2015-10-21 17:04:39

人工智能

2023-09-13 11:04:25

機(jī)器人人工智能

2024-01-22 16:00:38

人工智能大型語(yǔ)言模型

2018-01-16 19:30:04

人工智能智能手機(jī)5G時(shí)代

2021-03-19 13:12:39

深度學(xué)習(xí)AI人工智能

2024-02-20 11:34:41

人工智能

2022-08-01 15:01:41

人工智能安檢智能化

2022-02-18 13:12:49

人工智能自動(dòng)化技術(shù)

2022-02-17 17:37:17

超級(jí)自動(dòng)化人工智能AI

2018-03-16 12:02:55

2020-11-24 10:58:03

人工智能AI

2018-11-07 14:20:35

人工智能未來(lái)教育

2019-07-30 10:55:38

人工智能技術(shù)系統(tǒng)

2017-06-28 15:37:28

2018-07-05 14:52:05

2021-10-20 22:31:36

人工智能AI呼叫中心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)