合成數(shù)據(jù)會(huì)推動(dòng) AI/ML 訓(xùn)練的未來(lái)嗎?
毫無(wú)疑問(wèn),為訓(xùn)練人工智能或機(jī)器學(xué)習(xí) (AI/ML) 收集真實(shí)數(shù)據(jù)既耗時(shí)又昂貴。而且,很多時(shí)候也充滿(mǎn)了風(fēng)險(xiǎn),但更常見(jiàn)的問(wèn)題是數(shù)據(jù)太少或有偏見(jiàn)的數(shù)據(jù)可能會(huì)使企業(yè)組織誤入歧途。但是,如果你可以生成新數(shù)據(jù),即所謂的合成數(shù)據(jù)呢?
這聽(tīng)起來(lái)不太可能,但這正是Synthesis AI計(jì)劃從 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital 和 Kubera Venture Capital 等風(fēng)險(xiǎn)投資公司籌集的 1700 萬(wàn)美元的 A 輪融資。
這是一個(gè)非??煽康淖C據(jù)。該公司正計(jì)劃利用這這筆資金來(lái)擴(kuò)大其在混合真實(shí)和合成數(shù)據(jù)領(lǐng)域的研發(fā)。
Synthesis AI 的首席執(zhí)行官 Yashar Behzadi 在一份聲明中表示:“合成數(shù)據(jù)正處于采用的拐點(diǎn),我們的目標(biāo)是進(jìn)一步開(kāi)發(fā)該技術(shù)并推動(dòng)計(jì)算機(jī)視覺(jué)系統(tǒng)構(gòu)建方式的范式變革。該行業(yè)將很快在虛擬世界中全面設(shè)計(jì)和訓(xùn)練計(jì)算機(jī)視覺(jué)模型,從而實(shí)現(xiàn)更先進(jìn)和合乎道德的人工智能?!?/p>
但什么是合成數(shù)據(jù)?
合成數(shù)據(jù)是人工創(chuàng)建的,而不是從現(xiàn)實(shí)世界中收集的。當(dāng)前,許多應(yīng)用都專(zhuān)注于視覺(jué)數(shù)據(jù),例如從計(jì)算機(jī)視覺(jué)系統(tǒng)收集的數(shù)據(jù)。盡管如此,沒(méi)有實(shí)際理由不能為其他用例創(chuàng)建合成數(shù)據(jù),例如測(cè)試應(yīng)用或改進(jìn)用于檢測(cè)欺詐的算法。它們有點(diǎn)像物理記錄的高度結(jié)構(gòu)化的數(shù)字孿生。
通過(guò)大規(guī)模提供海量、真實(shí)的數(shù)據(jù)集,數(shù)據(jù)科學(xué)家和分析師理論上可以跳過(guò)數(shù)據(jù)收集過(guò)程,直接進(jìn)入測(cè)試或訓(xùn)練。
這是因?yàn)閯?chuàng)建真實(shí)世界數(shù)據(jù)集的大部分成本不僅僅是收集原始數(shù)據(jù)。以計(jì)算機(jī)視覺(jué)和自動(dòng)駕駛汽車(chē)為例,汽車(chē)制造商和研究人員可以將各種攝像頭、雷達(dá)和激光雷達(dá)傳感器連接到車(chē)輛上進(jìn)行收集,但原始數(shù)據(jù)對(duì) AI/ML 算法沒(méi)有任何意義。同樣艱巨的挑戰(zhàn)是使用上下文信息手動(dòng)標(biāo)記數(shù)據(jù),以幫助系統(tǒng)做出更好的決策。
讓我們來(lái)看看這個(gè)挑戰(zhàn)的背景:想象一下,你經(jīng)常開(kāi)一段很短的車(chē),所有的停車(chē)標(biāo)志、十字路口、停著的車(chē)、行人等等,然后想象一下,給每一個(gè)潛在的危險(xiǎn)都貼上標(biāo)簽是一項(xiàng)艱巨的任務(wù)。
合成數(shù)據(jù)的核心優(yōu)勢(shì)在于,理論上,它可以創(chuàng)建完美標(biāo)記的數(shù)據(jù)集,其規(guī)模足以正確訓(xùn)練 AI/ML 應(yīng)用,這意味著數(shù)據(jù)科學(xué)家可以在大量新地方突然測(cè)試他們的算法,然后才能真正實(shí)現(xiàn)世界數(shù)據(jù)或在難以獲取的情況下。繼續(xù)自動(dòng)駕駛汽車(chē)的例子,數(shù)據(jù)科學(xué)家可以創(chuàng)建合成數(shù)據(jù)來(lái)訓(xùn)練汽車(chē)在惡劣條件下駕駛,例如積雪覆蓋的道路,而無(wú)需派司機(jī)向北或進(jìn)入山區(qū)手動(dòng)收集數(shù)據(jù)。
合成數(shù)據(jù)的核心優(yōu)勢(shì)在于,從理論上講,它可以在適當(dāng)訓(xùn)練AI/ML應(yīng)用所需的規(guī)模上創(chuàng)建完美標(biāo)記的數(shù)據(jù)集,這意味著數(shù)據(jù)科學(xué)家可以在獲得真實(shí)數(shù)據(jù)之前,或在難以獲得數(shù)據(jù)的情況下,突然在許多新的地方測(cè)試他們的算法。還是自動(dòng)駕駛汽車(chē)的例子,數(shù)據(jù)科學(xué)家可以創(chuàng)建合成數(shù)據(jù)來(lái)訓(xùn)練汽車(chē)在不利條件下駕駛,比如白雪覆蓋的道路,而無(wú)需讓司機(jī)一路向北或進(jìn)入山區(qū)手動(dòng)收集數(shù)據(jù)。
然而,合成數(shù)據(jù)存在先有雞還是先有蛋的問(wèn)題,因?yàn)橹荒苁褂谩鄶?shù)據(jù)和更多 AI/ML 算法來(lái)創(chuàng)建它。從“種子”數(shù)據(jù)集開(kāi)始,然后將其作為合成創(chuàng)作的基準(zhǔn),這意味著它們只會(huì)與您開(kāi)始使用的數(shù)據(jù)一樣好。
(無(wú)形)利益
有哪些數(shù)據(jù)科學(xué)家或研究人員不會(huì)從看似無(wú)窮無(wú)盡的數(shù)據(jù)生成器中獲益?其核心好處——能夠避免手動(dòng)收集真實(shí)世界的數(shù)據(jù)——只是合成數(shù)據(jù)可以加速AI/ML應(yīng)用的方式之一。
由于分析師和數(shù)據(jù)科學(xué)家可以嚴(yán)格控制種子數(shù)據(jù),甚至可以額外努力納入多樣性,或與外部顧問(wèn)合作發(fā)現(xiàn)和解碼偏見(jiàn),他們可以對(duì)自己提出更高的標(biāo)準(zhǔn)。例如,Synthesis AI正在開(kāi)發(fā)一種監(jiān)測(cè)司機(jī)狀態(tài)的系統(tǒng),并仔細(xì)地將不同的面孔包含在他們的計(jì)算機(jī)生成的合成數(shù)據(jù)集中,以確?,F(xiàn)實(shí)世界的應(yīng)用適用于每個(gè)人。
隱私是另一個(gè)潛在的勝利。如果一家公司花費(fèi)數(shù)百萬(wàn)英里來(lái)為他們的自動(dòng)駕駛汽車(chē)收集真實(shí)世界的數(shù)據(jù),他們就會(huì)收集到很多人認(rèn)為是個(gè)人隱私的大量數(shù)據(jù)——尤其是他們的臉。像谷歌和蘋(píng)果這樣的大公司已經(jīng)找到了在他們的地圖軟件中避免這些類(lèi)型問(wèn)題的方法,但他們的路線(xiàn)對(duì)于想要測(cè)試他們的算法的小型 AI/ML 團(tuán)隊(duì)來(lái)說(shuō)并不可行。
“企業(yè)還在努力解決與以人為本的產(chǎn)品中的模型偏見(jiàn)和消費(fèi)者隱私相關(guān)的道德問(wèn)題。很明顯,構(gòu)建下一代計(jì)算機(jī)視覺(jué)需要一種新的范式,”該公司首席執(zhí)行官兼創(chuàng)始人 Yashar Behzadi??對(duì)媒體表示??。
雖然合成數(shù)據(jù)確實(shí)依賴(lài)于種子才能開(kāi)始,但可以對(duì)其進(jìn)行調(diào)整和修改,以幫助在現(xiàn)實(shí)生活中難以或危險(xiǎn)捕獲的邊緣情況下訓(xùn)練 AI/ML 應(yīng)用。自動(dòng)駕駛汽車(chē)背后的公司希望擅長(zhǎng)識(shí)別僅部分可見(jiàn)的物體或人,例如隱藏在卡車(chē)后面的停車(chē)標(biāo)志,或站在兩輛車(chē)之間的行人沖上馬路。
考慮到這些勝利,盡管有些人擔(dān)心將偏見(jiàn)編碼到合成數(shù)據(jù)中的先有雞還是先有蛋的問(wèn)題,Gartner??預(yù)測(cè),到 2024??年,用于開(kāi)發(fā) AI 和分析產(chǎn)品的數(shù)據(jù)的 60% 將綜合生成。他們預(yù)測(cè),大部分新數(shù)據(jù)將專(zhuān)注于在它們所基于的歷史數(shù)據(jù)失去相關(guān)性或基于過(guò)去經(jīng)驗(yàn)的假設(shè)失效的情況下修復(fù)預(yù)測(cè)模型。
但是總是需要收集一些真實(shí)世界的數(shù)據(jù),所以我們距離被我們通用的、公正的自我的虛擬形象完全淘汰還有很長(zhǎng)的路要走。