英偉達版Sora被曝違規(guī)抓取大量數(shù)據(jù),官方表示不服
英偉達版Sora曝光——
代號Cosmos,研究副總裁劉洺堉擔任負責人。
不過隨著幾份內(nèi)部文件的泄露,他們還被曝非法抓取數(shù)據(jù)。
(確實這也不是一次兩次了……)
員工被默許每天在網(wǎng)絡(luò)上抓取任何未經(jīng)授權(quán)、未經(jīng)同意數(shù)據(jù),比如YouTube、奈飛等等這種平臺上。
合起來,每天抓取的幾乎是一個人80年能感知到的視覺數(shù)據(jù)。
結(jié)果英偉達回應(yīng)稱:我們這做法,完全合法!
英偉達版Sora曝光:代號Cosmos
據(jù)404Media所獲取的泄密文件顯示,英偉達每天都會抓取非法數(shù)據(jù)來訓練新模型。
Cosmos的目標是構(gòu)建一個最先進的視頻基礎(chǔ)模型。據(jù)泄露的郵件顯示該模型集合了光傳輸、物理和智能的模擬,以解鎖對各種下游應(yīng)用。
△圖源:404 Media
比如被用到Omniverse 3D 世界生成器、自動駕駛汽車系統(tǒng)和數(shù)字人產(chǎn)品。
英偉達研究副總裁Ming-Yu Liu(劉洺堉)擔任Cosmos的項目負責人。
他同時也是IEEE Fellow。他帶領(lǐng)英偉達Deep Imagination研究小組,推出了NVIDIA Picasso [Edify]、NVIDIA Canvas [GauGAN]和NVIDIA Maxine [LivePortrait]等產(chǎn)品。
此前5月份的一封電子郵件中顯示:
我們正在完成 v1 數(shù)據(jù)管道并確保必要的計算資源,以構(gòu)建一個視頻數(shù)據(jù)工廠,該工廠每天可以產(chǎn)生相當于人類一生視覺體驗的訓練數(shù)據(jù)。
△圖源:404 Media
這張圖中顯示英偉達首席科學家 Francesco Ferroni給了個表格鏈接,里面匯集了各種視頻數(shù)據(jù)集,包括 MovieNet(一個包含 60,000 個電影預(yù)告片的數(shù)據(jù)庫)、WebVid、 InternVid-10M,以及幾個內(nèi)部捕獲的視頻游戲鏡頭數(shù)據(jù)集。
如今據(jù)一位前員工爆料稱,員工會被要求從YouTube、奈飛等來源來抓取數(shù)據(jù)。
他們會使用一個名為yt-dlp的開源YouTube視頻下載器,它能使用虛擬機來刷新IP地址,以避免被YouTube屏蔽。
為此,英偉達向404 Media回應(yīng)稱:
我們尊重所有內(nèi)容創(chuàng)作者的權(quán)利,并相信我們的模型和研究工作完全符合版權(quán)法的條文和精神。
版權(quán)法保護特定的表達方式,但不保護事實、想法、數(shù)據(jù)或信息。任何人都可以自由地從其他來源了解事實、想法、數(shù)據(jù)或信息,并用它來表達自己的觀點。合理使用還保護將作品用于變革性目的的能力,例如模型訓練?!?/p>
而谷歌則是扔給404 Media一個鏈接,今年4月YouTube CEO表示,如果OpenAI用YouTube視頻來訓練Sora,那么明顯違反YouTube的使用條款。
而奈飛則表示,他們并未與英偉達達成內(nèi)容提取協(xié)議,而且該平臺的服務(wù)條款不允許抓取內(nèi)容。
有意思的是,同一天,YouTube博主正在尋求對OpenAI集體訴訟,指控該公司在未通知或補償視頻所有者的情況下,使用數(shù)百萬條 YouTube 視頻記錄來訓練其生成式 AI 模型。
而此前這些大廠被曝非法抓取數(shù)據(jù)的事情也屢見不鮮。
不過必須要說的是,這種原始數(shù)據(jù)真的很有用…
之前英偉達還用游戲視頻,來改善訓練數(shù)據(jù)質(zhì)量。
最近登上Nature封面的那篇研究顯示,這種用最初互聯(lián)網(wǎng)數(shù)據(jù)訓練的大模型,具有先發(fā)優(yōu)勢,數(shù)據(jù)質(zhì)量最好,對應(yīng)的模型性能也最好。
之后隨著AI數(shù)據(jù)越來越泛濫,反而容易讓大模型崩潰。
Garbage in,Garbage out。
對于這件事,你怎么看呢?