模擬一切實現(xiàn)AGI?OpenAI Sora核心成員最新演講+專訪來了
通過什么方式夠?qū)崿F(xiàn)通用人工智能?
近期由AGI House組織的一場主題演講給出了解答。
OpenAI Sora團隊核心成員Tim Brooks和Bill Peebles對通用人工智能的實現(xiàn)分享了一些他們的看法,作為Sora研究負(fù)責(zé)人,他們表示:「視頻生成技術(shù)將通過模擬一切來實現(xiàn)AGI」。
這不禁引發(fā)了網(wǎng)友們的驚嘆:模擬一切!兄弟,我好怕……
也有網(wǎng)友對其所稱的「模擬一切」進行調(diào)侃,認(rèn)為AGI是不可能實現(xiàn)的。
從Sora發(fā)布以來,就吸引了眾多人的關(guān)注,其功能的強大也讓人嘆為觀止,同時對其所存在的問題也成為人們熱議的焦點。
兩位負(fù)責(zé)人以一分鐘的高清視頻作為開場,從宏觀角度對Sora的功能、如何開辟內(nèi)容創(chuàng)作的新機遇、背后的技術(shù)原理進行介紹,以及它為實現(xiàn)真正的通用人工智能(AGI)目標(biāo)邁出的重要一步。
Sora的功能
Tim表示,這段視頻對他們來說意義非凡,因為它實現(xiàn)了他們的一個重要目標(biāo):創(chuàng)造出1080p高清、時長一分鐘的視頻內(nèi)容。
Sora研究團隊一直在探尋,怎樣才能在視頻生成方面實現(xiàn)真正的飛躍?
這個視頻做到了這一點!它展示了極高的復(fù)雜度,比如精細(xì)的反射和陰影效果。
一個特別值得一提的細(xì)節(jié)是視頻中藍色的標(biāo)志牌,當(dāng)視頻中的人物經(jīng)過它時,標(biāo)志牌仍舊清晰可見。
這在視頻生成中是一個極大的挑戰(zhàn),因為涉及到如何在較長時間內(nèi)保持物體的持久性和一致性。
此外,他們還能創(chuàng)造出多種不同風(fēng)格的視頻內(nèi)容,比如充滿想象力的紙藝世界。
Sora能夠深入學(xué)習(xí)并理解整個三維空間。比如,當(dāng)攝像機在三維空間中移動并捕捉人物動作時,能夠精確把握世界的幾何結(jié)構(gòu)和物理復(fù)雜性。
由此可見,Sora不僅能夠生成各種內(nèi)容,它還從視頻訓(xùn)練中學(xué)習(xí)到了大量關(guān)于物理世界的知識。
開辟內(nèi)容創(chuàng)作的新機遇
正如Tim所提到的,我們對Sora為對象創(chuàng)造帶來革命性的機遇充滿期待。
不僅因為它是實現(xiàn)通用人工智能(AGI)的關(guān)鍵一步,也因為它在短期內(nèi)將為內(nèi)容創(chuàng)作帶來突破。
Bill Peebles以一個宇航員冒險的電影預(yù)告片為例,表示視頻制作中最困難的部分是讓素材與視頻整體協(xié)調(diào)。
這個例子的特別之處在于,視頻中的宇航員在Sora生成的多個鏡頭中都能夠出現(xiàn)。
也就是說,我們不必拍攝大量的花絮片段,最后創(chuàng)建一個合成鏡頭。
Sora決定了它想要將鏡頭轉(zhuǎn)向何處,同時,它會把同一個宇航員放在許多不同的環(huán)境中。
因此,他們認(rèn)為這項技術(shù)在之后特效制作上或許將帶來巨大的變革。
另一個示例展示了一個外星人自然融入紐約市的情景,采用35mm膠片效果,展示了充滿派拉蒙驚悚片風(fēng)格。
這項技術(shù)已經(jīng)展示出Sora能夠創(chuàng)造出令人驚嘆的奇幻效果,而這些效果如果使用傳統(tǒng)的CGI技術(shù),成本將會非常高昂。
因此,在短期內(nèi)這項技術(shù)所帶來的影響是深遠(yuǎn)的。
當(dāng)然,還可以利用Sora制作其他類型的效果。
比如充滿科幻氛圍的場景:一位潛水員發(fā)現(xiàn)了一個隱藏的、充滿機械化海洋生物和高級外星技術(shù)的未來式船舶殘骸。
此外,互聯(lián)網(wǎng)上有很多創(chuàng)意無限的人們,他們可能沒有Sora這樣的工具來實現(xiàn)他們的創(chuàng)意。
想象一下,如果這些人能將他們的創(chuàng)意通過Sora進行實現(xiàn),他們將創(chuàng)造出多么絢爛的作品!
Sora的酷炫之處在于,可以實現(xiàn)傳統(tǒng)好萊塢設(shè)施難以實現(xiàn)的拍攝場景,比如同時充當(dāng)珠寶店和動物園的店鋪,展示了帶有亮麗的珠寶裝飾的劍齒虎和烏龜?shù)葎游铩?/p>
這種鏡頭十分逼真,但現(xiàn)實中的動物很難出現(xiàn)在這樣的場景中,因此就不得不利用CGI。
Sora讓這些場景的制作變得非常簡單,只需一小時就能完成。
Sora與藝術(shù)家的合作
Tim Brooks表示,他們近期新推出了一個用于研究的平臺,該平臺目前僅向少數(shù)藝術(shù)家開放使用權(quán)限,處于早期階段,不是面向大眾的產(chǎn)品。
該平臺致力于生成逼真和超現(xiàn)實的內(nèi)容,并與小規(guī)模的紅隊、藝術(shù)家和潛在用戶合作,以確保技術(shù)的安全性。
其中,藝術(shù)家Shy Kids表達了對該技術(shù)的興奮之情,認(rèn)為其不僅能生成逼真的內(nèi)容,還能創(chuàng)造全新的超現(xiàn)實作品。
他們期待人們對全新媒體和娛樂形式的興趣,這些將由Sora和未來版本的視頻生成技術(shù)實現(xiàn)。
同時Tim Brooks也提到了一些藝術(shù)家使用Sora創(chuàng)作的作品,以及他們在博客文章中分享的相關(guān)內(nèi)容和思考。
他們希望這項技術(shù)能推動內(nèi)容創(chuàng)作的大眾化,讓更多有創(chuàng)意的人能夠?qū)崿F(xiàn)他們的想法并分享給大家。
Sora背后的技術(shù)原理
Tim Brooks對Sora背后的技術(shù)原理進行了簡要介紹,討了語言模型和視覺模型的相似之處以及其在不斷發(fā)展中的潛力。
他認(rèn)為語言模型之所以如此成功,是因為它們具有擴展的能力,并引用了《苦澀的教訓(xùn)》中的觀點,
長遠(yuǎn)來看,那些隨著規(guī)模增長而性能提升的方法,隨著計算能力的增加將最終勝出。
語言模型之所以能夠如此成功,部分原因在于它們采取了所有形式的文本,包括數(shù)學(xué)、代碼等,并將其轉(zhuǎn)化為通用的 Token 范圍,然后利用 Transformer 模型對其進行訓(xùn)練,從而形成了通用模型。
他們想對視覺數(shù)據(jù)做同樣的事,這也正是他們使用Sora做的事情。
他們將不同類型的視覺數(shù)據(jù)轉(zhuǎn)化為小塊,類似于空間時間中的小立方體,并通過Transformer模型進行訓(xùn)練,以實現(xiàn)模型的可擴展性。
通過在多種縱橫比上訓(xùn)練,他們實現(xiàn)了多樣化的創(chuàng)作方式,并展示了模型在生成視頻、實現(xiàn)零樣本學(xué)習(xí)、實現(xiàn)視頻之間過渡等方面的能力。
他們認(rèn)為,類似于語言模型,這些視頻模型也將為人們帶來許多令人驚嘆的創(chuàng)意效果,并且對于這些可能性的探索才剛剛開始。
Sora實現(xiàn)真正AGI意義重大
文本生成視頻模型,如Sora所展示的復(fù)雜場景生成能力,逐漸顯現(xiàn)出對人類互動和身體接觸的詳細(xì)理解,這是通用人工智能的重要一步。
Bill Peebles指出,要生成真實逼真的視頻,需要一個內(nèi)部模型理解所有物體、人類等環(huán)境如何運作。
因此,他們認(rèn)為Sora將為通用人工智能的發(fā)展做出貢獻。
此外,他們特別強調(diào)了模型的擴展性。
通過創(chuàng)建基于Transformer的框架,并對不同的Sora模型進行比較,他們展示了模型訓(xùn)練中計算量增加對性能提升的影響。
從基礎(chǔ)模型到增加了32倍計算量的模型,可以看到對場景和物體的理解逐步提升。
接著,他們分享了Sora在動物模擬、3D一致性以及視頻中物體持久性方面的成功之處。
他們認(rèn)為,Sora不僅能處理短期內(nèi)的互動,還能實現(xiàn)永久性的改變。
雖然目前Sora在這方面的能力還相對較弱,它并不能每次都實現(xiàn),但還是有許多的成功例子。
Bill Peebles還強調(diào),Sora模型對于物理規(guī)律的自我理解,使其能夠模擬多種世界,如Minecraft等,這表明Sora在模擬現(xiàn)實世界的同時,也具備模擬其他虛擬世界的潛力。
最后,他們認(rèn)為Sora能夠涵蓋所有世界的知識,實現(xiàn)通用人工智能的目標(biāo)。
他們憧憬著有朝一日,能夠在文本生成視頻模型上運行像ChatGPT這樣的語言模型,為人工智能的發(fā)展開辟更廣闊的前景。
失敗案例
但Sora在一些案例中的失敗也表明其在處理物理互動方面仍存在挑戰(zhàn)。
舉例來說,Sora在處理我們認(rèn)為非常相似的物理互動方面仍然有很大的困難,比如被附身的椅子不被認(rèn)為是一個物體。甚至更簡單的物理行為,比如打破一個玻璃杯。
未來,在理解基礎(chǔ)事物方面它還有很長的路要走。
盡管存在挑戰(zhàn),可以看出他們對這個技術(shù)的未來充滿期待。
他們將其視為視頻版的GPT-1,并相信這項技術(shù)將在短期內(nèi)取得巨大進步。
盡管有一些失敗案例,但已經(jīng)出現(xiàn)了一些積極跡象和吸引人的特性。
他們對此感到非常興奮,并期待看到人們在這一技術(shù)基礎(chǔ)上所創(chuàng)造的驚人作品,以及全球?qū)ζ涞姆磻?yīng)。
不知大家對此有怎樣的看法?
最后問答環(huán)節(jié)
在演講的最后,Sora兩位研究負(fù)責(zé)人也對大家所關(guān)注的問題進行了回應(yīng)并主要回答了以下問題。
Q1:在關(guān)于理解AI智能體或讓其在場景中相互作用的問題上,是否已經(jīng)確切地定義了這一部分信息呢?或者說,這只涉及像素級的處理,然后需要進一步操作?現(xiàn)在,是否可以將這部分信息復(fù)制到這里了呢?
Tim Brooks:
在Sora內(nèi)部,所有這些都是隱式進行的。當(dāng)我們看到Minecraft的樣本時,并沒有明確的概念來描述它模擬了玩家的何種行為,或者如何在環(huán)境中展現(xiàn)出動作。
如果要精確描述正在發(fā)生的事情,或以某種方式解讀它,就需要建立一些額外的系統(tǒng)來從Sora當(dāng)前的基礎(chǔ)上提取那些信息。
現(xiàn)在,一切都是隱含的。比如說,3D的概念是隱含的,你所見到的所有內(nèi)容都是隱含的。在其中沒有任何明確的參與者。
Q2:你能談?wù)勎⒄{(diào)的可能性嗎?你如何看待將這些插件或功能整合到整個過程中?
Tim Brooks:
藝術(shù)家們希望在創(chuàng)作過程中擁有更多的控制權(quán),包括能夠使用他們自己設(shè)計的角色。
我們正在積極考慮如何實現(xiàn)這一點。可以通過對模型進行微調(diào),使其適應(yīng)特定的數(shù)據(jù)集或內(nèi)容。
目前,我們正在收集反饋并探索實現(xiàn)這個目標(biāo)的可能性。
Q3:在語言Transformer中,預(yù)測是按順序進行的。而在視覺Transformer中,我們按照掃描線的順序或者其他方式進行預(yù)測,可能會像蛇一樣或者以空間結(jié)構(gòu)的方式。這是否是視覺Transformer的基本限制?預(yù)測的順序是否影響了對空間結(jié)構(gòu)的關(guān)注?
Tim Brooks:
在這種情況下,我們使用的是擴散模型,而不是像語言模型那樣的自回歸Transformer。
我們對生成的視頻進行降噪,從一個完全充斥噪聲的視頻開始,通過迭代運行模型逐步去除噪聲。
通常情況下,我們是同時對整個視頻進行去噪處理,而不是按照掃描線的順序。我們也提到了另一種方法,即先生成一個較短的視頻,然后根據(jù)需要進行延長。
Q4:你們生成視頻的幀率是每秒30幀嗎?或者,你們更傾向于對幀持續(xù)時間進行插值處理?我知道,所有核心處理的速度都遠(yuǎn)不及動畫渲染的速度。
Tim Brooks:
我們是以30幀每秒的速度生成的。
Q5:你們嘗試過進行汽車碰撞或旋轉(zhuǎn)等動作,來測試圖像生成是否能夠符合物理模型或基礎(chǔ)動作類型嗎?
Bill Peebles:
我們嘗試了幾個例子,旋轉(zhuǎn)效果基本還算合理,但并不完美。
關(guān)于汽車照明的樣本,我認(rèn)為Sora還沒能完全掌握牛頓的三個運動定律。
Q6:你們現(xiàn)在正試圖解決哪些用戶反饋的Sora存在的問題?
Tim Brooks:
我們目前主要關(guān)注與外部藝術(shù)家和紅隊成員的互動反饋。
藝術(shù)家希望有更多控制權(quán),包括相機和路徑控制。
對安全問題的關(guān)注主要涉及負(fù)責(zé)任和安全性,以防止濫用和假信息傳播,這些都是我們需要考慮的。
Q7:是否可能制作用戶可以互動的視頻,例如通過VR設(shè)備?如果我在播放視頻時中途停止并進行編輯,視頻是否能夠響應(yīng)這些更改?
Bill Peebles:
目前,Sora的運行速度還比較慢,主要是因為存在一些延遲。
通常情況下,生成視頻所需的時間取決于參數(shù)設(shè)置,比如持續(xù)時間和分辨率。但要制作出你描述的那種互動體驗,至少需要幾分鐘。
所以,我們離這個目標(biāo)還有一段路要走,但我認(rèn)為這個想法很棒。
Q8:在構(gòu)建這個第一版時有什么明確的目標(biāo)嗎?你在過程中遇到了哪些問題,從中學(xué)到了什么經(jīng)驗?
Tim Brooks:
我們的主要目標(biāo)始終是在至少30秒內(nèi)生成1080p的高質(zhì)量視頻,這是我們從項目早期就確定的。
我們意識到視頻生成一直被限制在短暫的幾秒,因此這一點成為整個項目的重中之重。
在這一過程中,我們發(fā)現(xiàn)處理視頻數(shù)據(jù)的挑戰(zhàn)之大。這需要進行大量詳細(xì)而枯燥的工程工作,以確保系統(tǒng)能夠正常運行。
盡管我們預(yù)料到了這一點,但確實花費了相當(dāng)多的時間和精力。
Q9:還有其他的發(fā)現(xiàn)嗎?
Tim Brooks:
我們一直致力于保持方法的簡單性,盡管有時候?qū)嶋H情況比說起來更具挑戰(zhàn)性。
我們的主要關(guān)注點是做出盡可能簡單的事情,然后在此基礎(chǔ)上進行大規(guī)模的擴展。
Q10:發(fā)布視頻時,你會優(yōu)化提示詞并評估視頻效果嗎?
Tim Brooks:
評估視頻確實有挑戰(zhàn),我們采用多種方式。
首先是模型的損失值,低損失值與模型的優(yōu)良性能相關(guān)。
另一種方法是使用圖像指標(biāo)評估單幀質(zhì)量。我們也花費大量的時間生成樣本并自行檢查,盡管這需要處理大量樣本以避免噪聲。
Q11:關(guān)于訓(xùn)練數(shù)據(jù),你認(rèn)為我們需要多少才能實現(xiàn)通用人工智能?你覺得互聯(lián)網(wǎng)上的數(shù)據(jù)是否足夠?
Bill Peebles:
我認(rèn)為我們有充足的數(shù)據(jù)來實現(xiàn)通用人工智能。
我也相信人們會找到新的方法來改進事物。
當(dāng)我們遇到困難時,我們總會找到新的方法來提高效果。
所以,不論我們手頭有什么數(shù)據(jù),都足以實現(xiàn)通用人工智能。
本文轉(zhuǎn)自 新智元 ,作者:新智元
