自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人剛畢業(yè),顛覆整個(gè)AI界:扒一扒Sora兩帶頭人博士論文

人工智能 新聞
看看這個(gè)時(shí)代最偉大 AI 學(xué)者的研究脈絡(luò)。Sora 發(fā)布后,其開發(fā)團(tuán)隊(duì)自然也成為關(guān)注焦點(diǎn),人們都想知道具有跨時(shí)代意義的 AI 技術(shù)是如何被開發(fā)出來的。

2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把競爭推向了視頻生成的新高度。

我們都還記得初見 Sora 作品時(shí)受到的震撼,感嘆其他競爭對手想要趕上 OpenAI,至少也得需要個(gè)半年到一年的時(shí)間。

Sora 發(fā)布后,其開發(fā)團(tuán)隊(duì)自然也成為關(guān)注焦點(diǎn),人們都想知道具有跨時(shí)代意義的 AI 技術(shù)是如何被開發(fā)出來的。DiT 模型作者謝賽寧曾表示:「他們每天基本不睡覺高強(qiáng)度工作了一年」。

隨著時(shí)間推移,答案正被慢慢揭曉。

以下是 OpenAI 技術(shù)報(bào)告中,Sora 的十三位作者:

圖片

其中的前兩位,Tim Brooks、Bill Peebles,他們被認(rèn)為是「Sora 之父」,擔(dān)任 OpenAI Sora 項(xiàng)目研究主管,又十分年輕 —— 兩人都是 2023 年剛剛從加州大學(xué)伯克利分校(UC Berkeley)博士畢業(yè)的。

在 Sora 技術(shù)公開后,他們曾共同進(jìn)行宣講,接受過很多媒體采訪。

圖片

圖片中間為 Tim Brooks,右側(cè)為 Bill Peebles。

看兩人的工作經(jīng)歷,他們分別是在 2023 年 1 月和 3 月加入 OpenAI 的。

我們知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 橫空出世,由此掀起了大模型「顛覆世界」的浪潮。

他們追隨傳奇而來,如今回頭望去,自己也成為了傳奇。

作為 Sora 背后的主要推動者,Tim Brooks、Bill Peebles 兩人的博士畢業(yè)論文,也都是以 AI 視頻生成為主題的。是時(shí)候從技術(shù)發(fā)展的角度,來研究一下 Sora 的來龍去脈了。

Tim Brooks

圖片

個(gè)人主頁:https://www.timothybrooks.com/about/

Tim Brooks 博士畢業(yè)于 UC Berkeley 的「伯克利人工智能研究所」BAIR,導(dǎo)師為 Alyosha Efros。

在博士就讀期間,他曾提出了 InstructPix2Pix,他還曾在谷歌從事為 Pixel 手機(jī)攝像頭提供 AI 算法的工作,并在英偉達(dá)研究過視頻生成模型。博士畢業(yè)后,Tim Brooks 加入 OpenAI,參與過 GPT-4、Sora 等多項(xiàng)研究。

2023 年,Tim Brooks 順利畢業(yè),博士論文接近 100 頁。論文題目為《Generative Models for Image and Long Video Synthesis 》。

圖片

論文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf

論文簡介

在這篇博士論文中,Tim Brooks 提出了將圖像和視頻生成模型用于一般視覺內(nèi)容創(chuàng)作的基本要素,主要體現(xiàn)在三個(gè)方面:

首先,論文介紹了長視頻生成相關(guān)研究,并提出一種網(wǎng)絡(luò)架構(gòu)和訓(xùn)練范式,用于從視頻中學(xué)習(xí)長程時(shí)間模式,這是將視頻生成從較短的剪輯推進(jìn)到較長形式且連貫視頻的關(guān)鍵挑戰(zhàn)。

接下來,論文介紹了基于人體姿態(tài)生成場景圖像的研究,展示了生成模型用來表示人與周圍環(huán)境之間關(guān)系的能力,并強(qiáng)調(diào)了從大型且復(fù)雜的日常人類活動數(shù)據(jù)集中學(xué)習(xí)的重要性。

最后,論文介紹了一種通過結(jié)合大型語言模型和文本到圖像模型的能力來創(chuàng)建監(jiān)督訓(xùn)練數(shù)據(jù),從而指導(dǎo)生成模型遵循圖像編輯指令的方法。這些工作共同提升了生成模型合成圖像和長視頻的能力。

Tim Brooks 表示,在他讀博期間(2019-2023 年),圖像和視頻生成模型已經(jīng)從小范圍的演示發(fā)展成被廣泛采用的創(chuàng)意工具。他非常慶幸自己能在這個(gè)關(guān)鍵的時(shí)刻攻讀視覺生成模型的博士學(xué)位,他也對生成模型充滿了信心。

接下來我們介紹一下 Tim Brooks 博士論文每章節(jié)的主要內(nèi)容。

第 2 章專注于生成具有豐富動態(tài)和新內(nèi)容的長視頻。圖 2.1 展示了模型能夠生成豐富的運(yùn)動和場景變化。

來源:https://www.timothybrooks.com/tech/long-video-gan/

本章的主要貢獻(xiàn)是一個(gè)分層生成器架構(gòu),生成器概覽圖如下所示。

第 3 章介紹了從反映日常人類活動的復(fù)雜現(xiàn)實(shí)世界數(shù)據(jù)中學(xué)習(xí)的研究。人、物體及其周圍環(huán)境之間的相互作用提供了有關(guān)世界的豐富信息來源。Tim Brooks 提出了一種通過條件生成模型學(xué)習(xí)這些關(guān)系的方法。早期的生成模型主要集中在特定的內(nèi)容類別上,例如人臉或特定的對象類。這項(xiàng)工作將生成模型擴(kuò)展到用人類建模復(fù)雜場景的領(lǐng)域。只要輸入一個(gè)人的骨骼姿態(tài),該模型就能夠生成與該姿態(tài)兼容的合理場景。該模型既可以生成空場景,也可以生成輸入姿態(tài)中有人類的場景。

圖片

本小節(jié)還設(shè)計(jì)了一個(gè)條件 GAN 來生成與人類姿態(tài)兼容的場景,網(wǎng)絡(luò)架構(gòu)基于 StyleGAN2 ,如圖 3.3 所示。

圖片

這篇論文還強(qiáng)調(diào)了通過對日常人類活動的大型視覺數(shù)據(jù)集進(jìn)行訓(xùn)練,來理解視覺世界復(fù)雜關(guān)系的能力。

圖片

第 4 章提出了一種新技術(shù),教生成模型遵循人類編輯指令。圖 4.1 顯示了模型執(zhí)行圖像編輯指令的示例,圖 4.2 顯示了在文本消息會話中使用的模擬接口。

圖片


圖片

由于難以大規(guī)模獲取基于指令的圖像編輯訓(xùn)練數(shù)據(jù),該研究提出了一種生成配對數(shù)據(jù)集的方法,該方法結(jié)合了多個(gè)在不同模態(tài)上預(yù)訓(xùn)練的大型模型:大型語言模型(GPT-3 )和文本到圖像模型(Stable Diffusion)。這兩個(gè)模型捕獲了關(guān)于語言和圖像的互補(bǔ)知識,可以將它們結(jié)合起來為跨兩種模態(tài)的任務(wù)創(chuàng)建配對訓(xùn)練數(shù)據(jù),而這兩種模態(tài)中的任何一個(gè)都無法單獨(dú)完成。

使用生成的配對數(shù)據(jù),Tim Brooks 訓(xùn)練了一個(gè)條件擴(kuò)散模型,該模型在給定輸入圖像和有關(guān)如何編輯文本指令的情況下,生成編輯后的圖像。該模型可以直接在前向傳播中執(zhí)行圖像編輯,不需要任何其他示例圖像、輸入 / 輸出圖像的完整描述或每個(gè)示例的微調(diào)。盡管模型完全在合成示例上進(jìn)行訓(xùn)練,但其實(shí)現(xiàn)了對任意真實(shí)圖像和人類指令的零樣本泛化。該模型可以按照人類指令執(zhí)行各種編輯:替換對象、更改圖像樣式、更改設(shè)置、藝術(shù)媒介等。

圖片

 最后,我們看一下論文中的一些結(jié)果。

圖片

圖片

與其他方法的比較結(jié)果如下: 

圖片

圖片

總的來說,這篇博士論文確定了未來視覺生成模型的三個(gè)關(guān)鍵組成部分:隨著時(shí)間的推移建模長程模式,從復(fù)雜的視覺數(shù)據(jù)中學(xué)習(xí),以及遵循視覺生成指令。這三個(gè)要素對于開發(fā)超級智能至關(guān)重要,因?yàn)樗梢詧?zhí)行復(fù)雜的視覺創(chuàng)造任務(wù),幫助人類創(chuàng)造,并將人類的想象力帶入生活。

William (Bill) Peebles

圖片

個(gè)人主頁:https://www.wpeebles.com/

2023 年,William (Bill) Peebles 在伯克利人工智能研究中心獲得了博士學(xué)位,導(dǎo)師是 Alyosha Efros,與 Tim Brooks 師出同門。

William (Bill) Peebles 本科畢業(yè)于麻省理工學(xué)院,曾在 FAIR、Adobe Research 和 NVIDIA 實(shí)習(xí)過。在攻讀博士學(xué)位期間,他得到了美國國家科學(xué)基金會(NSF)研究生研究獎學(xué)金計(jì)劃的支持。

William (Bill) Peebles 的博士論文以圖像生成模型為主題,論文題目是《Generative Models of Images and Neural Networks》。

圖片

論文地址:https://www.proquest.com/openview/818cd87d905514d7d3706077d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y

論文簡介

大規(guī)模生成模型推動了人工智能的最新進(jìn)展。這種范式使得人工智能的許多問題取得了突破,其中自然語言處理(NLP)領(lǐng)域是最大的受益者。

給定一個(gè)新任務(wù),預(yù)訓(xùn)練生成模型可以零樣本地解決該任務(wù),也可以在少量特定于任務(wù)的訓(xùn)練樣本上進(jìn)行有效的微調(diào)。

然而,在視覺、元學(xué)習(xí)等領(lǐng)域,生成式模型的進(jìn)展卻落后了。

William (Bill) Peebles 的博士論文研究了訓(xùn)練改進(jìn)的、可擴(kuò)展的兩種模態(tài)(圖像和神經(jīng)網(wǎng)絡(luò)參數(shù))的生成式模型的方法,并研究了如何利用預(yù)訓(xùn)練生成式模型來解決其他下游任務(wù)。

首先,該論文證明保留了擴(kuò)散模型圖像生成擴(kuò)展特性的擴(kuò)散 transformer(DiT),優(yōu)于之前主導(dǎo)該領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)。

圖片

圖片

值得注意的是,DiT 架構(gòu)是在一篇題為《Scalable Diffusion Models with Transformers》的論文中被正式提出的,第一作者就是 William Peebles,另外一位論文作者是紐約大學(xué)的謝賽寧。

圖片

然后,William (Bill) Peebles 的博士論文提出了一種新型學(xué)習(xí)框架,旨在基于構(gòu)建新數(shù)據(jù)源(神經(jīng)網(wǎng)絡(luò)檢查點(diǎn))的生成式模型進(jìn)行學(xué)習(xí)。

該論文創(chuàng)建了包含數(shù)十萬次深度學(xué)習(xí)訓(xùn)練運(yùn)行的數(shù)據(jù)集,并使用它來訓(xùn)練生成式模型。給定起始參數(shù)向量和目標(biāo)損失、錯(cuò)誤或獎勵,在此數(shù)據(jù)上訓(xùn)練的損失條件擴(kuò)散模型可以對實(shí)現(xiàn)所需指標(biāo)的參數(shù)更新進(jìn)行采樣。

這種方法克服了以前元學(xué)習(xí)算法的許多困難 —— 它可以優(yōu)化不可微目標(biāo),并省去不穩(wěn)定的展開優(yōu)化方法。與 SGD 和 Adam 等基于梯度的迭代優(yōu)化器無法從優(yōu)化歷史中學(xué)習(xí)不同,該論文提出的生成模型只需一次生成的參數(shù)更新即可通過隨機(jī)初始化來優(yōu)化神經(jīng)網(wǎng)絡(luò)。

圖片

該論文證明,預(yù)訓(xùn)練 GAN 生成器可用于創(chuàng)建無限數(shù)據(jù)流來訓(xùn)練網(wǎng)絡(luò),以解決密集視覺相關(guān)問題,而無需任何人工注釋的監(jiān)督。該論文表明,采用完全由 GAN 生成的數(shù)據(jù)進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò),性能優(yōu)于之前在真實(shí)數(shù)據(jù)上訓(xùn)練的自監(jiān)督和關(guān)鍵點(diǎn)監(jiān)督方法。

圖片

該論文將所提框架應(yīng)用于視覺和強(qiáng)化學(xué)習(xí)問題,并探討了如何使用預(yù)訓(xùn)練圖像級生成模型來處理視覺領(lǐng)域的下游任務(wù),而無需特定于任務(wù)的訓(xùn)練數(shù)據(jù)。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2011-03-21 10:03:38

LAMP網(wǎng)站技術(shù)帶頭人

2012-06-21 09:34:39

谷歌Chrome

2022-07-11 20:46:39

AQSJava

2019-10-21 10:59:52

編程語言JavaC

2016-04-14 12:30:18

現(xiàn)場報(bào)道Google工程團(tuán)隊(duì)

2022-09-30 09:40:39

智能汽車

2019-09-10 07:29:44

2019-02-25 22:46:39

2018-04-03 15:42:40

2023-01-30 22:10:12

BeanSpring容器

2020-01-15 15:29:52

InnoDB數(shù)據(jù)硬盤

2015-10-15 13:38:39

2015-08-18 09:12:54

app推廣渠道

2015-09-16 14:04:06

大數(shù)據(jù)巨頭

2023-04-10 23:05:54

NacosOpenFeignRibbon

2023-06-05 14:11:14

論文

2015-09-21 10:07:31

2024-05-17 09:38:00

2019-01-03 11:09:19

2015-09-16 14:11:47

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號