國(guó)內(nèi)公司有望做出Sora嗎?這支清華系大模型團(tuán)隊(duì)給出了希望
2023 年年底,很多人都預(yù)測(cè),未來(lái)一年將是視頻生成快速發(fā)展的一年。但出人意料的是,農(nóng)歷春節(jié)剛過(guò),OpenAI 就扔出了一個(gè)重磅炸彈 —— 能生成 1 分鐘流暢、逼真視頻的 Sora。它的出現(xiàn)讓很多研究者擔(dān)心:國(guó)內(nèi)外 AI 技術(shù)的差距是不是又拉大了?
根據(jù) OpenAI 披露的技術(shù)報(bào)告,Sora 的核心技術(shù)點(diǎn)之一是將視覺(jué)數(shù)據(jù)轉(zhuǎn)化為 patch 的統(tǒng)一表示形式,并通過(guò) Transformer 和擴(kuò)散模型結(jié)合,展現(xiàn)了卓越的 scale 特性。無(wú)獨(dú)有偶,最近發(fā)布的 Stable Diffusion 3 也采用了同樣的架構(gòu)。
其實(shí),這兩項(xiàng)工作都是基于 Sora 核心研發(fā)成員 William Peebles 和紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧合著的一篇論文《Scalable Diffusion Models with Transformers》。這篇論文提出了一種基于 Transformer 架構(gòu)的新型擴(kuò)散模型 ——DiT,用對(duì)潛在 patch 進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò),把大語(yǔ)言模型的可擴(kuò)展性、涌現(xiàn)性復(fù)制到了視覺(jué)任務(wù)上。
我們關(guān)注到,其實(shí)早在 2022 年 9 月,清華團(tuán)隊(duì)就提交了一篇名為《All are Worth Words: A ViT Backbone for Diffusion Models》的論文(比 DiT 早兩個(gè)月)。這篇論文提出了用基于Transformer 的網(wǎng)絡(luò)架構(gòu) U-ViT替代基于CNN的U-Net。對(duì)比來(lái)看,兩項(xiàng)工作在架構(gòu)路線上完全一致:均是提出了將 Transformer 與擴(kuò)散模型融合的思路;并且在具體的實(shí)驗(yàn)路徑上也一致,比如采用了相同的 patch embedding、patch size;都得出了同樣的結(jié)論 ——patch size 為 2*2 是最理想的;在模型參數(shù)量上,兩者都在 50M-500M 左右的參數(shù)量上做了實(shí)驗(yàn),最終都證實(shí)了 scale 特性。
不過(guò) DiT 僅在 ImageNet 上做了實(shí)驗(yàn),U-ViT 在小數(shù)據(jù)集(CIFAR10、CelebA)、ImageNet、圖文數(shù)據(jù)集 MSCOCO 上均做了實(shí)驗(yàn)。此外,相比傳統(tǒng)的 Transformer,U-ViT 提出了一項(xiàng)「長(zhǎng)連接」的技術(shù),大大提升了訓(xùn)練收斂速度。這篇論文后被 CVPR 2023 收錄。
基于 U-ViT 架構(gòu),2023 年 3 月,該團(tuán)隊(duì)再次發(fā)布了一項(xiàng) UniDiffuser 的工作(參見(jiàn)《清華朱軍團(tuán)隊(duì)開(kāi)源首個(gè)基于 Transformer 的多模態(tài)擴(kuò)散大模型,文圖互生、改寫(xiě)全拿下》),在開(kāi)源的大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓(xùn)練了 10 億參數(shù)量的多模態(tài)模型。同一時(shí)期,主攻通用多模態(tài)大模型賽道的生數(shù)科技正式成立(參見(jiàn)《專訪生數(shù)科技唐家渝:清華系團(tuán)隊(duì)拿到上億融資,用Transformer來(lái)做多模態(tài)大模型》)。區(qū)別也在此刻發(fā)生,生數(shù)科技出于算力資源、技術(shù)成熟度等方面的考量,優(yōu)先嘗試將 U-ViT 應(yīng)用于圖文任務(wù),而 OpenAI 則是利用其算力優(yōu)勢(shì)跨越式地直接將 DiT 應(yīng)用于視頻任務(wù)。
雖然主攻的任務(wù)不同,但 U-ViT 同樣展示了在視覺(jué)任務(wù)下的優(yōu)異能力。與當(dāng)時(shí)同階段的 SD1.5 比較,UniDiffuser 效果是基本持平的。更重要的是,UniDiffuser 擴(kuò)展性更強(qiáng),能基于一個(gè)底層模型完成圖文之間的任意生成。簡(jiǎn)單來(lái)講,除了單向的文生圖,還能實(shí)現(xiàn)圖生文、圖文聯(lián)合生成、無(wú)條件圖文生成、圖文改寫(xiě)等多種功能。
Unidiffuser開(kāi)源版效果
Unidiffuser當(dāng)前效果圖
有了這些對(duì)于架構(gòu)的早期探索,生數(shù)科技其實(shí)在視頻生成上頗具潛力,有望成為最接近 Sora 的中國(guó)團(tuán)隊(duì)。而且,他們也早已在視頻生成方向進(jìn)行了一些探索。
那么,未來(lái)的路怎么走?在視頻生成這個(gè)問(wèn)題上,有哪些棘手的問(wèn)題需要解決?Sora 又將帶來(lái)哪些商業(yè)機(jī)遇?在近期的一次訪談中,生數(shù)科技 CEO 唐家渝、首席科學(xué)家朱軍向機(jī)器之心透露了自己的看法。
Sora 的出現(xiàn)比預(yù)期早半年
機(jī)器之心:首先想請(qǐng)兩位回憶一下,第一次看到 Sora 的時(shí)候是什么感覺(jué)?有沒(méi)有印象比較深刻的 demo?
唐家渝:我印象最深的是它的流暢性和時(shí)間長(zhǎng)度。之前 AI 生成的短視頻,大家都戲稱為 GIF—— 變動(dòng)小,視頻短,只有幾秒。Sora 生成的視頻長(zhǎng)得多,流暢度、自然度又明顯好了一個(gè)層次,我覺(jué)得這是最直觀的一個(gè)視覺(jué)上的沖擊。
朱軍:如果回頭看大家之前對(duì)視頻生成長(zhǎng)度的預(yù)判,Sora 的出現(xiàn)其實(shí)是超前了。之前能夠預(yù)測(cè)到今年視頻生成會(huì)快速發(fā)展,但當(dāng)時(shí)在技術(shù)原理上,大家沒(méi)有看到特別大的技術(shù)突破,所以當(dāng)時(shí)就覺(jué)得短視頻(幾秒鐘那種)會(huì)是一個(gè)主流形式。但 Sora 一下子做到了這么長(zhǎng),還是一個(gè)比較 surprise 的事情。原本預(yù)計(jì)今年年中或年底能做到這個(gè)水平,Sora 提前了大概有半年的時(shí)間。
用 Transformer 替代 U-Net 是一個(gè)自然想法,區(qū)別在于誰(shuí)先做出效果
機(jī)器之心:最近關(guān)于 Sora 核心創(chuàng)新點(diǎn)的討論比較多,而且大家提及最多的是它的架構(gòu)。朱老師能否通俗地解釋一下 Sora 的 Diffusion Transformer 架構(gòu)是怎么一回事,「用 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)」有何必要性?
朱軍:以視頻數(shù)據(jù)為例,擴(kuò)散模型的原理就是在數(shù)據(jù)上做加噪和去噪。這里很關(guān)鍵的問(wèn)題,就是能不能準(zhǔn)確地預(yù)測(cè)噪聲,設(shè)計(jì)一個(gè)噪聲預(yù)測(cè)網(wǎng)絡(luò)。過(guò)去大家會(huì)用傳統(tǒng)的 U-Net 去做,但是 Transformer 被證明在可擴(kuò)展性等方面有很大的優(yōu)勢(shì),所以用 Transformer 去替代 U-Net 是一個(gè)很自然的想法,區(qū)別就在于誰(shuí)先做出來(lái)效果。
Sora 用到的 DiT 是 2022 年底發(fā)布出來(lái)的。其實(shí)早在 2022 年 9 月份,我們發(fā)布了一個(gè)叫 U-ViT 的模型。這個(gè)模型的主要思想是用 Vision Transformer 去替代 U-Net,和 DiT 核心的想法是一樣的,就是用 Transformer 去增強(qiáng)擴(kuò)散模型。這后來(lái)被證明非常有效,特別是在視覺(jué)數(shù)據(jù)的生成上。它一方面保持了擴(kuò)散模型的優(yōu)勢(shì),另一方面又利用了 Transformer 的可擴(kuò)展性以及對(duì)不同模態(tài)的兼容性。相比于傳統(tǒng)的 Transformer,我們自己的設(shè)計(jì)(U-ViT)里面還包括了長(zhǎng)連接,它可以讓計(jì)算效率變得更高,能看到很顯著的效果提升。
U-ViT 架構(gòu)
機(jī)器之心:我們可以從哪些指標(biāo)上看到這些效果?
朱軍:其實(shí)在 22 年的時(shí)候,大家就已經(jīng)看到了,用 Vision Transformer 這種架構(gòu)可以提高生成質(zhì)量,實(shí)現(xiàn)更高的分辨率,也可以更有效地訓(xùn)練更大規(guī)模的模型。現(xiàn)在,我們可以看到更多的例子,包括 Sora、Stable Diffusion 3。這些例子一次又一次地證明了,這個(gè)架構(gòu)的潛力是巨大的。
機(jī)器之心:在生數(shù)的產(chǎn)品里面,這份工作展現(xiàn)出了什么樣的效果?
朱軍:我們從一開(kāi)始就堅(jiān)持用擴(kuò)散加 Transformer 的融合架構(gòu),也就是多模態(tài)原生的架構(gòu)。之前,很多團(tuán)隊(duì)在做多模態(tài)的時(shí)候,會(huì)想說(shuō)什么模態(tài)都對(duì)到語(yǔ)言上。但我們認(rèn)為這種架構(gòu)不是最優(yōu),因?yàn)閺脑砗陀?jì)算效率上來(lái)看,這種方法存在天然的不足,所以從一開(kāi)始我們就在走擴(kuò)散加 Transformer 這種路線。
2022 年我們提出 U-ViT 架構(gòu)的時(shí)候?qū)?biāo)的是 Stable Diffusion,當(dāng)時(shí) Stable Diffusion 剛開(kāi)源。所以在 U-ViT 架構(gòu)的基礎(chǔ)上,我們又在 2023 年 3 月份開(kāi)源了一個(gè)叫 UniDiffuser 的大模型。這個(gè)模型也是基于擴(kuò)散加 Transformer 的融合架構(gòu),可以在文、圖兩種模態(tài)之間進(jìn)行任意的轉(zhuǎn)換。
從底層架構(gòu)的訓(xùn)練到優(yōu)化到支撐上層的圖像、3D、視頻的生成,生數(shù)一直在堅(jiān)持這個(gè)架構(gòu),一直在堅(jiān)持這種融合的路線。
機(jī)器之心:您的意思是說(shuō),這種融合的路線相比那種單純地用 Diffusion 或者單純地用 Transformer 效果都要好,是嗎?
朱軍:是的。與單純地用 Diffusion 相比,融合架構(gòu)的主要優(yōu)勢(shì)就是 Transformer 的可擴(kuò)展性。與單純地用 Transformer 相比,融合架構(gòu)在生成視覺(jué)數(shù)據(jù)的效率,包括模型的表示效率和計(jì)算效率等方面有很大的優(yōu)勢(shì)。
對(duì)于 Transformer 這個(gè)架構(gòu)來(lái)說(shuō),你把所有東西都放到里邊,好處就是簡(jiǎn)單直接。但是,就目前對(duì)視覺(jué)數(shù)據(jù)的處理和生成效果來(lái)看,擴(kuò)散還是占優(yōu)勢(shì)的。在我們看來(lái),融合模型更符合原生多模態(tài)的定位。因?yàn)椴煌愋偷臄?shù)據(jù),它的特點(diǎn)是不一樣的,所以應(yīng)該針對(duì)不同模態(tài)選擇最合適的一種處理方式。從實(shí)際的視覺(jué)生成效果來(lái)看,現(xiàn)在主流的方法也是用擴(kuò)散模型去做生成,因?yàn)橛?Transformer 這個(gè)架構(gòu)直接去做生成的話,到目前為止效果還是落后的。
機(jī)器之心:你們的 U-ViT 和 DiT 是同一時(shí)期提出的,但是你們選擇優(yōu)先用它去做圖文任務(wù),而不是視頻生成,是基于什么考量?
朱軍:實(shí)際上我們也在做視頻生成,只是當(dāng)時(shí)基于算力的考慮排了一個(gè)優(yōu)先級(jí)。這里面也有我們基于技術(shù)成熟度的一個(gè)預(yù)判。去年,我們是優(yōu)先從 2D 的圖像開(kāi)始,然后緊接著到 5 月份的時(shí)候,我們就做了 3D 生成(從 2D 到 3D),后來(lái)我們又做了視頻和 4D( 參見(jiàn)《一鍵實(shí)景轉(zhuǎn)動(dòng)畫(huà),清華系初創(chuàng)公司全球首發(fā)4D骨骼動(dòng)畫(huà)框架》)。實(shí)際上就是在有了基礎(chǔ)的基座之后,我們可以做不同維度的擴(kuò)增,3D、4D 其實(shí)分別是空間、時(shí)間上的一個(gè)擴(kuò)展。
視頻實(shí)際上是圖像的流,它相當(dāng)于在時(shí)間軸上做了一個(gè)擴(kuò)增。所以我們的架構(gòu)實(shí)際上可以很自然地支持短視頻的生成,只是當(dāng)時(shí)我們主要聚焦在幾秒鐘的短視頻的生成,沒(méi)有像 OpenAI 的 Sora 那樣一下子做到幾十秒、一分鐘。這里邊有很多原因,但其中一個(gè)很重要的原因是,我們手頭的資源相對(duì)來(lái)說(shuō)確實(shí)受限很多。但是,從 2D 圖像到視頻生成,很多東西是一脈相承的,很多經(jīng)驗(yàn)(比如大規(guī)模訓(xùn)練的經(jīng)驗(yàn))是可以復(fù)用的。
復(fù)現(xiàn) Sora,還有很多難題需要解決
機(jī)器之心:生成幾秒的視頻和 1 分鐘的視頻之間的技術(shù)差異是巨大的。根據(jù)您的經(jīng)驗(yàn),除了算力,做到這一點(diǎn)的關(guān)鍵是什么?
朱軍:這里面很重要的一塊是,針對(duì)比較長(zhǎng)的視頻,怎么有效地表示它的時(shí)空信息,怎么有效地去壓縮視頻數(shù)據(jù),學(xué)到一個(gè)嵌入的表示,然后在上面再去做擴(kuò)散、生成。
另外,要讓這種架構(gòu)能夠有效訓(xùn)練,數(shù)據(jù)也很重要。基于之前的 DALL?E 3 等積累的優(yōu)勢(shì),OpenAI 可以對(duì)視頻數(shù)據(jù)做到比較有效的語(yǔ)義理解。這在訓(xùn)練數(shù)據(jù)里是非常關(guān)鍵的。因?yàn)樵趧?chuàng)作的時(shí)候,你輸入的語(yǔ)言通常是比較有限的、簡(jiǎn)單的,所以如果想去生成豐富的視頻內(nèi)容,中間需要一個(gè)比較強(qiáng)的語(yǔ)義理解過(guò)程。
當(dāng)然,可能還有很多我們不知道的因素。Sora 的成功不光是一個(gè)生成的問(wèn)題,里面包括語(yǔ)義理解、數(shù)據(jù)標(biāo)注、數(shù)據(jù)清洗、大規(guī)模訓(xùn)練以及工程優(yōu)化等等。這些問(wèn)題如果沒(méi)有做過(guò)是不知道的,由于 OpenAI 做過(guò)很多成功的案例,所以他們做成一個(gè)新項(xiàng)目的成功率會(huì)更高。
機(jī)器之心:同樣的架構(gòu)用來(lái)做圖像任務(wù)和視頻任務(wù),會(huì)有什么不同嗎?對(duì)生數(shù)團(tuán)隊(duì)而言,下一步計(jì)劃如何將該架構(gòu)從圖像任務(wù)拓展至視頻任務(wù)?
朱軍:主要的不同在于,視頻里面包含很多的時(shí)空信息。怎么抓住里面關(guān)鍵的運(yùn)動(dòng)、保持住長(zhǎng)時(shí)間的一致性?這是單張圖片不會(huì)涉及到的。二者從原理上來(lái)說(shuō)是相通的,我們從去年下半年開(kāi)始也一直在做視頻相關(guān)的工作。
生數(shù)底層擁有自主訓(xùn)練的架構(gòu),所以在上面我們能夠很自然地做各種生成。圖像生成是一個(gè)基礎(chǔ),圖像生成的質(zhì)量會(huì)影響到視頻生成的質(zhì)量。此外,3D 生成我們也持續(xù)在做。只是,Sora 比我們預(yù)期出現(xiàn)得要早,所以后續(xù)我們會(huì)加強(qiáng)視頻生成這一塊。
打造通用多模態(tài),需要通用架構(gòu)提供支撐
機(jī)器之心:Sora 的發(fā)布讓我們看到 OpenAI「all in AGI」的野心。他們的技術(shù)路線有兩個(gè)關(guān)鍵點(diǎn):一是多模態(tài),二是通用化架構(gòu)。生數(shù)科技也是「通用多模態(tài)路線」的堅(jiān)持者,在您看來(lái),通用化架構(gòu)有何必要性?
朱軍:如果想讓模型實(shí)現(xiàn)更強(qiáng)的通用性,就需要更加通用的模型架構(gòu)來(lái)支撐。以 Sora 為例,在架構(gòu)上它肯定要融合文字和視覺(jué)數(shù)據(jù)。換句話說(shuō),如果你只做視覺(jué)或只做文本的話,你在多模態(tài)的任務(wù)上就不是最優(yōu),或者說(shuō)有些模態(tài)不能處理。這是一個(gè)很直接的相互支撐的關(guān)系。
機(jī)器之心:做這種通用架構(gòu)的難點(diǎn)體現(xiàn)在哪幾個(gè)方面?
朱軍:難點(diǎn)就在于,不同模態(tài)的數(shù)據(jù),特點(diǎn)是不一樣的,你是不是直接簡(jiǎn)單粗暴地用一種方式表示所有數(shù)據(jù)?這種方式目前來(lái)看可能并不是最優(yōu),所以需要針對(duì)不同數(shù)據(jù)的特點(diǎn)去分析考慮。另外,不同模態(tài)的數(shù)據(jù),它的數(shù)據(jù)量是不一樣的,或者說(shuō)不均衡。在訓(xùn)練過(guò)程中,這可能會(huì)對(duì)你的優(yōu)化過(guò)程產(chǎn)生實(shí)際的影響。還有不同模態(tài)之間的對(duì)齊理解也是問(wèn)題。
機(jī)器之心:Sora 出現(xiàn)后,有種聲音說(shuō),國(guó)內(nèi)外的差距進(jìn)一步拉大了,您怎么看待這個(gè)問(wèn)題?
朱軍:差距是否拉大,這是一個(gè)可以辯論的問(wèn)題。但我覺(jué)得,Sora 出來(lái)之后,國(guó)內(nèi)外并沒(méi)有像當(dāng)初 ChatGPT 出來(lái)時(shí)那樣形成很明顯的代差。只是大家現(xiàn)在在工程技術(shù)上可能會(huì)落后一些。視頻生成這個(gè)問(wèn)題,國(guó)內(nèi)也很重視,而且國(guó)內(nèi)做圖像、視頻相關(guān)任務(wù)的基礎(chǔ)還是比較好的。從當(dāng)前的結(jié)果來(lái)看,實(shí)際情況可能比想象中要樂(lè)觀一些。
來(lái)自 OpenAI 的啟發(fā):
技術(shù)自信和資源都很重要
機(jī)器之心:如果從商業(yè)和產(chǎn)品的角度來(lái)看,您如何看待 Sora 的成功?
唐家渝:OpenAI 整體的模式是朝著 AGI 的目標(biāo),從底層模型能力提升的層面不斷地往前跑,模型本身就可以看作是他們最核心的產(chǎn)品。據(jù)說(shuō) Sora 這個(gè)小組也并沒(méi)有去考慮太多關(guān)于商業(yè)和產(chǎn)品的事情,所以可能他們?cè)谧铋_(kāi)始的時(shí)候主要還是聚焦在如何實(shí)現(xiàn)真正好的視頻生成能力,然后去相信說(shuō)只要我有這么強(qiáng)的能力,上面一定能搭出更多的商業(yè)化產(chǎn)品。對(duì)外賦能底層 API 的能力,然后在上層去創(chuàng)建一個(gè)繁榮的 AI 生態(tài),是 OpenAI 已經(jīng)驗(yàn)證成功的一種商業(yè)模式了。
從這個(gè)維度來(lái)講,我覺(jué)得他們成功因素中很重要的一點(diǎn)已經(jīng)寫(xiě)在了他們公司的價(jià)值觀里,也就是所謂的 “Scale”,他們整個(gè)公司都是相信 scale up 的,官網(wǎng)原話是「如果對(duì)此產(chǎn)生了懷疑,就進(jìn)一步 scale it up」。所以我覺(jué)得這也是他們對(duì)于自己的技術(shù)路線的充分自信和堅(jiān)持,然后衍生出了現(xiàn)在的成功。
機(jī)器之心:這對(duì)生數(shù)科技有什么啟發(fā)?
唐家渝:首先是觀念上的。我覺(jué)得我們?cè)谠O(shè)計(jì)了 Diffusion 融合 Transformer 這樣一個(gè)好的架構(gòu),并且已經(jīng)看到它有巨大的潛力的情況下,應(yīng)該要更有技術(shù)上的自信。這和 OpenAI 去相信 scale up 是類似的。
第二點(diǎn)是,在有自信的同時(shí),如果你要去做 scale up,尤其是基于視頻數(shù)據(jù),就要去卷入更多的資源。因?yàn)橄裎覀兓蛘邍?guó)內(nèi)的其他創(chuàng)業(yè)公司,其實(shí)相比 OpenAI 所擁有的資源還是差很多的。所以我們得敢想敢做地去卷入更多資源,和更多資源方去合作,這樣才能把技術(shù)自信轉(zhuǎn)變?yōu)榧夹g(shù)實(shí)現(xiàn),然后變成產(chǎn)品實(shí)現(xiàn)。
視頻生成:生數(shù)的過(guò)去與未來(lái)
機(jī)器之心:生數(shù)之前上線過(guò)一些文生視頻的能力,可以介紹一下之前的探索工作嗎?
唐家渝:我們的技術(shù)探索最終是為產(chǎn)品服務(wù)的。從產(chǎn)品層面來(lái)看,我們之前發(fā)布的能力和業(yè)界是差不多的,就是幾秒的短視頻生成和編輯。那個(gè)時(shí)候主要受限于算力等因素,沒(méi)有利用已有的架構(gòu)在視頻數(shù)據(jù)上去完成 scale up。從產(chǎn)品使用角度來(lái)看,我們其實(shí)看到這種幾秒的視頻已經(jīng)能夠幫用戶去做一些創(chuàng)意的工作,即使要制作長(zhǎng)視頻,其實(shí)也可以通過(guò)設(shè)計(jì)腳本來(lái)拼接短視頻實(shí)現(xiàn)。
但 Sora 的出現(xiàn)讓我們看到,原生長(zhǎng)視頻生成的能力不僅從內(nèi)容創(chuàng)作的角度,可以幫助我們?nèi)ミM(jìn)行長(zhǎng)鏡頭等更加藝術(shù)化的表達(dá),也能外顯出一定的物理世界理解能力,使得生成的視頻更加自然。這也大大增強(qiáng)了我們加大視頻生成研發(fā)投入的信心和決心。
此外,我們之前的這些探索其實(shí)也是為了牽引內(nèi)部的一些工程基礎(chǔ)建設(shè),比如為視頻數(shù)據(jù)的收集、清洗、標(biāo)注以及模型的高效訓(xùn)練積累經(jīng)驗(yàn)。這些積累和最接近Sora的架構(gòu),使得我們?cè)谧鲩L(zhǎng)視頻生成時(shí),對(duì)最終的效果更加抱有期待。
機(jī)器之心:據(jù)您所知,Sora 的開(kāi)發(fā)、應(yīng)用成本有多高?如果要做類似產(chǎn)品,生數(shù)要如何應(yīng)對(duì)隨之而來(lái)的成本問(wèn)題?
唐家渝:就開(kāi)發(fā)成本來(lái)說(shuō),業(yè)界估計(jì)資源比較充分的狀態(tài)需要達(dá)到萬(wàn)卡(英偉達(dá) A 系列)的水平。由于我們之前在大規(guī)模訓(xùn)練上做了很多加速的工作,所以我們的需求實(shí)際評(píng)估下來(lái)會(huì)少一些。
如果估算一下 Sora 的應(yīng)用成本,目前生成 60 秒的高清視頻大概需要幾塊到幾十塊人民幣。所以 OpenAI 現(xiàn)在還沒(méi)有完全放出來(lái)這個(gè)東西,估計(jì)也是有算力、成本方面的顧慮。此外,模型生成視頻的成功率也是未知數(shù),這可能也是一個(gè)顧慮。
要降低應(yīng)用成本,肯定要在這個(gè)過(guò)程中做一些模型壓縮的工作,包括一些分布式的操作 —— 比如在手機(jī)、筆記本端去做一些推理,也會(huì)是大家去做的一個(gè)衍生方向。另外,架構(gòu)層面的一些優(yōu)化肯定也會(huì)持續(xù)去做。所以應(yīng)用成本的問(wèn)題,我們覺(jué)得相對(duì)來(lái)說(shuō)還是比較樂(lè)觀的。
什么叫「原生多模態(tài)模型」?
機(jī)器之心:根據(jù)您公司的描述,你們走的是「原生多模態(tài)大模型」賽道,能否介紹一下這個(gè)賽道和其他賽道的區(qū)別,以及該賽道國(guó)內(nèi)外玩家的具體情況。
唐家渝:其實(shí)定位原生多模態(tài)這個(gè)賽道是說(shuō),我們從第一天就堅(jiān)持做一個(gè)完整的通用多模態(tài)大模型,而不是訓(xùn)練多個(gè)模型,對(duì)這些模型的能力做排列組合式的使用。我們的做法是從底層的架構(gòu)出發(fā),天然地去考慮通過(guò)一個(gè)模型支撐不同數(shù)據(jù)的輸入輸出,它的特點(diǎn)是模型學(xué)到的知識(shí)會(huì)更加充分,而且在使用的時(shí)候,不用調(diào)用不同的模型去做組合應(yīng)用,因此推理效率會(huì)更高。
舉個(gè)具體的例子,GPT-4支持文本-文本,DALL·E 3支持文本-圖像,GPT-4V可同時(shí)輸入文本和圖像,但輸出僅文本,在應(yīng)對(duì)開(kāi)放的視覺(jué)任務(wù)時(shí),是通過(guò)調(diào)用DALL·E 3或者GPT-4V的接口來(lái)實(shí)現(xiàn),而原生的技術(shù)路線是基于一個(gè)底層架構(gòu)實(shí)現(xiàn)「GPT-4V + DALL·E 3」的統(tǒng)一,能應(yīng)對(duì)廣泛開(kāi)放域的文本和視覺(jué)交互類的復(fù)雜場(chǎng)景。
這個(gè)領(lǐng)域的國(guó)外玩家主要是谷歌(Gemini)和 OpenAI(Sora)。國(guó)內(nèi)的話,我們是最早、也可能是唯一堅(jiān)持做通用性的多模態(tài)大模型的公司。
機(jī)器之心:從產(chǎn)品的角度,您如何定義「原生」?
唐家渝:從產(chǎn)品角度來(lái)看,其實(shí)我們更多的是考慮有了原生多模態(tài)模型的加持之后,產(chǎn)品所帶來(lái)的用戶體驗(yàn)有沒(méi)有指數(shù)級(jí)的提升,像「所想即所得、所說(shuō)即所得」就是一種指數(shù)級(jí)的提升。我們所做的事情,無(wú)論是圖像、3D 還是視頻的生成,其實(shí)都是朝著這個(gè)目標(biāo)在努力的。就是讓一個(gè)即使沒(méi)有任何專業(yè)能力的人,都可以去創(chuàng)作出他想要的畫(huà)面,或者說(shuō)在數(shù)字世界或物理世界具象化出想象中的某個(gè)東西。我個(gè)人心中的標(biāo)準(zhǔn)之一就是,自己的親戚朋友最終會(huì)不會(huì)喜歡去用這么一個(gè)產(chǎn)品。
Sora 所帶來(lái)的商業(yè)機(jī)遇
機(jī)器之心:在關(guān)于 Sora 是否理解物理世界的爭(zhēng)論中,Keras 之父 Fran?ois Chollet 曾提到,這個(gè)問(wèn)題之所以重要,是因?yàn)樗鼪Q定了生成圖像、視頻的應(yīng)用范圍 —— 是僅限于媒體生產(chǎn),還是可以用作現(xiàn)實(shí)世界的可靠模擬。如果分兩種情況去討論,Sora 的發(fā)布將分別帶來(lái)哪些新的商業(yè)機(jī)遇?
唐家渝:我覺(jué)得前者主要對(duì)應(yīng)的是數(shù)字世界里的內(nèi)容生產(chǎn)。在數(shù)字世界中,我們平時(shí)接觸到的內(nèi)容涉及電視電影、廣告、教育、社交娛樂(lè)等多個(gè)行業(yè)。因?yàn)橐曨l形態(tài)在我們?nèi)粘I钪杏玫锰嗔?,所以即使只看跟視頻相關(guān)的場(chǎng)景,它的應(yīng)用前景就已經(jīng)非常不可限量了。
如果它能理解物理世界,那應(yīng)用范圍就不止局限在數(shù)字世界了,而是可以和物理世界產(chǎn)生交互。比如,它可以和機(jī)器人結(jié)合實(shí)現(xiàn)具身智能,也可以用于自動(dòng)駕駛,用于數(shù)字孿生。之前一個(gè)一個(gè)構(gòu)建小模型的方法可能有很多 corner case 照顧不到,如果模型真能了解到物理世界的規(guī)則,我們就能使用一個(gè)通用模型來(lái)處理所有的關(guān)于物理世界的認(rèn)知和仿真任務(wù),這可能會(huì)極大地推動(dòng)社會(huì)運(yùn)行方式的進(jìn)化。