被Luma刷屏了!零成本上手做大片的時(shí)代已至!驚奇發(fā)現(xiàn):背后的技術(shù)與Sora大有不同! 原創(chuàng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
短視頻賽道的戰(zhàn)火已經(jīng)徹底卷起來了,今天,一款讓全球網(wǎng)友興奮到刷屏的視頻生成器上線了!
Dream Machine,這款可以根據(jù)文本和圖像生成AI視頻的工具向公眾開放,免費(fèi),免費(fèi),免費(fèi)!關(guān)鍵還在于,跟傳說中的Sora技術(shù)路線大不相同,2分鐘內(nèi)就能生成!
話不多說,在解讀技術(shù)之前,先看效果(什么才是真正的饕餮盛宴)!
1.大片預(yù)告—Justin
有人搶先體驗(yàn)了DreamMachine的人甚至生成了非常震撼預(yù)告片,戰(zhàn)爭、歌唱家、魔法師、騎士、海盜船長、騎手被處理的渾然天成。
這位體驗(yàn)者Justin贊嘆道:你以為LumaLabsAI只是關(guān)于酷炫的3D物體。錯(cuò)了!事實(shí)證明,數(shù)千個(gè)高斯條紋可以輕松變成強(qiáng)大的視頻生成模型。
2.新世紀(jì)渴望——Kaku Drop
“一個(gè)新世代已經(jīng)開始。我們?cè)诳萍祭顺敝兄厣l(fā)展。我們展望未來,不耽念過去,并不斷向前。”不同衣著風(fēng)格的女生四處透露出福音戰(zhàn)士的日系動(dòng)畫風(fēng)格,面容卻出奇得保持一致,場景構(gòu)思十分前瞻新奇。網(wǎng)友驚呼:創(chuàng)作的進(jìn)入門檻正在被徹底打破!
3. U WREE MINE —Next on Now
這里就不得不驚嘆Luma最新模型太厲害了!電視機(jī)屏幕里的畫面一致性做得非常棒,而且鏡頭拉伸、角度的變換、人物動(dòng)作的處理幾乎處理得堪稱完美。
4.奇幻生物—Curious Reuge
再體驗(yàn)之后,創(chuàng)作者Curious大吃一驚,這個(gè)視頻主要是通過圖像轉(zhuǎn)視頻的功能聲生成的。海底的白鯨、雨林的變色龍、非洲草原上獵豹……似乎到了這里全都披上了一層夢(mèng)幻的籠紗,讓人誤以為進(jìn)入到了堪比“猛獸俠”的火種時(shí)代。
以上更多是圖生視頻,文生視頻的能力如何?
小編也第一時(shí)間進(jìn)行了測試。
提示詞:小米汽車,行駛在跨江大橋上。
提示詞:牛頓坐在蘋果樹下,一顆紅蘋果砸到了他的頭。
提示詞:Newton was sitting under an apple tree when a red apple hit him on the head.
小編看到牛頓竟然會(huì)被蘋果這樣“砸”,實(shí)在是懷疑自己的提示詞出了問題,哭笑不得,這一顆接一顆的蘋果掉下來,即便沒有砸到頭,砸到手,不也得砸出事情來!
一、怎么做到的?
根據(jù)圖像生成的短片為什么這么逼真?
相信大家都知道《珍珠耳環(huán)的少女》這幅畫作,Dream Machine可以做到分鐘內(nèi)生成3D版并按照提示生成相應(yīng)的動(dòng)作和鏡頭切換,大家可以看下面的視頻,非常驚艷。
對(duì)比之前的鬼畜gif,是不是瞬間高大上了起來,相信之后的動(dòng)態(tài)表情包有了更加無敵的生成器了!
想到這里,小編果斷想到能不能讓齊白石老先生的“蝦”活過來!效果非常絲滑,鏡頭感也是拉滿了,蝦腿游弋的動(dòng)作清晰可見!
二、不同于Sora的技術(shù):三維重建術(shù)
小編從技術(shù)交流群中了解到,一位技術(shù)專家跟Luma的技術(shù)團(tuán)隊(duì)做了交流,Dream Machine的實(shí)現(xiàn)原理跟類Sora技術(shù)并不相同,很多工作都是從一項(xiàng)名叫NeRF的技術(shù)做的,即:先根據(jù)提示詞生成3D場景,然后在渲染。
所以對(duì)于3D場景,效果就會(huì)不錯(cuò),而對(duì)于較難3D重建的場景,比如“吃面”,效果就不一定好。
圖片
NeRF技術(shù),全稱Neural Radiance Fields,即神經(jīng)輻射場,是一種使用神經(jīng)網(wǎng)絡(luò)來隱式表達(dá)3D場景的技術(shù),是Luma AI構(gòu)建3D內(nèi)容的核心。這一套最初由UC Berkeley和Google發(fā)布的深度學(xué)習(xí)系統(tǒng),可以基于少量的2D圖像,對(duì)3D場景的幾何形狀和外觀進(jìn)行建模。
這項(xiàng)技術(shù)應(yīng)用非常廣泛,包括但不限于3D建模、自動(dòng)駕駛、導(dǎo)航系統(tǒng)等領(lǐng)域。
除此之外,Luma AI增長負(fù)責(zé)人Barkley Dai還表示,基于NeRF和Gaussian Splatting 3D重建技術(shù),Luma AI可以基于2D圖像數(shù)據(jù)快速構(gòu)建高質(zhì)量3D數(shù)據(jù),用于機(jī)器學(xué)習(xí)和算法訓(xùn)練。
減少生成高質(zhì)量3D內(nèi)容所需的算力資源和時(shí)間,則是AI 3D生成技術(shù)落地的關(guān)鍵。自今年以來,Text to 3D所耗時(shí)長已經(jīng)從小時(shí)級(jí),縮減到了分鐘級(jí)。
值得注意的是,去年11月,Luma AI在Discord上發(fā)布了了Text to 3D工具Genie,則將Text to 3D所耗時(shí)長縮減到秒級(jí)?;诖罅?D形狀、結(jié)構(gòu)和場景數(shù)據(jù)進(jìn)行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,Genie建立了對(duì)語義和3D空間幾何對(duì)應(yīng)關(guān)系的理解能力。
三、Luma核心團(tuán)隊(duì)
成立于2021年,Luma AI是美國加州舊金山灣區(qū)的初創(chuàng)企業(yè),該公司聚焦于3D內(nèi)容生成技術(shù),提供3D內(nèi)容生成和3D內(nèi)容重建技術(shù)解決方案。
Luma AI的核心團(tuán)隊(duì),擁有海外頭部大廠和高校的履歷。創(chuàng)始人兼CEO Amit Jain出身蘋果 AR/VR 部門,在3D計(jì)算機(jī)視覺、深度技術(shù)產(chǎn)品等方面有豐富經(jīng)驗(yàn)。
圖片
創(chuàng)始人兼CTO Alex Yu畢業(yè)于UC Berkeley,曾與人工智能研究實(shí)驗(yàn)室教授Angjoo Kanazawa共同進(jìn)行NeRF(Neural Radiance Fields,神經(jīng)輻射場)相關(guān)的3D計(jì)算機(jī)視覺研究。
圖片
首席科學(xué)家Jiaming Song,曾就讀于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,獲得了斯坦福大學(xué)博士學(xué)位,在 Stefano Ermon 教授的指導(dǎo)下學(xué)習(xí)機(jī)器學(xué)習(xí)和生成模型。在加入 Luma 之前,他曾參與 NVIDIA AI Foundations 的圖像/視頻/3D 生成模型的開發(fā)。
Jiaming目前正在研究生成 3D 內(nèi)容的基礎(chǔ)模型。他參與了 DDIM(第一個(gè)快速擴(kuò)散模型采樣器)和 SDEdit(擴(kuò)散模型中第一個(gè)圖像到圖像的轉(zhuǎn)換方法)的開發(fā)。
圖片
首席科學(xué)顧問金澤安珠(Angjoo Kanazawa)是加州大學(xué)伯克利分校 EECS 系的助理教授。她的研究領(lǐng)域是計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)的交叉領(lǐng)域,專注于日常照片和視頻背后的動(dòng)態(tài) 3D 世界的視覺感知。她對(duì)重建世界上的一切感到興奮!她是斯隆研究員 (2023),熱衷于創(chuàng)造有用的事物。她在馬里蘭大學(xué)帕克分校獲得博士學(xué)位。
圖片
這里,給大家一個(gè)傳送門:
??https://lumalabs.ai/dream-machine/??
趕緊開啟自己的大片之旅吧!
對(duì)了,據(jù)隔壁桌愛玩文生視頻的同事反映,她最愛的還是國產(chǎn)快手的“可靈”,吸引她的有三點(diǎn):國產(chǎn)自研的,中國人更懂中國人;第二點(diǎn)是,大幅度的合理運(yùn)動(dòng)也可以生成;第三點(diǎn)就是時(shí)長可以高達(dá)2分鐘,而且支持自由的寬高比。當(dāng)然,據(jù)悉,可靈也采用了類Sora的技術(shù)架構(gòu)?!緦?duì)話OpenAI,Sora你還不對(duì)外開放?】
話說回來,大家更喜歡哪款?
本文轉(zhuǎn)載自??51CTO技術(shù)棧??
