出品 | 51CTO技術棧(微信號:blog51cto)
短視頻賽道的戰(zhàn)火已經(jīng)徹底卷起來了,今天,一款讓全球網(wǎng)友興奮到刷屏的視頻生成器上線了!
Dream Machine,這款可以根據(jù)文本和圖像生成AI視頻的工具向公眾開放,免費,免費,免費!關鍵還在于,跟傳說中的Sora技術路線大不相同,2分鐘內(nèi)就能生成!
話不多說,在解讀技術之前,先看效果(什么才是真正的饕餮盛宴)!
1.大片預告—Justin
有人搶先體驗了DreamMachine的人甚至生成了非常震撼預告片,戰(zhàn)爭、歌唱家、魔法師、騎士、海盜船長、騎手被處理的渾然天成。
這位體驗者Justin贊嘆道:你以為LumaLabsAI只是關于酷炫的3D物體。錯了!事實證明,數(shù)千個高斯條紋可以輕松變成強大的視頻生成模型。
2.新世紀渴望——Kaku Drop
“一個新世代已經(jīng)開始。我們在科技浪潮中重生并發(fā)展。我們展望未來,不耽念過去,并不斷向前?!辈煌轮L格的女生四處透露出福音戰(zhàn)士的日系動畫風格,面容卻出奇得保持一致,場景構思十分前瞻新奇。網(wǎng)友驚呼:創(chuàng)作的進入門檻正在被徹底打破!
3. U WREE MINE —Next on Now
這里就不得不驚嘆Luma最新模型太厲害了!電視機屏幕里的畫面一致性做得非常棒,而且鏡頭拉伸、角度的變換、人物動作的處理幾乎處理得堪稱完美。
4.奇幻生物—Curious Reuge
再體驗之后,創(chuàng)作者Curious大吃一驚,這個視頻主要是通過圖像轉(zhuǎn)視頻的功能聲生成的。海底的白鯨、雨林的變色龍、非洲草原上獵豹……似乎到了這里全都披上了一層夢幻的籠紗,讓人誤以為進入到了堪比“猛獸俠”的火種時代。
以上更多是圖生視頻,文生視頻的能力如何?
小編也第一時間進行了測試。
提示詞:小米汽車,行駛在跨江大橋上。
提示詞:牛頓坐在蘋果樹下,一顆紅蘋果砸到了他的頭。
提示詞:Newton was sitting under an apple tree when a red apple hit him on the head.
小編看到牛頓竟然會被蘋果這樣“砸”,實在是懷疑自己的提示詞出了問題,哭笑不得,這一顆接一顆的蘋果掉下來,即便沒有砸到頭,砸到手,不也得砸出事情來!
一、怎么做到的?
根據(jù)圖像生成的短片為什么這么逼真?
相信大家都知道《珍珠耳環(huán)的少女》這幅畫作,Dream Machine可以做到分鐘內(nèi)生成3D版并按照提示生成相應的動作和鏡頭切換,大家可以看下面的視頻,非常驚艷。
對比之前的鬼畜gif,是不是瞬間高大上了起來,相信之后的動態(tài)表情包有了更加無敵的生成器了!
想到這里,小編果斷想到能不能讓齊白石老先生的“蝦”活過來!效果非常絲滑,鏡頭感也是拉滿了,蝦腿游弋的動作清晰可見!
二、不同于Sora的技術:三維重建術
小編從技術交流群中了解到,一位技術專家跟Luma的技術團隊做了交流,Dream Machine的實現(xiàn)原理跟類Sora技術并不相同,很多工作都是從一項名叫NeRF的技術做的,即:先根據(jù)提示詞生成3D場景,然后在渲染。
所以對于3D場景,效果就會不錯,而對于較難3D重建的場景,比如“吃面”,效果就不一定好。
圖片
NeRF技術,全稱Neural Radiance Fields,即神經(jīng)輻射場,是一種使用神經(jīng)網(wǎng)絡來隱式表達3D場景的技術,是Luma AI構建3D內(nèi)容的核心。這一套最初由UC Berkeley和Google發(fā)布的深度學習系統(tǒng),可以基于少量的2D圖像,對3D場景的幾何形狀和外觀進行建模。
這項技術應用非常廣泛,包括但不限于3D建模、自動駕駛、導航系統(tǒng)等領域。
除此之外,Luma AI增長負責人Barkley Dai還表示,基于NeRF和Gaussian Splatting 3D重建技術,Luma AI可以基于2D圖像數(shù)據(jù)快速構建高質(zhì)量3D數(shù)據(jù),用于機器學習和算法訓練。
減少生成高質(zhì)量3D內(nèi)容所需的算力資源和時間,則是AI 3D生成技術落地的關鍵。自今年以來,Text to 3D所耗時長已經(jīng)從小時級,縮減到了分鐘級。
值得注意的是,去年11月,Luma AI在Discord上發(fā)布了了Text to 3D工具Genie,則將Text to 3D所耗時長縮減到秒級?;诖罅?D形狀、結構和場景數(shù)據(jù)進行深度神經(jīng)網(wǎng)絡訓練,Genie建立了對語義和3D空間幾何對應關系的理解能力。
三、Luma核心團隊
成立于2021年,Luma AI是美國加州舊金山灣區(qū)的初創(chuàng)企業(yè),該公司聚焦于3D內(nèi)容生成技術,提供3D內(nèi)容生成和3D內(nèi)容重建技術解決方案。
Luma AI的核心團隊,擁有海外頭部大廠和高校的履歷。創(chuàng)始人兼CEO Amit Jain出身蘋果 AR/VR 部門,在3D計算機視覺、深度技術產(chǎn)品等方面有豐富經(jīng)驗。
圖片
創(chuàng)始人兼CTO Alex Yu畢業(yè)于UC Berkeley,曾與人工智能研究實驗室教授Angjoo Kanazawa共同進行NeRF(Neural Radiance Fields,神經(jīng)輻射場)相關的3D計算機視覺研究。
圖片
首席科學家Jiaming Song,曾就讀于清華大學計算機科學與技術系,獲得了斯坦福大學博士學位,在 Stefano Ermon 教授的指導下學習機器學習和生成模型。在加入 Luma 之前,他曾參與 NVIDIA AI Foundations 的圖像/視頻/3D 生成模型的開發(fā)。
Jiaming目前正在研究生成 3D 內(nèi)容的基礎模型。他參與了 DDIM(第一個快速擴散模型采樣器)和 SDEdit(擴散模型中第一個圖像到圖像的轉(zhuǎn)換方法)的開發(fā)。
圖片
首席科學顧問金澤安珠(Angjoo Kanazawa)是加州大學伯克利分校 EECS 系的助理教授。她的研究領域是計算機視覺、計算機圖形學和機器學習的交叉領域,專注于日常照片和視頻背后的動態(tài) 3D 世界的視覺感知。她對重建世界上的一切感到興奮!她是斯隆研究員 (2023),熱衷于創(chuàng)造有用的事物。她在馬里蘭大學帕克分校獲得博士學位。
圖片
這里,給大家一個傳送門:
https://lumalabs.ai/dream-machine/
趕緊開啟自己的大片之旅吧!
對了,據(jù)隔壁桌愛玩文生視頻的同事反映,她最愛的還是國產(chǎn)快手的“可靈”,吸引她的有三點:國產(chǎn)自研的,中國人更懂中國人;第二點是,大幅度的合理運動也可以生成;第三點就是時長可以高達2分鐘,而且支持自由的寬高比。當然,據(jù)悉,可靈也采用了類Sora的技術架構。【對話OpenAI,Sora你還不對外開放?】
話說回來,大家更喜歡哪款?