好家伙,海螺直接拍了個AI版的《教父》
家人們,是這樣的,前幾天上網沖浪,刷到了這樣一條視頻。
雖然能看出來是AI生成的,但本來就很喜歡《教父》這種暗黑風的我,還是被這短短90秒硬控住了……
話不多說,大家先一起欣賞一下:
這昏暗的環(huán)境、嚴肅的人物表情、還有緊張的劇情,太對味兒了。
這條短片里,一共有四個主人公,還涉及很多復雜的場景和光效,畫面竟然一直都沒崩。
深扒了背后的AI創(chuàng)作流程之后,結果讓我大受震撼啊!
本來以為這片子的工作流可能就和日常的AI生成一樣,無限地修改提示詞+抽卡,抽出一個能用的首幀圖片,再圖生視頻。
反復上面的流程,湊出所有視頻段落,拼起來,這樣才能勉強保持跨片段保持人物一致性。
比如主角老頭在14秒、1分10秒都出現(xiàn)了,如果你想讓人物的臉不崩,就得無限抽卡+圖生視頻循環(huán),或者是訓個LoRA模型,把人物框定好:
但這個短片的制作流程,只用了這四張人物照片,再配上一些文本Prompt,就可以導演出來了。
也就是說,相當于直接給你提供了4位現(xiàn)成的演員,你只用做導演指揮他們就好了??
這比之前靠玄學出片的AI短片制作來說,真的是降維打擊了啊。
不賣關子,其實這是MiniMax家的海螺AI最近推出的新功能——主體參考,你只需要上傳需要的人物圖片,它就可以自動識別出人物,讓他們聽你的話,幫你演戲!
有了這個功能,短劇制作的成本將會大幅降低,整個制作流程都可能會被AI視頻模型顛覆。
怎么做到的?
下面我們來詳細了解一下“主體參考”功能的原理。
它最大的創(chuàng)新之處,就在于把“文生視頻”和“圖生視頻”的優(yōu)點給結合起來了。
文生視頻的優(yōu)點,是通用性、泛化性和組合性都不錯,可光靠文字來控制,細節(jié)上很容易出現(xiàn)偏差。
圖生視頻雖然能讓生成的視頻緊緊遵循首幀圖片,非常精準,但問題是自由度不高,而且首幀圖片的精準信息和文字描述之間也可能存在矛盾。
針對這些問題,MiniMax公司深入分析了自家的三模態(tài)自研基座模型,他們認為,這三個模態(tài)的智能不是絕對獨立的,其實是能互相促進、共同進步的。
語言本質上是智能的通用工具,大語言模型對視覺和語言概念的跨模態(tài)底層理解能力也是很強的。
在這個想法的基礎上,海螺AI自研了基于單張圖片的主體參考功能,非常接近人類處理視覺和文字信息的方式。
比如面對一張圖片,模型會先把圖片里的“主體”這個視覺信息提取出來,然后用戶就能用文字自由地去操控,還能把主體的視覺細節(jié)還原得特別準。
這樣一來,一個主體既能精準地保持原來的樣子不變,又能按照用戶的想法自由地做出各種行為、表現(xiàn)出各種狀態(tài)。
經過測試,哪怕只用一張人物圖片,也能實現(xiàn)精準復原。
比如只上傳一張經典meme人物,就能生成多場景視頻:
你可以讓金館長在酒吧里跳舞、或者吃點意大利面:
生成視頻的質量,和給到圖片的清晰度直接相關,測試下來,即使梗圖不算清晰,海螺AI也能保持人物還原,動作自然。
再來和另一條技術路線訓練LoRA人像模型對比一下。
MiniMax也研究過LoRA方案,但他們發(fā)現(xiàn),相比于精調的LoRA,主體參考使用的圖片參考方案生成效果上限能夠更高。
此外,主體參考的方案,相較LoRA 方案,也大幅降低了用戶輸入與計算成本。
比如同樣的視頻,海螺AI需要1張圖片輸入+正常一次生成的成本,而使用LoRA方案的模型則需數十個不同維度的視頻、超100倍單次生成計算量,外加數十分鐘等待時間。
目前海螺AI最先開放的主體參考能力主要針對單個人物,后續(xù)還會拓展到多人、物體、場景等更多樣化的參考。
外星人和動漫風格的也可以生成:
如果你也想嘗試一下主體參考的新功能,操作方法也非常簡單。
你只需要在海螺AI創(chuàng)意視頻平臺中選擇“主體參考”創(chuàng)作區(qū)后,上傳一張圖片即可創(chuàng)建參考角色。
然后在下面的文本框內輸入Prompt,就可以生成富有創(chuàng)意的高質量視頻。
而且在使用過程中,我們還注意到它在以下方面生成效果也非常出色。
人物面部細節(jié)一致
在用人物特寫生成視頻時,可以看到人物的面部細節(jié)在多個視頻中都能得到很好的保留。
不僅是輪廓和五官,甚至包括眉毛、眼影、發(fā)型都有很強的一致性。
尤其是角色臉上這三顆痣,在3個視頻結果中都保持的固定的位置,且清晰可見,目前只有海螺AI一家模型可以做到這樣的細節(jié)一致性。
復雜姿勢與表情
在動作,環(huán)境上,也能夠實現(xiàn)自由組合,甚至用表情傳遞情緒,也可以實現(xiàn)。你可以操控人物生成更多復雜的姿勢,比如低頭、側臉等等。
先來讓圖片中的女士挑戰(zhàn)一下低頭的動作:
Prompt:在這略顯空曠的房間之中,一位長發(fā)女人靜靜地佇立著。光線透過窗戶,灑在她的身上,勾勒出一道落寞的身影。只見她身形略顯僵硬,雙肩微微下沉,仿佛承受著無形的重壓。她的頭顱緩緩低下,動作緩慢而沉重,如同被歲月的滄桑拖拽著。頸部的肌肉緊繃,青筋隱約浮現(xiàn),似乎在極力克制著某種情緒。下巴逐漸貼近胸膛,幾縷發(fā)絲從額前滑落,遮住了她大半的面容,讓人難以看清她此刻的神情。
在側臉這個比較小眾的主題上,海螺AI也做到了讓鏡頭的轉換和頭發(fā)的運動非常絲滑:
Prompt:自然風光背景,畫面中一位女性線條利落卻又不失柔和的側臉,宛如一幅精美的古典畫卷在眼前徐徐展開。她的額頭寬闊而平整,長發(fā)被風吹動。高挺的鼻梁猶如一座峻峭的山峰,從額頭筆直地延伸而下,線條優(yōu)美。她轉過頭,對著鏡頭,優(yōu)雅地笑了一下。
AI出片,還是要技術解決應用瓶頸
Sora的橫空出世點亮了視頻生成的賽道。而縱觀技術和應用發(fā)展現(xiàn)狀,目前主要瓶頸在于,技術真正進入生產環(huán)境,實現(xiàn)行業(yè)應用。而要讓視頻真正承擔起敘事任務,就必須把人物一致性的門檻打下來
可以說,有了“主體參考”功能后 ,突破了跨視頻片段的主體一致性的創(chuàng)作痛點,讓用戶在進行更完整內容表達的視頻創(chuàng)作時,可將更多精力放在內容表達上。
對于AI 短劇、AI 廣告等以人物為主體的行業(yè),這個功能可以大大提升創(chuàng)作效率,降低創(chuàng)作成本,帶來更大的想象空間,推動行業(yè)進入 “人人都是會掌鏡、懂拍攝的好導演” 的新時代。
MiniMax雖然是一家成立剛剛3年的國內初創(chuàng)公司(成立于2021年12月),但在AI領域已取得顯著成就。
海螺AI在海外超 180 個國家和地區(qū)也收獲了熱度與認可,成為海外AI愛好者口中的熱詞,也被視為代表中國先進 AI 技術的代名詞。
視頻模型海螺AI,自推出起就表現(xiàn)非常出色,在VBench、Video Arena等多個國際權威評測榜單的第三方獨立測試中綜合排名第一,在畫面質量、連貫性、流暢性等多維度處于領先地位。
AI產品榜12月榜單
在國內視頻模型領域,多是頭部互聯(lián)網大廠 “大力出奇跡” 的成果。目前放眼望去,快手的可靈、未來值得期待的字節(jié)即夢AI是大廠中不容忽視的力量。
MiniMax則憑借團隊科研實力、前瞻的技術路線選擇和多模態(tài)并舉的策略,成為創(chuàng)業(yè)公司中唯一能和大廠掰手腕的一家。
未來,視頻模型行業(yè)的競爭會更加多樣化,包括個性化創(chuàng)作的制定、生產流程的專業(yè)度、應用的行業(yè)、各家公司的技術積累和創(chuàng)新等等。
也將更加注重與其他技術的協(xié)同發(fā)展,如與智能體、虛擬現(xiàn)實、增強現(xiàn)實技術結合,為用戶帶來更沉浸式的感受。
期待有更多像MiniMax一樣注重技術創(chuàng)新、勇于探索的公司,能為我們帶來更加智能和優(yōu)質的模型體驗。
點擊官網鏈接即可體驗“主體參考”新功能哦:
國內用戶創(chuàng)作入口:hailuoai.com/video/create。
海外用戶創(chuàng)作入口:hailuoai.video/create。