國產地表最強視頻模型震驚歪果仁,官方現(xiàn)場搖人30s直出!視覺模型進入上下文時代
來自中國的視頻生成模型,再一次震驚了全球大模型圈。
生數(shù)科技推出的Vidu 1.5,成為世界首個支持多主體一致性的多模態(tài)模型!
上傳小哥、機甲、街景,接下來,就是見證奇跡的時刻。
人、物、環(huán)境,被天衣無縫地融合到了同一個視頻中,簡直令人驚嘆。
這種方法,顛覆了LoRA等傳統(tǒng)的單點微調方法,標志著視頻模型統(tǒng)一理解和生成的飛躍!
多模態(tài)人工智能,從此有了新標準。
與諸多漫長期貨的視頻模型不同,Vidu只要不到30s,就能生成一段視頻了!
外國友人直接原地驚掉下巴:機甲跟原圖一模一樣,這絕對是最穩(wěn)定的視頻模型;有人更是言簡意賅地給出評價:生數(shù)科技是名副其實的游戲規(guī)則改變者。
只要上傳多個角色、物體和地點的圖片,就能立即生成每個物體一致的場景,人手制作一部大片的時代真的來了嗎?
踴躍的網(wǎng)友們,在評論區(qū)紛紛貼出了自己的腦洞素材。
而霸氣的官號直接在評論區(qū)隨機搖人,抽中的網(wǎng)友提供的素材,果然誕生了一段段想象力爆棚的視頻片段。
Vidu 1.5的推出,也揭示這樣一個重要現(xiàn)象——
和語言模型一樣,視覺模型經(jīng)過充分訓練后,能展現(xiàn)出對上下文的深刻理解、記憶等能力,這正是視覺模型智能涌現(xiàn)的顯著特征!
這標志著,視覺模型進入了全新的「上下文」時代,AGI離我們更近了。
地表最強?率先攻克「多主體一致性」難題
一致性控制,是當前視頻生成領域中,亟待解決的難題。
我們往往會遇到,AI視頻生成的主體(人物/物體)的外觀、特征、風格難以保持一致。
由Luma AI生成
更不要提對多個主體完成同時控制了。
不同主體間的特征,會讓現(xiàn)有模型容易產生混淆。而且主體間互動也難以保持自然連貫。
如今,這一「世紀難題」被國產模型Vidu攻克了!
它全新上線的「多主體一致性」功能,通過上傳1-3張參考圖,就能實現(xiàn)對單主體100%精確控制。
同時,還可以實現(xiàn)多主體交互、主體與場景融合控制,讓人物、道具、場景無縫集成。
具體來說,Vidu 1.5版本在以下方面,實現(xiàn)了技術突破。
單主體100%精準控制
就單主體而言,只需上傳特定主體不同角度、場景下的圖片,Vidu就能100%精準控制每個細節(jié)。
復雜單主體
通常的視頻模型,在生成側面、背面等刁鉆視角畫面時,往往靠模型自行腦補,往往會出現(xiàn)一些不符合用戶預期的畫面。
但是Vidu完全避免了這一問題!
不論是細節(jié)豐富的角色,還是復雜的物體,它都能保證在不同視角下單主體的一致性。
話不多說,直接上圖。
如下的復古美女中,妝造極其復雜,Vidu能夠勝任嗎?
不論在任何場景中、視角下,尤其是特寫鏡頭中,她的形象都能保持高度的一致。
即便是3D卡通人物,不論小男孩視角如何變化,他的發(fā)型、服飾等全角度保持高度一致。
提示為「小男孩在玩具城里行走,慢慢轉身到背面,鏡頭輕微向右移動」。
傳統(tǒng)視頻模型在復雜視角切換時產生的瑕疵,統(tǒng)統(tǒng)不見了。
再來一個刁鉆的要求,上傳兩張科比正面圖,以及一張背面圖,提示是「科比背對著鏡頭,慢慢轉過身沖著鏡頭笑」。
這確實有點考驗AI了。它腦補的畫面能行嗎?
一張?zhí)貙?,讓科比重新回到「?zhàn)場」,眨眼、微笑、自然擺臂動作,Vidu全部精準拿捏。
中國建筑構造的復雜程度,就不用多說了。那讓Vidu生成雪景里的萬象神宮,還能保留多少細節(jié)?
不論是從遠景拉近,還是環(huán)繞四周,萬象神宮的外觀絲毫不變。
通過融合真實建筑和其他元素,Vidu能模擬出極其真實的場景。
人物面部特征和動態(tài)表情自然一致
Vidu做整體形象一致的同時,還應該實現(xiàn)面部特征和表情的自然連貫性。
不少AI視頻之所以折戟,就是因為面部僵硬或失真太明顯,從而導致AI味太濃。
而Vidu在創(chuàng)作細膩、真實角色時具有顯著的優(yōu)勢。
我們上傳了三張劉德華的紅毯照,然后輸入提示詞「一個男人在頒獎典禮上走紅毯」。
只見,「不老男神」劉德華在紅毯上朝我們揮手,顯得非常自然。
再來看,下面三張不同角度的古風女孩照,Vidu的表現(xiàn)如何?
這張揮手打招呼,真實的微表情,難以讓人相信這竟是AI生成的。
從微笑到難過,表情的過渡非常自然。
還有這張從側面轉身背影,Vidu絲毫沒有面部僵硬或失真的現(xiàn)象。
同樣,下面三張不同視角下的歐美風女孩,陶醉在金燦燦的稻田里。
由此不難看出,在人物特寫畫面中,Vidu能夠確保面部細節(jié)特征、表情自然流暢變化,呈現(xiàn)了人物真實本色。
多主體一致性,三張圖穩(wěn)定輸出
接下來,才是Vidu真正放大招的時候了。
現(xiàn)在,任何人可以在「多圖參考」功能中選擇上傳多個主體。
它既可以是人物角色,也可以是人物+道具物體、環(huán)境背景等等,即便是「多主體」Vidu 1.5也能做到一致性控制。
主體+場景:任意地點想做什么就做什么
上傳主體和場景圖,就可以實現(xiàn)主體和場景的無縫融合。
比如萊昂納多的一張照片,就可以讓他身處不同的地方,做不同的事。
比如,躺在沙灘的躺椅上。
再比如,在比薩斜塔前拍照。
亦或是,出演經(jīng)典的電影橋段。
當然這里的主體不僅僅是人,還可以是物體。上傳宮殿和手機,魔幻穿越大片這不就來了么。甚至,還把全是馬賽克的背景,升級成了電影質感。
人物+道具+場景:以任何形象出現(xiàn)在任何場景
再來個更復雜的——穿著花棉襖的馬斯克騎著電動車從游樂場經(jīng)過。
在這個任務中,有三個主體(角色+道具),Vidu依然處理得天衣無縫。
或者,讓小李子穿著粉色的裙子在沙發(fā)上蹺二郎腿。
再比如,異星男孩、生日蛋糕,外加靈境般的背景,三張圖片各不相同,但Vidu依舊可以讓其完美地融為一體。
相比之下,國外爆火的Runway卻無法理解場景圖片,僅將最后兩張圖片合二為一。
Luma AI就更差些了,將圖片羅列出來,像播放幻燈片一樣。
總結來說,一致性能夠更好融入場景。
雙角色主體:次元壁破了!
有了這個超能力,我們就能讓雷總和馬斯克在一個辦公室談合作了。
你喜歡的IP,也可以聯(lián)動了。
比如,百變小櫻和雷姆一起對著鏡頭微笑。
有趣的是,Vidu還能融合不同主體特征,將角色A的正面和角色B的反面無縫融合,創(chuàng)造出全新的角色或物體——
球王梅西轉過頭來,竟然是馬斯克。
當然,在創(chuàng)作之余,如今我們還可以借助Vidu的這些新能力惡搞表情包。
比如,從背影看是一位妙齡的少女,沒想到轉頭竟然……還是小李子!
百日進化,Vidu技術解析
如此驚艷的能力背后,其實Vidu也不過剛剛上線逾百日。
早在上線之初,Vidu便具備了「角色一致性」的生成能力,可以通過鎖定人物面部特征解決了視頻生成中的關鍵痛點,確保人物面部特征的一致性。
9月,Vidu又于全球率先發(fā)布了「主體一致性」功能,將面部一致拓展至全身一致,并且將范圍由人物形象擴展到動物、物體、虛擬角色等任意主體。
原圖
角色一致性:僅面部保持一致
主體一致性:全身形象保持一致
要知道,除了Vidu,目前其他視頻生成模型都無法有效控制面部一致性。
如果一定要實現(xiàn),還得采用LoRA方案,通過大量相似數(shù)據(jù)的輸入,來進行成本昂貴的單點微調。
但Vidu已經(jīng)實現(xiàn)了對單主體的精準控制,甚至多主體的一致性生成。
此前生數(shù)一直堅信,隨著基礎模型的投入和迭代,整體泛化能力將得到大幅增強,可以展現(xiàn)出上下文學習能力,無需再依賴復雜的單點微調。
Vidu 新版本的發(fā)布,正式證明了這點!從1.0到1.5版本,生數(shù)科技已實現(xiàn)世界領先水平的突破。
這次躍階背后,究竟有哪些技術革新?
無微調大一統(tǒng)架構
以前的視頻模型如果想實現(xiàn)一致性生成能力,都不得不對每個場景設計相應的模型進行微調。
它們并不能像語言模型一樣,通過上下文學習,基于少量的示例或提示,快速適應新任務。
生數(shù)科技卻探索出了一條完全與眾不同的路。
秉承通用性的理念,Vidu有和LLM一致的設計哲學:
- 統(tǒng)一問題形式:LLM將所有問題統(tǒng)一為(文本輸入,文本輸出),Vidu則將所有問題統(tǒng)一為(視覺輸入,視覺輸出);
- 統(tǒng)一架構:LLM和Vidu均用單個網(wǎng)絡統(tǒng)一建模變長的輸入和輸出;
- 壓縮即智能:LLM從文本數(shù)據(jù)的壓縮中獲取智能,Vidu從視頻數(shù)據(jù)的壓縮中獲取智能。
設計哲學一致外,在架構復雜性、數(shù)據(jù)多樣性、生成效率等方面,多模態(tài)大模型門檻更高,在此挑戰(zhàn)下,Vidu在世界范圍內率先推動多模態(tài)大模型產生智能涌現(xiàn),如OpenAI引領LLM的進步和創(chuàng)新。
LLM和Vidu技術架構方案對比
三張圖,終結LoRA煉丹
更值得關注的是,三張圖高一致性的突破,是Vidu背后基礎模型能力的全面提升。
無需專門數(shù)據(jù)采集、標注、微調訓練環(huán)節(jié),一鍵直出高一致性視頻。
要知道,LoRA(Low-Rank Adaptation)微調方案一直以來是業(yè)界解決一致性問題最主流的方案。
它需要在預訓練模型基礎上,用特定主體多段視頻進行微調,讓模型理解主體特征,進而生成其在不同角度、光線、場景下的形象。
同時,還要保證在若干次不同生成時的一致性。
簡單理解,比如我創(chuàng)作了一只卡通狗的形象,想生成連續(xù)一致的視頻畫面,但模型在預訓練過程中并沒有學習過該形象,所以需要拿卡通狗的多段視頻,讓模型進一步訓練,讓模型認識這只卡通狗長什么樣,從而能夠生成。
但問題是,LoRA前提是需要20~100段視頻才能實現(xiàn)。
由于數(shù)據(jù)構造繁瑣,且需要數(shù)個小時,甚至更久的訓練時間,而且成本還是單次視頻生成的成百上千倍。
另外,LoRA微調模型另一弊端是容易產生過擬合,即在理解主體特征的同時,也會遺忘大量原先的知識。
這導致在動態(tài)表情、肢體動作生成控制方面,LoRA難以精準把握,容易呈現(xiàn)出僵硬、不自然的效果。
特別是,在處理復雜或幅度較大的動作變化時,微調模型在細節(jié)捕捉上的局限性更為明顯,最終導致主體特征不夠精準。
因此,LoRA方案只能滿足簡單場景下主體一致性需求。
但對于高復雜主體、場景時,往往需要更大規(guī)模微調數(shù)據(jù),以及更復雜的微調策略。
而Vidu憑借強大通用模型能力,僅用三張圖,實現(xiàn)高可控穩(wěn)定輸出。
這一過程,直接直接省去「煉丹」環(huán)節(jié),堪稱「LoRA終結器」!
視覺模型,正式進入「上下文時代」
怎樣才能實現(xiàn)多主體一致性的生成任務?
首先模型要做到的,就是能同時理解「多圖的靈活輸入」。并且,不僅在數(shù)量上是多圖輸入,圖片還要不限于特定特征。
這就和語言模型的「上下文學習」能力顯著相似。
為什么語言模型能理解上下文?關鍵就在于,它不僅會處理單一的文本輸入信息,還能通過關聯(lián)前后的文本、識別語句間的關系,讓生成的回答連貫、符合情境。
同樣,在視頻生成或多圖生成任務中,模型也需要能理解多個輸入圖像的準確含義,及它們之間的關聯(lián)性,然后還要根據(jù)這些信息,生成一致、連貫且有邏輯的輸出。
通過不斷擴展上下文長度,Vidu從1.0迭代到1.5后,就已經(jīng)出現(xiàn)了明顯的智能涌現(xiàn)效應,通過視覺上下文,就能直接生成大量新任務下的視頻了!
視覺智能涌現(xiàn),加速AGI到來
語言模型的發(fā)展,已然呈現(xiàn)了一條通往AGI的可行路徑。
然而,依賴單一的文本輸入仍無法實現(xiàn)全面逼近人類的高度智能。
要實現(xiàn)更加通用和全面的智能,必須對更多模態(tài)進行良好的理解和生成建模,尤其是視覺模態(tài),它為AI提供更加直觀、豐富的世界理解方式,是通往AGI的關鍵一環(huán)。
的確,和語言模型在深層次智能上的突破相比,視覺模型目前尚存在較大差距。
但Vidu 1.5版本展現(xiàn)出智能涌現(xiàn),意味著視覺模型不僅能理解、能想象,還能在生成過程中進行記憶管理。
曾經(jīng)大語言模型獨有的優(yōu)勢,竟在視覺模型中體現(xiàn)出來了。
至此,Vidu已不再僅僅是高質量、高效的視頻生成器,在生成過程中融入上下文和記憶,無疑意味著視覺模態(tài)智能的大跨越。
具備更強認知的視覺模型,將成為AGI的一塊重要拼圖。