自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

國產地表最強視頻模型震驚歪果仁,官方現(xiàn)場搖人30s直出!視覺模型進入上下文時代

人工智能 新聞
全球首個支持多主體一致性的多模態(tài)模型,剛剛誕生!Vidu 1.5一上線,全網(wǎng)網(wǎng)友都震驚了:LLM獨有的上下文學習優(yōu)勢,視覺模型居然也有了。

來自中國的視頻生成模型,再一次震驚了全球大模型圈。

生數(shù)科技推出的Vidu 1.5,成為世界首個支持多主體一致性的多模態(tài)模型!

圖片

上傳小哥、機甲、街景,接下來,就是見證奇跡的時刻。

圖片

人、物、環(huán)境,被天衣無縫地融合到了同一個視頻中,簡直令人驚嘆。

圖片

這種方法,顛覆了LoRA等傳統(tǒng)的單點微調方法,標志著視頻模型統(tǒng)一理解和生成的飛躍!

多模態(tài)人工智能,從此有了新標準。

與諸多漫長期貨的視頻模型不同,Vidu只要不到30s,就能生成一段視頻了!

外國友人直接原地驚掉下巴:機甲跟原圖一模一樣,這絕對是最穩(wěn)定的視頻模型;有人更是言簡意賅地給出評價:生數(shù)科技是名副其實的游戲規(guī)則改變者。

只要上傳多個角色、物體和地點的圖片,就能立即生成每個物體一致的場景,人手制作一部大片的時代真的來了嗎?

圖片

圖片

圖片

踴躍的網(wǎng)友們,在評論區(qū)紛紛貼出了自己的腦洞素材。

圖片

圖片

圖片

而霸氣的官號直接在評論區(qū)隨機搖人,抽中的網(wǎng)友提供的素材,果然誕生了一段段想象力爆棚的視頻片段。

圖片

圖片

圖片

Vidu 1.5的推出,也揭示這樣一個重要現(xiàn)象——

和語言模型一樣,視覺模型經(jīng)過充分訓練后,能展現(xiàn)出對上下文的深刻理解、記憶等能力,這正是視覺模型智能涌現(xiàn)的顯著特征!

這標志著,視覺模型進入了全新的「上下文」時代,AGI離我們更近了。

地表最強?率先攻克「多主體一致性」難題

一致性控制,是當前視頻生成領域中,亟待解決的難題。

我們往往會遇到,AI視頻生成的主體(人物/物體)的外觀、特征、風格難以保持一致。

圖片

由Luma AI生成

更不要提對多個主體完成同時控制了。

不同主體間的特征,會讓現(xiàn)有模型容易產生混淆。而且主體間互動也難以保持自然連貫。

如今,這一「世紀難題」被國產模型Vidu攻克了!

它全新上線的「多主體一致性」功能,通過上傳1-3張參考圖,就能實現(xiàn)對單主體100%精確控制。

同時,還可以實現(xiàn)多主體交互、主體與場景融合控制,讓人物、道具、場景無縫集成。

圖片

具體來說,Vidu 1.5版本在以下方面,實現(xiàn)了技術突破。

單主體100%精準控制

就單主體而言,只需上傳特定主體不同角度、場景下的圖片,Vidu就能100%精準控制每個細節(jié)。

復雜單主體

通常的視頻模型,在生成側面、背面等刁鉆視角畫面時,往往靠模型自行腦補,往往會出現(xiàn)一些不符合用戶預期的畫面。

但是Vidu完全避免了這一問題!

不論是細節(jié)豐富的角色,還是復雜的物體,它都能保證在不同視角下單主體的一致性。

話不多說,直接上圖。

如下的復古美女中,妝造極其復雜,Vidu能夠勝任嗎?

圖片

不論在任何場景中、視角下,尤其是特寫鏡頭中,她的形象都能保持高度的一致。

圖片

圖片

即便是3D卡通人物,不論小男孩視角如何變化,他的發(fā)型、服飾等全角度保持高度一致。

圖片

提示為「小男孩在玩具城里行走,慢慢轉身到背面,鏡頭輕微向右移動」。

圖片

傳統(tǒng)視頻模型在復雜視角切換時產生的瑕疵,統(tǒng)統(tǒng)不見了。

再來一個刁鉆的要求,上傳兩張科比正面圖,以及一張背面圖,提示是「科比背對著鏡頭,慢慢轉過身沖著鏡頭笑」。

這確實有點考驗AI了。它腦補的畫面能行嗎?

圖片

一張?zhí)貙?,讓科比重新回到「?zhàn)場」,眨眼、微笑、自然擺臂動作,Vidu全部精準拿捏。

圖片

中國建筑構造的復雜程度,就不用多說了。那讓Vidu生成雪景里的萬象神宮,還能保留多少細節(jié)?

圖片

不論是從遠景拉近,還是環(huán)繞四周,萬象神宮的外觀絲毫不變。

圖片

通過融合真實建筑和其他元素,Vidu能模擬出極其真實的場景。

人物面部特征和動態(tài)表情自然一致

Vidu做整體形象一致的同時,還應該實現(xiàn)面部特征和表情的自然連貫性。

不少AI視頻之所以折戟,就是因為面部僵硬或失真太明顯,從而導致AI味太濃。

而Vidu在創(chuàng)作細膩、真實角色時具有顯著的優(yōu)勢。

我們上傳了三張劉德華的紅毯照,然后輸入提示詞「一個男人在頒獎典禮上走紅毯」。

圖片

只見,「不老男神」劉德華在紅毯上朝我們揮手,顯得非常自然。

圖片

再來看,下面三張不同角度的古風女孩照,Vidu的表現(xiàn)如何?

圖片

這張揮手打招呼,真實的微表情,難以讓人相信這竟是AI生成的。

圖片

從微笑到難過,表情的過渡非常自然。

圖片

還有這張從側面轉身背影,Vidu絲毫沒有面部僵硬或失真的現(xiàn)象。

圖片

同樣,下面三張不同視角下的歐美風女孩,陶醉在金燦燦的稻田里。

圖片

圖片

由此不難看出,在人物特寫畫面中,Vidu能夠確保面部細節(jié)特征、表情自然流暢變化,呈現(xiàn)了人物真實本色。

多主體一致性,三張圖穩(wěn)定輸出

接下來,才是Vidu真正放大招的時候了。

現(xiàn)在,任何人可以在「多圖參考」功能中選擇上傳多個主體。

它既可以是人物角色,也可以是人物+道具物體、環(huán)境背景等等,即便是「多主體」Vidu 1.5也能做到一致性控制。

主體+場景:任意地點想做什么就做什么

上傳主體和場景圖,就可以實現(xiàn)主體和場景的無縫融合。

比如萊昂納多的一張照片,就可以讓他身處不同的地方,做不同的事。

圖片

比如,躺在沙灘的躺椅上。

圖片

再比如,在比薩斜塔前拍照。

圖片

圖片

亦或是,出演經(jīng)典的電影橋段。

圖片

圖片

當然這里的主體不僅僅是人,還可以是物體。上傳宮殿和手機,魔幻穿越大片這不就來了么。甚至,還把全是馬賽克的背景,升級成了電影質感。

圖片

圖片

人物+道具+場景:以任何形象出現(xiàn)在任何場景

再來個更復雜的——穿著花棉襖的馬斯克騎著電動車從游樂場經(jīng)過。

在這個任務中,有三個主體(角色+道具),Vidu依然處理得天衣無縫。

圖片

圖片

或者,讓小李子穿著粉色的裙子在沙發(fā)上蹺二郎腿。

圖片

再比如,異星男孩、生日蛋糕,外加靈境般的背景,三張圖片各不相同,但Vidu依舊可以讓其完美地融為一體。

圖片

圖片

相比之下,國外爆火的Runway卻無法理解場景圖片,僅將最后兩張圖片合二為一。

圖片

Luma AI就更差些了,將圖片羅列出來,像播放幻燈片一樣。

圖片

總結來說,一致性能夠更好融入場景。

雙角色主體:次元壁破了!

有了這個超能力,我們就能讓雷總和馬斯克在一個辦公室談合作了。

圖片

圖片

你喜歡的IP,也可以聯(lián)動了。

圖片

比如,百變小櫻和雷姆一起對著鏡頭微笑。

圖片

有趣的是,Vidu還能融合不同主體特征,將角色A的正面和角色B的反面無縫融合,創(chuàng)造出全新的角色或物體——

球王梅西轉過頭來,竟然是馬斯克。

圖片

當然,在創(chuàng)作之余,如今我們還可以借助Vidu的這些新能力惡搞表情包。

圖片

比如,從背影看是一位妙齡的少女,沒想到轉頭竟然……還是小李子!

圖片

百日進化,Vidu技術解析

如此驚艷的能力背后,其實Vidu也不過剛剛上線逾百日。

早在上線之初,Vidu便具備了「角色一致性」的生成能力,可以通過鎖定人物面部特征解決了視頻生成中的關鍵痛點,確保人物面部特征的一致性。

圖片

9月,Vidu又于全球率先發(fā)布了「主體一致性」功能,將面部一致拓展至全身一致,并且將范圍由人物形象擴展到動物、物體、虛擬角色等任意主體。

圖片

原圖

圖片

角色一致性:僅面部保持一致

圖片

主體一致性:全身形象保持一致

要知道,除了Vidu,目前其他視頻生成模型都無法有效控制面部一致性。

如果一定要實現(xiàn),還得采用LoRA方案,通過大量相似數(shù)據(jù)的輸入,來進行成本昂貴的單點微調。

但Vidu已經(jīng)實現(xiàn)了對單主體的精準控制,甚至多主體的一致性生成。

此前生數(shù)一直堅信,隨著基礎模型的投入和迭代,整體泛化能力將得到大幅增強,可以展現(xiàn)出上下文學習能力,無需再依賴復雜的單點微調。

Vidu 新版本的發(fā)布,正式證明了這點!從1.0到1.5版本,生數(shù)科技已實現(xiàn)世界領先水平的突破。

這次躍階背后,究竟有哪些技術革新?

無微調大一統(tǒng)架構

以前的視頻模型如果想實現(xiàn)一致性生成能力,都不得不對每個場景設計相應的模型進行微調。

它們并不能像語言模型一樣,通過上下文學習,基于少量的示例或提示,快速適應新任務。

生數(shù)科技卻探索出了一條完全與眾不同的路。

秉承通用性的理念,Vidu有和LLM一致的設計哲學:

  • 統(tǒng)一問題形式:LLM將所有問題統(tǒng)一為(文本輸入,文本輸出),Vidu則將所有問題統(tǒng)一為(視覺輸入,視覺輸出);
  • 統(tǒng)一架構:LLM和Vidu均用單個網(wǎng)絡統(tǒng)一建模變長的輸入和輸出;
  • 壓縮即智能:LLM從文本數(shù)據(jù)的壓縮中獲取智能,Vidu從視頻數(shù)據(jù)的壓縮中獲取智能。

設計哲學一致外,在架構復雜性、數(shù)據(jù)多樣性、生成效率等方面,多模態(tài)大模型門檻更高,在此挑戰(zhàn)下,Vidu在世界范圍內率先推動多模態(tài)大模型產生智能涌現(xiàn),如OpenAI引領LLM的進步和創(chuàng)新。

圖片

LLM和Vidu技術架構方案對比

三張圖,終結LoRA煉丹

更值得關注的是,三張圖高一致性的突破,是Vidu背后基礎模型能力的全面提升。

無需專門數(shù)據(jù)采集、標注、微調訓練環(huán)節(jié),一鍵直出高一致性視頻。

要知道,LoRA(Low-Rank Adaptation)微調方案一直以來是業(yè)界解決一致性問題最主流的方案。

它需要在預訓練模型基礎上,用特定主體多段視頻進行微調,讓模型理解主體特征,進而生成其在不同角度、光線、場景下的形象。

同時,還要保證在若干次不同生成時的一致性。

簡單理解,比如我創(chuàng)作了一只卡通狗的形象,想生成連續(xù)一致的視頻畫面,但模型在預訓練過程中并沒有學習過該形象,所以需要拿卡通狗的多段視頻,讓模型進一步訓練,讓模型認識這只卡通狗長什么樣,從而能夠生成。

但問題是,LoRA前提是需要20~100段視頻才能實現(xiàn)。

由于數(shù)據(jù)構造繁瑣,且需要數(shù)個小時,甚至更久的訓練時間,而且成本還是單次視頻生成的成百上千倍。

另外,LoRA微調模型另一弊端是容易產生過擬合,即在理解主體特征的同時,也會遺忘大量原先的知識。

這導致在動態(tài)表情、肢體動作生成控制方面,LoRA難以精準把握,容易呈現(xiàn)出僵硬、不自然的效果。

特別是,在處理復雜或幅度較大的動作變化時,微調模型在細節(jié)捕捉上的局限性更為明顯,最終導致主體特征不夠精準。

因此,LoRA方案只能滿足簡單場景下主體一致性需求。

但對于高復雜主體、場景時,往往需要更大規(guī)模微調數(shù)據(jù),以及更復雜的微調策略。

而Vidu憑借強大通用模型能力,僅用三張圖,實現(xiàn)高可控穩(wěn)定輸出。

這一過程,直接直接省去「煉丹」環(huán)節(jié),堪稱「LoRA終結器」!

視覺模型,正式進入「上下文時代」

怎樣才能實現(xiàn)多主體一致性的生成任務?

首先模型要做到的,就是能同時理解「多圖的靈活輸入」。并且,不僅在數(shù)量上是多圖輸入,圖片還要不限于特定特征。

這就和語言模型的「上下文學習」能力顯著相似。

為什么語言模型能理解上下文?關鍵就在于,它不僅會處理單一的文本輸入信息,還能通過關聯(lián)前后的文本、識別語句間的關系,讓生成的回答連貫、符合情境。

同樣,在視頻生成或多圖生成任務中,模型也需要能理解多個輸入圖像的準確含義,及它們之間的關聯(lián)性,然后還要根據(jù)這些信息,生成一致、連貫且有邏輯的輸出。

圖片

通過不斷擴展上下文長度,Vidu從1.0迭代到1.5后,就已經(jīng)出現(xiàn)了明顯的智能涌現(xiàn)效應,通過視覺上下文,就能直接生成大量新任務下的視頻了!

視覺智能涌現(xiàn),加速AGI到來

語言模型的發(fā)展,已然呈現(xiàn)了一條通往AGI的可行路徑。

然而,依賴單一的文本輸入仍無法實現(xiàn)全面逼近人類的高度智能。

要實現(xiàn)更加通用和全面的智能,必須對更多模態(tài)進行良好的理解和生成建模,尤其是視覺模態(tài),它為AI提供更加直觀、豐富的世界理解方式,是通往AGI的關鍵一環(huán)。

的確,和語言模型在深層次智能上的突破相比,視覺模型目前尚存在較大差距。

但Vidu 1.5版本展現(xiàn)出智能涌現(xiàn),意味著視覺模型不僅能理解、能想象,還能在生成過程中進行記憶管理。

曾經(jīng)大語言模型獨有的優(yōu)勢,竟在視覺模型中體現(xiàn)出來了。

至此,Vidu已不再僅僅是高質量、高效的視頻生成器,在生成過程中融入上下文和記憶,無疑意味著視覺模態(tài)智能的大跨越。

具備更強認知的視覺模型,將成為AGI的一塊重要拼圖。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-03-18 08:14:05

2024-03-14 08:11:45

模型RoPELlama

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議

2023-11-22 16:51:53

2023-08-10 14:04:15

代碼模型

2025-01-08 11:10:46

2025-01-14 12:22:06

2023-07-09 15:09:18

機器學習能力

2023-07-24 12:27:08

論文斯坦福

2025-01-17 13:39:58

2017-05-11 14:00:02

Flask請求上下文應用上下文

2025-03-04 08:42:19

2025-03-18 10:34:33

2022-09-14 13:13:51

JavaScript上下文

2025-02-26 00:16:56

RAGAI服務

2025-03-26 03:00:00

MCPAI應用

2025-04-01 08:38:25

模型上下文協(xié)議MCPLLM

2012-12-31 10:01:34

SELinuxSELinux安全

2024-07-23 12:32:11

點贊
收藏

51CTO技術棧公眾號