自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

國產地表最強視頻模型震驚歪果仁，官方現(xiàn)場搖人30s直出！視覺模型進入上下文時代

作者：新智元 2024-11-14 13:05:12

人工智能新聞

全球首個支持多主體一致性的多模態(tài)模型，剛剛誕生！Vidu 1.5一上線，全網(wǎng)網(wǎng)友都震驚了：LLM獨有的上下文學習優(yōu)勢，視覺模型居然也有了。

來自中國的視頻生成模型，再一次震驚了全球大模型圈。

生數(shù)科技推出的Vidu 1.5，成為世界首個支持多主體一致性的多模態(tài)模型！

上傳小哥、機甲、街景，接下來，就是見證奇跡的時刻。

人、物、環(huán)境，被天衣無縫地融合到了同一個視頻中，簡直令人驚嘆。

這種方法，顛覆了LoRA等傳統(tǒng)的單點微調方法，標志著視頻模型統(tǒng)一理解和生成的飛躍！

多模態(tài)人工智能，從此有了新標準。

與諸多漫長期貨的視頻模型不同，Vidu只要不到30s，就能生成一段視頻了！

外國友人直接原地驚掉下巴：機甲跟原圖一模一樣，這絕對是最穩(wěn)定的視頻模型；有人更是言簡意賅地給出評價：生數(shù)科技是名副其實的游戲規(guī)則改變者。

只要上傳多個角色、物體和地點的圖片，就能立即生成每個物體一致的場景，人手制作一部大片的時代真的來了嗎？

踴躍的網(wǎng)友們，在評論區(qū)紛紛貼出了自己的腦洞素材。

而霸氣的官號直接在評論區(qū)隨機搖人，抽中的網(wǎng)友提供的素材，果然誕生了一段段想象力爆棚的視頻片段。

Vidu 1.5的推出，也揭示這樣一個重要現(xiàn)象——

和語言模型一樣，視覺模型經(jīng)過充分訓練后，能展現(xiàn)出對上下文的深刻理解、記憶等能力，這正是視覺模型智能涌現(xiàn)的顯著特征！

這標志著，視覺模型進入了全新的「上下文」時代，AGI離我們更近了。

地表最強？率先攻克「多主體一致性」難題

一致性控制，是當前視頻生成領域中，亟待解決的難題。

我們往往會遇到，AI視頻生成的主體（人物/物體）的外觀、特征、風格難以保持一致。

由Luma AI生成

更不要提對多個主體完成同時控制了。

不同主體間的特征，會讓現(xiàn)有模型容易產生混淆。而且主體間互動也難以保持自然連貫。

如今，這一「世紀難題」被國產模型Vidu攻克了！

它全新上線的「多主體一致性」功能，通過上傳1-3張參考圖，就能實現(xiàn)對單主體100%精確控制。

同時，還可以實現(xiàn)多主體交互、主體與場景融合控制，讓人物、道具、場景無縫集成。

具體來說，Vidu 1.5版本在以下方面，實現(xiàn)了技術突破。

單主體100%精準控制

就單主體而言，只需上傳特定主體不同角度、場景下的圖片，Vidu就能100%精準控制每個細節(jié)。

復雜單主體

通常的視頻模型，在生成側面、背面等刁鉆視角畫面時，往往靠模型自行腦補，往往會出現(xiàn)一些不符合用戶預期的畫面。

但是Vidu完全避免了這一問題！

不論是細節(jié)豐富的角色，還是復雜的物體，它都能保證在不同視角下單主體的一致性。

話不多說，直接上圖。

如下的復古美女中，妝造極其復雜，Vidu能夠勝任嗎？

不論在任何場景中、視角下，尤其是特寫鏡頭中，她的形象都能保持高度的一致。

即便是3D卡通人物，不論小男孩視角如何變化，他的發(fā)型、服飾等全角度保持高度一致。

提示為「小男孩在玩具城里行走，慢慢轉身到背面，鏡頭輕微向右移動」。

傳統(tǒng)視頻模型在復雜視角切換時產生的瑕疵，統(tǒng)統(tǒng)不見了。

再來一個刁鉆的要求，上傳兩張科比正面圖，以及一張背面圖，提示是「科比背對著鏡頭，慢慢轉過身沖著鏡頭笑」。

這確實有點考驗AI了。它腦補的畫面能行嗎？

一張?zhí)貙?，讓科比重新回到「?zhàn)場」，眨眼、微笑、自然擺臂動作，Vidu全部精準拿捏。

中國建筑構造的復雜程度，就不用多說了。那讓Vidu生成雪景里的萬象神宮，還能保留多少細節(jié)？

不論是從遠景拉近，還是環(huán)繞四周，萬象神宮的外觀絲毫不變。

通過融合真實建筑和其他元素，Vidu能模擬出極其真實的場景。

人物面部特征和動態(tài)表情自然一致

Vidu做整體形象一致的同時，還應該實現(xiàn)面部特征和表情的自然連貫性。

不少AI視頻之所以折戟，就是因為面部僵硬或失真太明顯，從而導致AI味太濃。

而Vidu在創(chuàng)作細膩、真實角色時具有顯著的優(yōu)勢。

我們上傳了三張劉德華的紅毯照，然后輸入提示詞「一個男人在頒獎典禮上走紅毯」。

只見，「不老男神」劉德華在紅毯上朝我們揮手，顯得非常自然。

再來看，下面三張不同角度的古風女孩照，Vidu的表現(xiàn)如何？

這張揮手打招呼，真實的微表情，難以讓人相信這竟是AI生成的。

從微笑到難過，表情的過渡非常自然。

還有這張從側面轉身背影，Vidu絲毫沒有面部僵硬或失真的現(xiàn)象。

同樣，下面三張不同視角下的歐美風女孩，陶醉在金燦燦的稻田里。

由此不難看出，在人物特寫畫面中，Vidu能夠確保面部細節(jié)特征、表情自然流暢變化，呈現(xiàn)了人物真實本色。

多主體一致性，三張圖穩(wěn)定輸出

接下來，才是Vidu真正放大招的時候了。

現(xiàn)在，任何人可以在「多圖參考」功能中選擇上傳多個主體。

它既可以是人物角色，也可以是人物+道具物體、環(huán)境背景等等，即便是「多主體」Vidu 1.5也能做到一致性控制。

主體+場景：任意地點想做什么就做什么

上傳主體和場景圖，就可以實現(xiàn)主體和場景的無縫融合。

比如萊昂納多的一張照片，就可以讓他身處不同的地方，做不同的事。

比如，躺在沙灘的躺椅上。

再比如，在比薩斜塔前拍照。

亦或是，出演經(jīng)典的電影橋段。

當然這里的主體不僅僅是人，還可以是物體。上傳宮殿和手機，魔幻穿越大片這不就來了么。甚至，還把全是馬賽克的背景，升級成了電影質感。

人物+道具+場景：以任何形象出現(xiàn)在任何場景

再來個更復雜的——穿著花棉襖的馬斯克騎著電動車從游樂場經(jīng)過。

在這個任務中，有三個主體（角色+道具），Vidu依然處理得天衣無縫。

或者，讓小李子穿著粉色的裙子在沙發(fā)上蹺二郎腿。

再比如，異星男孩、生日蛋糕，外加靈境般的背景，三張圖片各不相同，但Vidu依舊可以讓其完美地融為一體。

相比之下，國外爆火的Runway卻無法理解場景圖片，僅將最后兩張圖片合二為一。

Luma AI就更差些了，將圖片羅列出來，像播放幻燈片一樣。

總結來說，一致性能夠更好融入場景。

雙角色主體：次元壁破了！

有了這個超能力，我們就能讓雷總和馬斯克在一個辦公室談合作了。

你喜歡的IP，也可以聯(lián)動了。

比如，百變小櫻和雷姆一起對著鏡頭微笑。

有趣的是，Vidu還能融合不同主體特征，將角色A的正面和角色B的反面無縫融合，創(chuàng)造出全新的角色或物體——

球王梅西轉過頭來，竟然是馬斯克。

當然，在創(chuàng)作之余，如今我們還可以借助Vidu的這些新能力惡搞表情包。

比如，從背影看是一位妙齡的少女，沒想到轉頭竟然……還是小李子！

百日進化，Vidu技術解析

如此驚艷的能力背后，其實Vidu也不過剛剛上線逾百日。

早在上線之初，Vidu便具備了「角色一致性」的生成能力，可以通過鎖定人物面部特征解決了視頻生成中的關鍵痛點，確保人物面部特征的一致性。

9月，Vidu又于全球率先發(fā)布了「主體一致性」功能，將面部一致拓展至全身一致，并且將范圍由人物形象擴展到動物、物體、虛擬角色等任意主體。

原圖

角色一致性：僅面部保持一致

主體一致性：全身形象保持一致

要知道，除了Vidu，目前其他視頻生成模型都無法有效控制面部一致性。

如果一定要實現(xiàn)，還得采用LoRA方案，通過大量相似數(shù)據(jù)的輸入，來進行成本昂貴的單點微調。

但Vidu已經(jīng)實現(xiàn)了對單主體的精準控制，甚至多主體的一致性生成。

此前生數(shù)一直堅信，隨著基礎模型的投入和迭代，整體泛化能力將得到大幅增強，可以展現(xiàn)出上下文學習能力，無需再依賴復雜的單點微調。

Vidu 新版本的發(fā)布，正式證明了這點！從1.0到1.5版本，生數(shù)科技已實現(xiàn)世界領先水平的突破。

這次躍階背后，究竟有哪些技術革新？

無微調大一統(tǒng)架構

以前的視頻模型如果想實現(xiàn)一致性生成能力，都不得不對每個場景設計相應的模型進行微調。

它們并不能像語言模型一樣，通過上下文學習，基于少量的示例或提示，快速適應新任務。

生數(shù)科技卻探索出了一條完全與眾不同的路。

秉承通用性的理念，Vidu有和LLM一致的設計哲學：

統(tǒng)一問題形式：LLM將所有問題統(tǒng)一為（文本輸入，文本輸出），Vidu則將所有問題統(tǒng)一為（視覺輸入，視覺輸出）；
統(tǒng)一架構：LLM和Vidu均用單個網(wǎng)絡統(tǒng)一建模變長的輸入和輸出；
壓縮即智能：LLM從文本數(shù)據(jù)的壓縮中獲取智能，Vidu從視頻數(shù)據(jù)的壓縮中獲取智能。

設計哲學一致外，在架構復雜性、數(shù)據(jù)多樣性、生成效率等方面，多模態(tài)大模型門檻更高，在此挑戰(zhàn)下，Vidu在世界范圍內率先推動多模態(tài)大模型產生智能涌現(xiàn)，如OpenAI引領LLM的進步和創(chuàng)新。

LLM和Vidu技術架構方案對比

三張圖，終結LoRA煉丹

更值得關注的是，三張圖高一致性的突破，是Vidu背后基礎模型能力的全面提升。

無需專門數(shù)據(jù)采集、標注、微調訓練環(huán)節(jié)，一鍵直出高一致性視頻。

要知道，LoRA（Low-Rank Adaptation）微調方案一直以來是業(yè)界解決一致性問題最主流的方案。

它需要在預訓練模型基礎上，用特定主體多段視頻進行微調，讓模型理解主體特征，進而生成其在不同角度、光線、場景下的形象。

同時，還要保證在若干次不同生成時的一致性。

簡單理解，比如我創(chuàng)作了一只卡通狗的形象，想生成連續(xù)一致的視頻畫面，但模型在預訓練過程中并沒有學習過該形象，所以需要拿卡通狗的多段視頻，讓模型進一步訓練，讓模型認識這只卡通狗長什么樣，從而能夠生成。

但問題是，LoRA前提是需要20～100段視頻才能實現(xiàn)。

由于數(shù)據(jù)構造繁瑣，且需要數(shù)個小時，甚至更久的訓練時間，而且成本還是單次視頻生成的成百上千倍。

另外，LoRA微調模型另一弊端是容易產生過擬合，即在理解主體特征的同時，也會遺忘大量原先的知識。

這導致在動態(tài)表情、肢體動作生成控制方面，LoRA難以精準把握，容易呈現(xiàn)出僵硬、不自然的效果。

特別是，在處理復雜或幅度較大的動作變化時，微調模型在細節(jié)捕捉上的局限性更為明顯，最終導致主體特征不夠精準。

因此，LoRA方案只能滿足簡單場景下主體一致性需求。

但對于高復雜主體、場景時，往往需要更大規(guī)模微調數(shù)據(jù)，以及更復雜的微調策略。

而Vidu憑借強大通用模型能力，僅用三張圖，實現(xiàn)高可控穩(wěn)定輸出。

這一過程，直接直接省去「煉丹」環(huán)節(jié)，堪稱「LoRA終結器」！

視覺模型，正式進入「上下文時代」

怎樣才能實現(xiàn)多主體一致性的生成任務？

首先模型要做到的，就是能同時理解「多圖的靈活輸入」。并且，不僅在數(shù)量上是多圖輸入，圖片還要不限于特定特征。

這就和語言模型的「上下文學習」能力顯著相似。

為什么語言模型能理解上下文？關鍵就在于，它不僅會處理單一的文本輸入信息，還能通過關聯(lián)前后的文本、識別語句間的關系，讓生成的回答連貫、符合情境。

同樣，在視頻生成或多圖生成任務中，模型也需要能理解多個輸入圖像的準確含義，及它們之間的關聯(lián)性，然后還要根據(jù)這些信息，生成一致、連貫且有邏輯的輸出。

通過不斷擴展上下文長度，Vidu從1.0迭代到1.5后，就已經(jīng)出現(xiàn)了明顯的智能涌現(xiàn)效應，通過視覺上下文，就能直接生成大量新任務下的視頻了！

視覺智能涌現(xiàn)，加速AGI到來

語言模型的發(fā)展，已然呈現(xiàn)了一條通往AGI的可行路徑。

然而，依賴單一的文本輸入仍無法實現(xiàn)全面逼近人類的高度智能。

要實現(xiàn)更加通用和全面的智能，必須對更多模態(tài)進行良好的理解和生成建模，尤其是視覺模態(tài)，它為AI提供更加直觀、豐富的世界理解方式，是通往AGI的關鍵一環(huán)。

的確，和語言模型在深層次智能上的突破相比，視覺模型目前尚存在較大差距。

但Vidu 1.5版本展現(xiàn)出智能涌現(xiàn)，意味著視覺模型不僅能理解、能想象，還能在生成過程中進行記憶管理。

曾經(jīng)大語言模型獨有的優(yōu)勢，竟在視覺模型中體現(xiàn)出來了。

至此，Vidu已不再僅僅是高質量、高效的視頻生成器，在生成過程中融入上下文和記憶，無疑意味著視覺模態(tài)智能的大跨越。

具備更強認知的視覺模型，將成為AGI的一塊重要拼圖。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="om8tp"></style>