出品 | 51CTO技術(shù)棧(微信號:blog51cto)
今天,可靈全系正式進入2.0時代了!
先來看看2.0動態(tài)質(zhì)量、語義響應、畫面美學等維度做了升級,直接看視頻是最直觀的:
要知道,可靈1.6表現(xiàn)已經(jīng)相當能打,做到了文生圖行業(yè)第一,文生視頻行業(yè)第二的水平。
圖片
根據(jù)發(fā)布會介紹,可靈AI全球用戶規(guī)模突破2200萬,過去的10個月里,其月活用戶量增長25倍,累計生成超過1.68億個視頻及3.44億張圖片。
圖片
而這次2.0的重磅發(fā)布,直接讓可靈系列成為當之無愧的世界冠軍——還是雙料的。
- 在文生圖模型方面,可圖大模型對上最新的midjourney V7絲毫不虛,擁有307%的勝負比。
- 而在文生視頻方面,可靈也是倍殺文生視頻“始祖”Sora,達到了驚人的367%的勝負比!
(注:勝負比為100%時說明兩個模型同樣厲害)
圖片
當然,對于可靈這樣已經(jīng)有龐大用戶基礎的產(chǎn)品來說,還是用戶體驗的聲量最大。這就不得不提到可靈2.0一個非常重大的突破——一個全新的AI交互理念,MVL,讓AI生視頻的可控性滿到爆表了。
MVL讓AI更好地進入人類的想象世界,多模態(tài)編輯震撼登場
據(jù)快手蓋坤介紹,在本次2.0模型迭代中,Multi-modal Visual Language(MVL),讓用戶能夠結(jié)合圖像參考、視頻片段等多模態(tài)信息,將腦海中的多維度復雜創(chuàng)意,直接高效地傳達給AI。
圖片
這樣說可能比較抽象,一個視頻就全get了。
Prompt以前要吭哧吭哧寫半天,而人類和AI的顆粒度還對不齊。有了MVL,不用再形容主角是什么樣的容貌、戴什么樣的帽子,直接是A戴著B這樣的帽子,出現(xiàn)在C這個場景中即可,AI就能輕松生成我們需要的內(nèi)容。
基于MLV的思想,可靈開發(fā)并正式推出了多模態(tài)編輯。簡單地說,我們在GPT-4o里玩的換臉、換物品,得到了視頻級的完美實現(xiàn)。
感覺真是萬物皆可換,就一句話的事,小姐姐面前的杯子、美食都能神奇地改變,甚至人物的妝容、造型也都能隨心切換。
可靈2.0大師版的多維升級:語義響應、動態(tài)質(zhì)量、畫面美學更好了
全新的可靈2.0大師版,針對生視頻模型的痛點進行了“精準升級”。
先來看看語義的遵循方面,2.0的情緒表現(xiàn)力更強了,仿佛AI新修了一堂表演大師課!
鏡頭環(huán)繞也表現(xiàn)地更貼切了!
在動態(tài)質(zhì)量上,不僅減少了AI生視頻常有的動作崩壞,而且還對動作精準度、速度等細節(jié)上有了提升??纯催@個可靈2.0生成的野豬追趕,更加身臨其境,讓人有緊迫感。
最后,在畫面上,快手可靈希望用戶能生成更美、更真實的視頻畫面。
相比可靈1.6,2.0的生成更有大片質(zhì)感、細節(jié)更豐富、畫風保持更好、角色演繹也更加生動了。
最后,可靈2.0發(fā)布即上線,大家可以玩起來了!
圖片