AGI-Eval團(tuán)隊(duì):AI視頻生成模型年度橫評(píng),Sora大餅落地,但國產(chǎn)模型仍然領(lǐng)先!
說到2024年AI圈的熱門話題,當(dāng)然不能錯(cuò)過視頻生成模型了!
即使是在12月,國內(nèi)外視頻模型的更新腳步依舊沒有放緩。其中以Sora、可靈AI為代表。
12月9日,OpenAI正式推出視頻產(chǎn)品Sora。用戶可以創(chuàng)建任意長寬比例的分辨率高達(dá)1080p(最長 20 秒)的視頻,可接收文本、圖像和視頻輸入并生成新視頻作為輸出。
12月19日,可靈AI宣布基座模型再升級(jí),視頻生成推出可靈1.6模型,文本響應(yīng)度、畫面美感及運(yùn)動(dòng)合理性,均有明顯提升,畫面更穩(wěn)定更生動(dòng),同時(shí)支持標(biāo)準(zhǔn)和高品質(zhì)模式,特別是1.6模型的圖生視頻,內(nèi)部評(píng)測比 1.5 模型整體效果提升195%。
視頻模型競爭激烈,評(píng)測榜單也變得尤為重要。
AGI-Eval通過構(gòu)建上百條評(píng)測數(shù)據(jù)和專家級(jí)人工評(píng)測團(tuán)隊(duì),對(duì)Sora 、及國產(chǎn)頭部視頻生成模型進(jìn)行了更深度的專業(yè)評(píng)測。
主要結(jié)論有以下3個(gè):
結(jié)論1
與國內(nèi)頭部大模型(國內(nèi)前三)相比,Sora在視頻-文本一致性維度、視頻質(zhì)量上均有小幅落后??傮w來看,國內(nèi)大模型仍保持領(lǐng)先水平。
結(jié)論2
Sora在運(yùn)動(dòng)質(zhì)量維度表現(xiàn)略好于可靈1.6,即生成的視頻畫面在動(dòng)態(tài)過程中的主體一致性和動(dòng)態(tài)幅度更自然。
結(jié)論3
在視頻-文本一致性維度上,Sora存在文本理解有誤、指令遵循不符的問題,即生成的視頻內(nèi)容與提示詞的描述不符的現(xiàn)象。
詳細(xì)的榜單排名如下,評(píng)測維度包括視頻-文本一致性 、視頻質(zhì)量(含真實(shí)性、合理性) 、運(yùn)動(dòng)質(zhì)量等,確保評(píng)測結(jié)果反饋模型真實(shí)水平。
注:以上數(shù)據(jù)為示例,具體評(píng)分請(qǐng)參考AGI-Eval評(píng)測社區(qū)平臺(tái)的最新數(shù)據(jù)。
榜單數(shù)據(jù)經(jīng)過歸一化處理,與原始分值有所區(qū)別,但排名一致。
AGI-Eval平臺(tái)鏈接:https://agi-eval.cn/mvp/listSummaryIndex
詳細(xì)評(píng)測對(duì)比:Sora VS 國內(nèi)視頻生成模型
一起來看看詳細(xì)的測評(píng)結(jié)果。
從視頻生成的整體效果來看,Sora在視頻質(zhì)量、創(chuàng)作自由度、風(fēng)格支持等方面的表現(xiàn)更優(yōu),尤其是在動(dòng)態(tài)場景下五官的呈現(xiàn)上更為細(xì)致。
示例對(duì)比
【示例1】:文本一致性
Prompt: 地上放著一個(gè)籃球、面包和背包,鏡頭跟隨勞累的運(yùn)動(dòng)員來到物品面前,拿起一樣物品用來補(bǔ)充能量。
英文prompt:There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.
該prompt本身較為復(fù)雜,同時(shí)存在多個(gè)實(shí)體、人物狀態(tài)表現(xiàn),且需要模型進(jìn)行正確的推理,考察的能力更加全面。
Sora-1080P
該維度打分:2分
分析:要求生成的實(shí)體中,背包缺失,面包表現(xiàn)較差,丟失實(shí)體特征;人物動(dòng)作”拿起“不符合,無法判斷是否符合推理正確的物體。
可靈1.6
該維度打分:2.67分
分析:要求生成的實(shí)體中,面包缺失,”拿起“的動(dòng)作有趨勢但表現(xiàn)較差,同樣無法判斷是否符合推理正確的物體。
Pixverse-V3
該維度打分:3.5分
分析:要求生成的實(shí)體及人物動(dòng)作“拿起”均滿足,也能達(dá)成正確的推理,理解需要拿的是面包,但不符合鏡頭跟隨和人物動(dòng)作“來到”,相對(duì)來說已經(jīng)表現(xiàn)得不錯(cuò)。
MiniMax-Video-01
該維度打分:3分
分析:要求生成的實(shí)體中,面包缺失,“拿起”動(dòng)作不符合,但推理正確,理解需要拿的是面包。
Prompt:高溫變色馬克杯廣告。一個(gè)黑色高溫變色馬克杯正被加入熱水,逐漸變成白色的過程。重點(diǎn)需要突出馬克杯的變色能力。
英文prompt:High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.
該prompt實(shí)體較簡單,但傾向于考察水流、熱氣、顏色漸變等細(xì)節(jié),流暢的細(xì)節(jié)變化通常來說較為困難。
Sora-1080P
該維度打分:2.67分
分析:忽略prompt要求的重點(diǎn),未體現(xiàn)出變色的過程。
可靈1.6
該維度打分:4分
分析:變色過程不完全符合要求,但相對(duì)來說較好。
Pixverse-V3
該維度打分:3分
分析:未體現(xiàn)正在加水,變色有體現(xiàn),但不符合逐漸變白的要求。
MiniMax-Video-01
該維度打分:2.67分
分析:同樣未體現(xiàn)出變色的過程,也無法看出是熱水。
【示例2】:物品生成穩(wěn)定性(突然出現(xiàn)或消失)
Prompt: 一款創(chuàng)意蛋糕的宣傳廣告。一把餐刀切開了蛋糕,從蛋糕的切口處涌出了草莓醬。
英文prompt:An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.
該prompt重在考察運(yùn)動(dòng)細(xì)節(jié)及實(shí)體之間的交互,模型在“切口處涌出了草莓醬”上表現(xiàn)得各有差異。
Sora-1080P
該維度打分:2.5分
分析:該視頻中果醬多次忽然出現(xiàn)和忽然消失,蛋糕忽然出現(xiàn)缺口,僅針對(duì)穩(wěn)定性較差。
可靈1.6
該維度打分:3.5分
分析:能看到刀的動(dòng)作導(dǎo)致蛋糕出現(xiàn)切口,果醬的出現(xiàn)比較突兀不合理。
Pixverse-V3
該維度打分:3.5分
分析:果醬和刀的形態(tài)穩(wěn)定,蛋糕的切口出現(xiàn)較為突兀。
MiniMax-Video-01
該維度打分:3分
分析:刀和蛋糕的形態(tài)較穩(wěn)定,符合切開的狀態(tài),但果醬忽然大量出現(xiàn)不合理。
【示例3】:實(shí)體畸形
Prompt: 生成一個(gè)動(dòng)畫風(fēng)格的視頻,內(nèi)容是一個(gè)女孩正在巴黎旅行,她的面前是埃菲爾鐵塔。
英文prompt:Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.
Sora-1080P
該維度打分:2.67分
分析:背景鳥群出現(xiàn)明顯畸形及不合理滯空,背景行人有粘連及行走姿態(tài)明顯不合理,整體觀感上較為明顯。
可靈1.6
該維度打分:4分
分析:主體人物及建筑物整體的形態(tài)均較好,部分背景人物出現(xiàn)輕微畸形,整體對(duì)觀感影響較小。
Pixverse-V3
該維度打分:3分
分析:主體人物手指有輕微粘連形變,背景建筑物發(fā)生形變,觀感上稍有不合理。
MiniMax-Video-01
該維度打分:3.5分
分析:主體人物手指輕微形變,左側(cè)出現(xiàn)的背景人物面部有輕微扭曲,觀感上稍有不合理。
Prompt: 同事們正在辦公室門前交談。
英文prompt:Colleagues are talking in front of the office door.
Sora-1080P
該維度打分:2.5分
分析:人物有明顯的穿模,門發(fā)生的形變也較明顯,影響嚴(yán)重。
可靈1.6
該維度打分:3.5分
分析:人物整體形象較好,無明顯畸形,部分鏡頭中人物手部存在形變,造成一定的影響。
Pixverse-V3
該維度打分:3分
分析:人物手指形變持續(xù)存在且較嚴(yán)重,較影響視覺效果。
MiniMax-Video-01
該維度打分:3.5分
分析:人物整體形象較好,無明顯畸形,部分鏡頭中人物手部存在形變,造成一定的影響。
【示例4】:鏡頭技巧
Prompt: 創(chuàng)意視頻,升鏡拉鏡結(jié)合,鏡頭從一座繁忙的城市拉升到空中、太空、宇宙外,需要展示出地球是其他宇宙高維生命手中的玻璃球
英文prompt:A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.
Sora-1080P
該維度打分:3分
分析:拉鏡有所表現(xiàn),但升鏡體現(xiàn)較差,視頻整體鏡頭表現(xiàn)較單一。
可靈1.6
該維度打分:4分
分析:視頻能較好的體現(xiàn)升鏡、拉鏡,場景變化的過度比較自然,整體流暢。
Pixverse-V3
該維度打分:3.5分
分析:升鏡體現(xiàn)較好,但拉鏡未明確表現(xiàn),視頻整體場景轉(zhuǎn)化較流暢。
MiniMax-Video-01
該維度打分:3分
分析:拉鏡有所表現(xiàn),但升鏡體現(xiàn)較差,視頻整體效果較為突兀。
是怎么評(píng)測的?
針對(duì)基礎(chǔ)模型,AGI-Eval采用了不同的評(píng)測方法及不同的評(píng)測方式,包含人工主觀評(píng)測、模型打分(modeleval)、眾包評(píng)測三種方式,考察模型在不同版本下是否有能力下降、風(fēng)格等影響導(dǎo)致榜單結(jié)果差異,反饋模型綜合能力。
人工評(píng)測
評(píng)測說明:
給定prompt的視頻,人工從視頻文本一致性、視頻質(zhì)量、運(yùn)動(dòng)質(zhì)量等維度綜合給被測視頻打1-5絕對(duì)值分,并標(biāo)注出被測視頻的錯(cuò)誤標(biāo)簽;視頻采用多輪標(biāo)注的方式,2人打分結(jié)果相同則為該prompt結(jié)果,若2人打分diff則進(jìn)入3標(biāo),最終3人平均為被測視頻最終分?jǐn)?shù)。
評(píng)測思路:
視頻文本一致性:是否按照prompt的要求生成視頻,包括對(duì)物體、人物、場景、風(fēng)格、運(yùn)動(dòng)細(xì)節(jié)等所有相關(guān)要素的描述是否完整遵循。
視頻質(zhì)量:
合理性:視頻在邏輯、結(jié)構(gòu)、設(shè)計(jì)、運(yùn)動(dòng)軌跡等維度是否符合常規(guī),即,是否符合物理規(guī)律。
真實(shí)性:視頻具有逼真效果,無明顯AI痕跡。
運(yùn)動(dòng)質(zhì)量:視頻中的運(yùn)動(dòng)表現(xiàn)是否流暢、連貫、動(dòng)態(tài)效果是否豐富。
評(píng)測集介紹:
根據(jù)一致性、運(yùn)動(dòng)質(zhì)量、畫面質(zhì)量等關(guān)鍵性能指標(biāo),構(gòu)建了包含500條中英文對(duì)照樣本的黑盒測試集,覆蓋了從動(dòng)作生成到情緒生成多種復(fù)雜場景和能力項(xiàng)及應(yīng)用場景;在構(gòu)建中也結(jié)合到了物理常識(shí)和百科知識(shí),評(píng)估生成視頻的真實(shí)感和邏輯性。
評(píng)測案例:
任務(wù)類型:相互影響多實(shí)體生成
Prompt:一只貓叫醒了正在睡覺的主人。
模型答案:
評(píng)測分析:
視頻綜合打分:3分
一致性:4分,實(shí)體生成符合要求,但對(duì)于“叫醒”的動(dòng)作過程體現(xiàn)不完整。
視頻質(zhì)量:3分,運(yùn)動(dòng)過程中人物肢體、貓面部都呈現(xiàn)出變形。
運(yùn)動(dòng)質(zhì)量:3分,運(yùn)動(dòng)基本連貫,最后貓爪收回動(dòng)作不自然,機(jī)械感較明顯。
任務(wù)類型:實(shí)體&動(dòng)作生成
Prompt:跳水運(yùn)動(dòng)員們正在熱身。
模型答案:
評(píng)測分析:
視頻綜合打分:1分
一致性:1分,要求的實(shí)體及動(dòng)作完全未體現(xiàn)。
視頻質(zhì)量:1分,視覺中心的主體畸形,場景下方也存在變形不連貫。
運(yùn)動(dòng)質(zhì)量:2分,下方憑空出現(xiàn)實(shí)體,運(yùn)動(dòng)連貫性、動(dòng)態(tài)效果、運(yùn)動(dòng)幅度均差。
AGI-Eval評(píng)測平臺(tái)
鑒于傳統(tǒng)評(píng)測方式難以充分反映模型的真實(shí)水平,AGI-Eval創(chuàng)新性地提出了人機(jī)協(xié)作評(píng)測模式,探索建設(shè)高質(zhì)量評(píng)測社區(qū)建設(shè)。
在這種模式下,參與者可以與最新的大模型共同完成任務(wù),既有助于提高任務(wù)完成度又便于建立更加直觀的區(qū)分度。
基于前期的一些用戶實(shí)驗(yàn)表明,通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進(jìn)一步提升用戶與大模型之間的互動(dòng)體驗(yàn)。
未來,隨著更多類似平臺(tái)的出現(xiàn)和發(fā)展,相信人機(jī)協(xié)作將成為評(píng)測領(lǐng)域的一個(gè)重要發(fā)展方向。
人機(jī)社區(qū)鏈接:https://agi-eval.cn/llmArena/home
AGI-Eval 平臺(tái)基于真實(shí)數(shù)據(jù)回流、能力項(xiàng)拆解等方式,自建萬量級(jí)私有數(shù)據(jù),并經(jīng)過多次質(zhì)檢保證準(zhǔn)確率。
黑盒100%私有化數(shù)據(jù),可保證評(píng)測數(shù)據(jù)不可“穿越”。
從數(shù)據(jù)建設(shè)到模型評(píng)測,實(shí)現(xiàn)全層級(jí)能力項(xiàng)目,一級(jí)能力涵蓋指令遵循、交互能力、認(rèn)知能力(含推理、知識(shí)、其他認(rèn)知能力等);完美實(shí)現(xiàn)自動(dòng)與人工評(píng)測相結(jié)合。
對(duì)于Chat模型,平臺(tái)官方榜單結(jié)合主觀、客觀評(píng)測結(jié)果,中英文權(quán)重分布均衡。
客觀評(píng)測基于模型打分,可處理具有一定自由度問題,準(zhǔn)確率95%+;主觀評(píng)測基于三人獨(dú)立標(biāo)注,并記錄細(xì)分維度標(biāo)簽結(jié)果,全面診斷模型問題。
想要申請(qǐng)文生視頻測評(píng)的朋友可以直接聯(lián)系A(chǔ)GI-Eval團(tuán)隊(duì)。
AGI-Eval團(tuán)隊(duì)介紹
AGI-Eval是由上海交通大學(xué)、同濟(jì)大學(xué)、華東師范大學(xué)、DataWhale等高校和機(jī)構(gòu)合作發(fā)布的大模型評(píng)測社區(qū),以“評(píng)測助力,讓AI成為人類更好的伙伴”為使命。平臺(tái)旨在打造公正、可信、科學(xué)、全面的評(píng)測生態(tài),號(hào)召大眾共同投入到大模型評(píng)測工作,參與數(shù)據(jù)構(gòu)建及豐富有趣的人機(jī)協(xié)作比賽,與大模型協(xié)同完成復(fù)雜任務(wù),實(shí)現(xiàn)評(píng)測方案共建。
AGI-Eval多模態(tài)評(píng)測可承接全模態(tài)(any toany)模型評(píng)測(部分榜單待上線),歡迎各位模型廠商提報(bào)評(píng)測合作交流。
文生視頻測評(píng)申請(qǐng)方式:
請(qǐng)使用單位郵箱,將測評(píng)研究目的、計(jì)劃,研究機(jī)構(gòu)、申請(qǐng)者介紹和聯(lián)系方式(手機(jī)或微信),發(fā)送到郵箱。
郵箱:agieval17@gmail.com,標(biāo)題是:AGI-Eval文生視頻測評(píng)申請(qǐng)