自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述

發(fā)布于 2024-11-25 10:32
瀏覽
0收藏

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2411.07076
數(shù)據(jù)集&代碼:https://github.com/hyc2026/StoryTeller

亮點(diǎn)直擊

  • 引入音畫角色識(shí)別任務(wù):提出了音畫角色識(shí)別任務(wù),通過整合視覺、音頻和文本信息,實(shí)現(xiàn)對(duì)白與角色的精準(zhǔn)匹配,從而解決長(zhǎng)視頻描述中的一致性挑戰(zhàn),包括角色描述和故事邏輯連貫性。
  • StoryTeller系統(tǒng)創(chuàng)新: 開發(fā)了StoryTeller系統(tǒng),包含視頻分割模塊、音畫角色識(shí)別模塊和身份感知的描述生成模塊,生成密集且一致性高的長(zhǎng)視頻描述,兼顧基礎(chǔ)視覺概念和高級(jí)劇情信息。
  • 高質(zhì)量數(shù)據(jù)集與自動(dòng)評(píng)估方法: 構(gòu)建了MovieStory101數(shù)據(jù)集,包含密集標(biāo)注的三分鐘電影片段和對(duì)白角色身份標(biāo)簽,同時(shí)引入MovieQA自動(dòng)評(píng)估方法,通過GPT-4回答多選問題,以準(zhǔn)確率衡量描述質(zhì)量。
  • 顯著性能提升: StoryTeller在MovieQA任務(wù)中比最強(qiáng)基線Gemini-1.5-pro提升9.5%準(zhǔn)確率,在人類對(duì)比評(píng)估中表現(xiàn)出+15.56%的優(yōu)勢(shì)。同時(shí),將音畫角色識(shí)別結(jié)果輸入其他模型也顯著提升了它們的長(zhǎng)視頻描述能力,分別提升5.5%和13.0%的準(zhǔn)確率。

總結(jié)速覽

解決的問題
現(xiàn)有的大型視覺語言模型(LVLMs)在處理短視頻(數(shù)秒)時(shí)表現(xiàn)良好,但在生成分鐘級(jí)長(zhǎng)視頻的連貫描述時(shí)存在困難,特別是在保持劇情一致性方面。此外,視頻中角色的音畫識(shí)別和臺(tái)詞匹配也是一個(gè)關(guān)鍵挑戰(zhàn)。

提出的方案
提出了StoryTeller系統(tǒng),通過結(jié)合低級(jí)視覺概念和高級(jí)劇情信息,為長(zhǎng)視頻生成密集描述。該系統(tǒng)通過多模態(tài)大語言模型(整合視覺、音頻和文本模態(tài))進(jìn)行分鐘級(jí)視頻片段的音畫角色識(shí)別,并將結(jié)果輸入LVLM以提升描述的一致性。

應(yīng)用的技術(shù)

  • 多模態(tài)模型:整合視覺、音頻和文本信息進(jìn)行角色識(shí)別。
  • MovieStory101數(shù)據(jù)集:包含三分鐘電影片段的密集描述,用于評(píng)估長(zhǎng)視頻描述性能。
  • MovieQA測(cè)試集:為MovieStory101創(chuàng)建的大量多選題集,通過GPT-4回答這些問題,基于準(zhǔn)確率自動(dòng)評(píng)估描述質(zhì)量。

達(dá)到的效果

  • 模型性能提升:StoryTeller在MovieQA任務(wù)中比最強(qiáng)基線Gemini-1.5-pro高9.5%的準(zhǔn)確率;在人類對(duì)比評(píng)估中表現(xiàn)出+15.56%的優(yōu)勢(shì)。
  • 角色識(shí)別的增強(qiáng)作用:將音畫角色識(shí)別集成到視頻描述模型中提升了整體性能,如Gemini-1.5-pro和GPT-4o在MovieQA上的準(zhǔn)確率分別提升了5.5%和13.0%。

StoryTeller 長(zhǎng)視頻描述系統(tǒng)

概述

StoryTeller 是一個(gè)全自動(dòng)的長(zhǎng)視頻描述生成系統(tǒng),能夠處理跨度數(shù)分鐘的視頻。如下圖 1 所示,該系統(tǒng)包含三個(gè)主要模塊。首先,視頻分割模塊將長(zhǎng)視頻劃分為多個(gè)持續(xù)數(shù)秒的短片段,同時(shí)保留這些片段的完整性和相對(duì)獨(dú)立性。第二部分是音畫角色識(shí)別模塊,該模塊采用局部和全局雙重機(jī)制,以準(zhǔn)確識(shí)別整個(gè)長(zhǎng)視頻中的角色。在局部上,利用一個(gè)多模態(tài)大語言模型(MLLM),整合音頻、視覺和文本模態(tài),通過音頻和視覺線索實(shí)現(xiàn)短片段內(nèi)的角色識(shí)別。在全局上,通過一個(gè)全局解碼算法,在推理過程中同時(shí)處理與同一角色相關(guān)的多個(gè)短片段,將 MLLM 的局部結(jié)果整合,以提升整體識(shí)別精度。最后,描述生成模塊利用 LVLM 生成詳細(xì)的描述。通過將音畫角色識(shí)別結(jié)果作為輸入,LVLM 能生成貫穿整個(gè)長(zhǎng)視頻的連貫描述,從而形成以情節(jié)為單位的密集敘述。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

音畫角色識(shí)別

音畫角色識(shí)別模塊通過整合音頻、視覺和文本信息,確定視頻片段中的說話者身份。具體而言,給定一個(gè)視頻片段(包括幀、音頻和字幕)以及演員列表(包含角色照片和姓名),該模塊將對(duì)白分配給對(duì)應(yīng)的角色。如果說話者在演員列表中,則提供他們的姓名;否則,使用描述性身份(例如“一個(gè)警察”或“一個(gè)小女孩”)。此任務(wù)具有以下幾個(gè)挑戰(zhàn):

  1. 僅依賴視覺信息通常不夠,尤其是在多個(gè)角色同時(shí)出現(xiàn)在畫面中或說話者未出現(xiàn)時(shí);
  2. 數(shù)秒長(zhǎng)的片段中的音頻線索通常是孤立的,在角色識(shí)別方面作用有限。然而,在更長(zhǎng)的片段中,音頻可以用來提取跨不同片段的說話者特征,例如識(shí)別是否同一人在多個(gè)片段中講話。 依賴短片段的模型通常難以有效整合這些全局特征。


為了解決上述挑戰(zhàn),本文設(shè)計(jì)了一種結(jié)合音視頻模態(tài)的創(chuàng)新音畫角色識(shí)別機(jī)制,并開發(fā)了一個(gè)全局解碼算法,以利用全局音頻信息實(shí)現(xiàn)更準(zhǔn)確的角色識(shí)別。如上面圖 1 所示,首先對(duì)整個(gè)視頻進(jìn)行音頻分離,對(duì)對(duì)白進(jìn)行分割,并為不同的說話者分配 ID(例如 C1、C2 等)。帶有全局 ID 的字幕隨后被輸入到 MLLM 中,以識(shí)別每個(gè)全局 ID 對(duì)應(yīng)的角色名稱。全局解碼機(jī)制并行處理短視頻片段,確保不同片段中的全局 ID 始終映射到相同的名稱,從而提高識(shí)別精度。MLLM 和全局解碼算法的實(shí)現(xiàn)細(xì)節(jié)如下所述。

模型架構(gòu)與訓(xùn)練
本文集成了一個(gè)能夠處理視覺和音頻數(shù)據(jù)的 MLLM,如下圖 2 所示。對(duì)于視覺輸入,每個(gè)圖像或視頻幀由 CLIP-ViT編碼,然后通過一個(gè)多層感知機(jī)(MLP)映射到下游 LLM 的 token 嵌入空間。這些 tokens 隨后被輸入到 LLM 中。音頻輸入由雙音頻編碼器處理,包括 Whisper-Large-v2的語音編碼器和非語音 BEATs 音頻編碼器。兩個(gè)音頻編碼器的輸出在幀級(jí)進(jìn)行拼接,隨后通過窗口級(jí) Q-former 對(duì)組合后的音頻表示對(duì)齊到 LLM 的輸入空間。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

從 Tarsier-7b(一種在多種視頻理解基準(zhǔn)測(cè)試中表現(xiàn)出SOTA性能的大型視覺語言模型)初始化視覺模塊和語言模型。訓(xùn)練流程分為三個(gè)階段:

  1. 對(duì)音頻模塊進(jìn)行預(yù)訓(xùn)練;
  2. 在包括音頻分離、角色識(shí)別、識(shí)別與追蹤等任務(wù)上進(jìn)行微調(diào);
  3. 使用 MovieStory101 訓(xùn)練集進(jìn)行音畫角色識(shí)別的微調(diào)。

全局解碼
使用 MLLM 將名稱分配給每個(gè)全局角色I(xiàn)D。首先,這些名稱來源于集合 N,其中包括演員列表中的所有名稱以及一個(gè)特殊項(xiàng)“Others”,代表不在演員列表中的角色。當(dāng)模型輸出“Others”時(shí),還會(huì)進(jìn)一步提供一個(gè)描述性名稱。其次,模型輸出一個(gè) JSON 字典,其中每個(gè)鍵是輸入短片段中的全局角色 ID,每個(gè)對(duì)應(yīng)的值是分配的名稱。鍵按全局角色 ID 的升序列出。


一個(gè)給定的全局角色 ID 可能同時(shí)出現(xiàn)在多個(gè)短視頻片段中。如果在不同片段中獨(dú)立分配名稱,可能會(huì)產(chǎn)生沖突,即同一角色 ID 在不同片段中被分配了不同的名稱。為了解決這個(gè)問題,對(duì)所有包含相同全局角色 ID 的片段的結(jié)果進(jìn)行并行解碼。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

此外,在計(jì)算模型生成特殊項(xiàng)“Others”的概率時(shí),僅考慮“Others”token的概率,忽略任何描述性名稱token。這種方法基于觀察到的現(xiàn)象,即模型在生成描述性名稱時(shí)表現(xiàn)出高準(zhǔn)確率,但在推理時(shí)可能為同一角色生成不同但有效的描述,例如“警察”和“穿警服的男人”。盡管這些描述有所不同,但它們并不影響最終的視頻描述,因?yàn)檎Z言模型可以正確識(shí)別這些描述指代的是同一人。

描述生成

在識(shí)別出角色后,接下來生成最終描述。在此階段,模型接收包含視頻、演員表以及標(biāo)注角色名稱的字幕的數(shù)據(jù)輸入。為了與現(xiàn)有的開源或閉源大型視覺語言模型兼容,此階段排除音頻輸入。對(duì)于開源模型,使用 MovieStory101 數(shù)據(jù)集中的視頻描述數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。在這一階段,視覺適配器和 LLM(大語言模型)都參與訓(xùn)練。

MovieStory101 數(shù)據(jù)集

MovieStory101,是一個(gè)基于電影的長(zhǎng)視頻描述數(shù)據(jù)集。選擇電影作為數(shù)據(jù)來源,因?yàn)樗鼈儼S富且多樣化的信息。一份高質(zhì)量的電影描述不僅需要捕捉細(xì)粒度的細(xì)節(jié),如場(chǎng)景、角色和動(dòng)作,還需要涵蓋更高層次的內(nèi)容,比如角色關(guān)系、劇情發(fā)展以及事件之間的因果關(guān)系(參見下圖 3)。此外,由于電影本質(zhì)上是長(zhǎng)視頻,其描述需要在語言上保持連貫性,并在邏輯上保持一致性。因此,電影描述任務(wù)具有顯著的挑戰(zhàn)性。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

電影來源

基于公開可用的數(shù)據(jù)集 Movie101 和 Movie101v2 構(gòu)建了 MovieStory101 數(shù)據(jù)集。這些數(shù)據(jù)集共包含 203 部電影,并為無障礙版本中的無對(duì)話場(chǎng)景提供了音頻描述。


由于 Movie101 和 Movie101v2 中的電影在音軌中整合了音頻描述,收集了電影的原始版本以獲取原始音軌。在審查內(nèi)容后,為數(shù)據(jù)集選擇了 187 部電影。排除了 16 部電影,因?yàn)樗鼈兊脑及姹九c無障礙版本之間存在顯著差異。每部選定的電影被分割為 3 分鐘的片段。最終,MovieStory101 數(shù)據(jù)集在訓(xùn)練/開發(fā)/測(cè)試集劃分中分別包含 5,350 / 140 / 492 個(gè)片段,總計(jì) 300 小時(shí)。每個(gè)劃分包含來自不同電影的視頻片段。

標(biāo)注流程

標(biāo)注流程包括以下三個(gè)步驟:電影描述、角色照片和音視頻角色識(shí)別。

電影描述
本文為數(shù)據(jù)集中每個(gè)電影片段提供詳細(xì)描述。為提高標(biāo)注效率,向標(biāo)注人員提供來自 Movie101 和 Movie101v2 的音頻描述和自動(dòng)語音識(shí)別(ASR)數(shù)據(jù)作為參考。標(biāo)注人員的任務(wù)是描述視頻中每個(gè)事件,并標(biāo)注相應(yīng)的開始和結(jié)束時(shí)間戳。描述需要包含場(chǎng)景、角色、動(dòng)作、對(duì)話及劇情發(fā)展等細(xì)節(jié),旨在創(chuàng)建連貫的長(zhǎng)篇視頻描述。MovieStory101 數(shù)據(jù)集中的示例見上圖 3。此外,標(biāo)注人員還需同時(shí)修訂 ASR 數(shù)據(jù)以生成每個(gè)電影片段的字幕。

角色照片
對(duì)于每個(gè)電影片段,標(biāo)注人員需要識(shí)別出現(xiàn)的主要角色,并為每個(gè)角色選擇一個(gè)面部特寫。隨后創(chuàng)建一個(gè)演員表,記錄每個(gè)角色的姓名及其對(duì)應(yīng)的面部圖像,示例見圖 3。

音視頻角色識(shí)別
對(duì)于視頻片段中的每一句對(duì)話,標(biāo)注人員需要識(shí)別發(fā)言者。如果發(fā)言者包含在演員表中,則分配相應(yīng)的角色名稱;否則,使用描述性標(biāo)簽來標(biāo)注發(fā)言者。MovieStory101 數(shù)據(jù)集中關(guān)于音視頻角色識(shí)別的示例見圖 3。

電影描述的評(píng)估

由于長(zhǎng)視頻描述包含大量細(xì)節(jié),評(píng)估的成本較高,因此對(duì)其評(píng)估是一個(gè)挑戰(zhàn)。為了解決這一問題,為 MovieStory101 測(cè)試集開發(fā)了一種自動(dòng)評(píng)估方法——MovieQA。平均而言,MovieQA 為每個(gè) 3 分鐘的視頻生成 38 道多項(xiàng)選擇題,這些問題聚焦于視覺動(dòng)作、角色關(guān)系及劇情發(fā)展。

評(píng)估方法
在評(píng)估過程中,利用 GPT-4 根據(jù)長(zhǎng)視頻描述回答這些問題,問答的準(zhǔn)確率作為衡量描述質(zhì)量的自動(dòng)化指標(biāo)。MovieQA 的示例見下表 1。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

MovieQA 的創(chuàng)建
確定了評(píng)估長(zhǎng)視頻描述時(shí)需要關(guān)注的三種關(guān)鍵信息類型:

  1. 動(dòng)作:包括動(dòng)作識(shí)別、動(dòng)作序列以及動(dòng)作之間的因果關(guān)系。
  2. 角色:角色的身份、與其他角色的關(guān)系以及這些關(guān)系的演變。
  3. 劇情:事件的因果關(guān)系、角色動(dòng)機(jī)以及事件間的關(guān)聯(lián)性。

基于上述類別,為每種類型生成相應(yīng)的問題和答案對(duì)。

實(shí)驗(yàn)

基線方法

將所提出的方法與兩類基線方法進(jìn)行比較:

  • 閉源 LVLMs
  • 開源 LVLMs

對(duì)所有基線方法,均提供視頻、演員表和字幕作為輸入。具體而言,對(duì)于 Gemini-1.5-pro,直接輸入完整的 3 分鐘視頻;而對(duì)于其他模型,先將視頻劃分為 10 秒片段,并從每個(gè)片段中采樣 8 幀作為輸入,以生成單個(gè)片段的描述。最后,將各片段的描述拼接成整個(gè) 3 分鐘視頻的完整描述。

實(shí)驗(yàn)結(jié)果

首先,在 MovieQA 數(shù)據(jù)集上評(píng)估了所提出方法和基線方法生成的描述。如下表 2 所示,StoryTeller 在 MovieQA 上優(yōu)于所有基線方法。值得注意的是,StoryTeller 比表現(xiàn)最強(qiáng)的基線 Gemini-1.5-pro 高出 9.5% 的準(zhǔn)確率。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

下表 3 展示了一個(gè)包含多個(gè)角色的視頻示例,其中 StoryTeller 能有效跟蹤角色間的關(guān)系,比 Gemini-1.5-pro 生成的描述減少了虛構(gòu)內(nèi)容。在分析 MovieQA 中不同問題類型的表現(xiàn)時(shí),StoryTeller 在動(dòng)作、角色和劇情問題上均優(yōu)于所有基線方法,這表明 StoryTeller 在低層次視覺細(xì)節(jié)和高層次劇情信息的描述上更為準(zhǔn)確。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

還進(jìn)行了人工對(duì)比評(píng)價(jià),這是評(píng)估視頻描述的黃金標(biāo)準(zhǔn)。將 StoryTeller 與 Gemini-1.5-pro 和 VILA1.5-8B 進(jìn)行比較,分別代表表現(xiàn)最好的閉源和開源基線。在此評(píng)價(jià)中,從 MovieStory101 測(cè)試集中隨機(jī)選擇 100 個(gè) 3 分鐘視頻,并要求標(biāo)注人員比較兩種模型生成的描述,收集其偏好意見。由于直接比較 3 分鐘視頻較為困難,標(biāo)注人員按 20 秒片段觀看視頻,并對(duì)對(duì)應(yīng)描述給出偏好意見。計(jì)算了 20 秒片段級(jí)別的勝率。


結(jié)果如下表 4 所示,與自動(dòng)評(píng)估結(jié)果一致。StoryTeller 生成的描述顯著優(yōu)于 Gemini-1.5-pro 和 VILA1.5-8B 的描述。具體來說,StoryTeller 相比 Gemini-1.5-pro 優(yōu)勢(shì)為 +15.56%,相比 VILA1.5-8B 優(yōu)勢(shì)為 +42.25%。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

系統(tǒng)設(shè)計(jì)
StoryTeller 的系統(tǒng)設(shè)計(jì)是一個(gè)通用框架,適用于各種 LVLMs(大規(guī)模多模態(tài)語言模型),以增強(qiáng)其長(zhǎng)視頻描述能力。下表 5 展示了不同組件對(duì)各種 LVLMs 的增量貢獻(xiàn):

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

  • 視頻分段模塊用視頻分段模塊替代直接劃分為 10 秒片段的方式,可顯著提高描述準(zhǔn)確率。在 MovieQA 數(shù)據(jù)集上,所有模型的準(zhǔn)確率平均相對(duì)提升6.3%。
  • 音視頻識(shí)別結(jié)果將本文模型生成的音視頻識(shí)別結(jié)果作為輸入提供給 LVLMs,可進(jìn)一步提升準(zhǔn)確率,平均相對(duì)提升6.4%。這表明,本文模型生成的音視頻識(shí)別結(jié)果在增強(qiáng)長(zhǎng)視頻描述方面具有普適性和有效性。
  • 替換“Others”標(biāo)簽用本文模型生成的描述性名稱替代 “Others” 標(biāo)簽,同樣能夠改進(jìn)視頻描述效果,且對(duì)所有模型均有益處。在本文的框架下,Gemini-1.5-pro 和 GPT-4o 分別在 MovieQA 上實(shí)現(xiàn)了5.5%13.0%的相對(duì)準(zhǔn)確率提升。

消融研究
進(jìn)行了消融研究,以評(píng)估以下模塊的必要性:

  • 音頻和視覺任務(wù)的微調(diào)
  • 音視頻識(shí)別模塊中的全局解碼(Global Decoding)

在 MovieStory101 測(cè)試集上測(cè)試了音視頻角色識(shí)別的準(zhǔn)確率,結(jié)果見下表 6:

  • 微調(diào)音頻和視覺任務(wù)的性能提升4.6%;
  • 全局解碼方法帶來了3.2%的性能提升。

超Gemini-1.5-pro 9.5%!字節(jié)&上交&北大開源StoryTeller:生成一致性高的長(zhǎng)視頻描述-AI.x社區(qū)

這些實(shí)驗(yàn)表明,StoryTeller 的模塊化設(shè)計(jì)及優(yōu)化對(duì)提升描述精度具有顯著貢獻(xiàn)。

結(jié)論

本文提出了音視頻角色識(shí)別作為生成長(zhǎng)視頻詳細(xì)且一致描述的關(guān)鍵步驟?;谶@一見解,提出了 StoryTeller 系統(tǒng),一個(gè)旨在生成密集且具有情節(jié)層次的視頻描述的框架。該系統(tǒng)由三個(gè)主要模塊組成:視頻分段、音視頻角色識(shí)別和描述生成。同時(shí),引入了一個(gè)新的數(shù)據(jù)集 MovieStory101,包含來自 187 部電影的 5,982 個(gè) 3 分鐘長(zhǎng)的視頻片段。為了有效和高效地評(píng)估長(zhǎng)視頻描述,提出了 MovieQA,一個(gè)與 MovieStory101 測(cè)試集對(duì)齊的大規(guī)模多項(xiàng)選擇問答數(shù)據(jù)集。通過將視頻描述輸入到 GPT-4 中以回答這些問題,并以準(zhǔn)確率作為自動(dòng)評(píng)估指標(biāo),來評(píng)估描述的質(zhì)量。


實(shí)驗(yàn)結(jié)果表明,StoryTeller 在 MovieQA 上超越了所有開源和閉源基線模型,特別是,StoryTeller 的準(zhǔn)確率比最強(qiáng)的基線 Gemini-1.5-pro 高出 9.5%。在人類評(píng)估中,StoryTeller 在 20 秒片段級(jí)別上相比 Gemini-1.5-pro 具有 +15.56% 的優(yōu)勢(shì)。此外,驗(yàn)證了音視頻角色識(shí)別的加入顯著增強(qiáng)了所有 LVLMs 的視頻描述效果。值得注意的是,Gemini-1.5-pro 和 GPT-4o 在 MovieQA 上的準(zhǔn)確率分別提升了 5.5% 和 13.0% 。

這些結(jié)果表明,StoryTeller 的方法為提高長(zhǎng)視頻描述提供了一種通用的解決方案。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/pDspeBAqofeqK9JcdCQpbg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦