自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="dwdid"><button id="dwdid"></button></abbr>

<blockquote id="dwdid"><p id="dwdid"></p></blockquote>

<blockquote id="dwdid"><p id="dwdid"><th id="dwdid"></th></p></blockquote>

<tr id="dwdid"></tr>

<sub id="dwdid"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

清華大學(xué)研發(fā) LLM4VG 基準：用于評估 LLM 視頻時序定位性能

作者：故淵 2024-01-02 10:20:42

大語言模型（LLM）的觸角已經(jīng)從單純的自然語言處理，擴展到文本、音頻、視頻等多模態(tài)領(lǐng)域，而其中一項關(guān)鍵就是視頻時序定位（Video Grounding，VG）。

12 月 29 日消息，大語言模型（LLM）的觸角已經(jīng)從單純的自然語言處理，擴展到文本、音頻、視頻等多模態(tài)領(lǐng)域，而其中一項關(guān)鍵就是視頻時序定位（Video Grounding，VG）。

VG 任務(wù)的目的基于給定查詢（一句描述），然后在目標視頻段中定位起始和結(jié)束時間，核心挑戰(zhàn)在于時間邊界定位的精度。

清華大學(xué)研究團隊近日推出了“LLM4VG”基準，這是一個專門設(shè)計用于評估 LLM 在 VG 任務(wù)中的性能。

此基準考慮了兩種主要策略：第一種涉及直接在文本視頻數(shù)據(jù)集（VidLLM）上訓(xùn)練的視頻 LLM，第二種是結(jié)合傳統(tǒng)的 LLM 與預(yù)訓(xùn)練的視覺模型。

在第一種策略中，VidLLM 直接處理視頻內(nèi)容和 VG 任務(wù)指令，根據(jù)其對文本-視頻的訓(xùn)練輸出預(yù)測。

第二種策略更為復(fù)雜，涉及 LLM 和視覺描述模型。這些模型生成與 VG 任務(wù)指令集成的視頻內(nèi)容的文本描述，通過精心設(shè)計的提示。

這些提示經(jīng)過專門設(shè)計，可以有效地將 VG 的指令與給定的視覺描述結(jié)合起來，從而讓 LLM 能夠處理和理解有關(guān)任務(wù)的視頻內(nèi)容。

據(jù)觀察，VidLLM 盡管直接在視頻內(nèi)容上進行訓(xùn)練，但在實現(xiàn)令人滿意的 VG 性能方面仍然存在很大差距。這一發(fā)現(xiàn)強調(diào)了在訓(xùn)練中納入更多與時間相關(guān)的視頻任務(wù)以提高性能的必要性。

而第二種策略優(yōu)于 VidLLM，為未來的研究指明了一個有希望的方向。該策略主要限制于視覺模型的局限性和提示詞的設(shè)計，因此能夠生成詳細且準確的視頻描述后，更精細的圖形模型可以大幅提高 LLM 的 VG 性能。

總之，該研究對 LLM 在 VG 任務(wù)中的應(yīng)用進行了開創(chuàng)性的評估，強調(diào)了在模型訓(xùn)練和提示設(shè)計中需要更復(fù)雜的方法。

IT之家附上論文參考地址：https://arxiv.org/pdf/2312.14206.pdf

責任編輯：龐桂玉來源： IT之家

清華大學(xué)人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營