自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福大學(xué):VideoAgent基于大語言模型的視頻QA系統(tǒng)

發(fā)布于 2024-11-14 15:17
瀏覽
0收藏

架構(gòu)

斯坦福大學(xué):VideoAgent基于大語言模型的視頻QA系統(tǒng)-AI.x社區(qū)圖片

上圖是VideoAgent的概覽圖,VideoAgent通過搜索、聚合視頻信息來完成長視頻QA。整個(gè)系統(tǒng)包括一個(gè)核心LLM、VLM(視覺大語言模型)和CLIP工具。

作者受到人類理解長視頻的啟發(fā),提出了VideoAgent,通過基于Agent的系統(tǒng)來模擬這一過程的系統(tǒng)。

將視頻理解過程形式化為一系列狀態(tài)、動(dòng)作和觀察,其中LLM作為代理控制這個(gè)過程。首先,LLM通過瀏覽從視頻中均勻抽樣的一組幀來熟悉視頻內(nèi)容的背景。在每次迭代中,LLM評(píng)估當(dāng)前信息(狀態(tài))是否足以回答問題;如果不夠,它會(huì)確定需要什么額外的信息(動(dòng)作)。隨后,它利用CLIP 來檢索包含這些信息的新幀(觀察),并使用VLM將這些新幀描述為文本描述,從而更新當(dāng)前狀態(tài)。這種設(shè)計(jì)強(qiáng)調(diào)了推理能力和迭代過程,而不是直接處理長視覺輸入,其中VLM和CLIP作為工具,使LLM能夠具有視覺理解和長上下文檢索能力。

斯坦福大學(xué):VideoAgent基于大語言模型的視頻QA系統(tǒng)-AI.x社區(qū)圖片

VideoAgent的迭代過程詳細(xì)視圖。每一輪都從狀態(tài)開始,其中包括先前查看過的視頻幀。然后,大型語言模型通過回答預(yù)測和自我反思來確定后續(xù)的動(dòng)作。如果需要額外的信息,就會(huì)以視頻幀的形式獲取新的觀察結(jié)果。

假設(shè)LLM確定信息不足以回答問題,并選擇搜索新信息。在這種情況下,進(jìn)一步要求LLM決定需要什么額外信息,以便可以利用工具來獲得額外信息。由于視頻中某些信息可能出現(xiàn)多次,所以進(jìn)行分段級(jí)別的檢索而不是視頻級(jí)別的檢索,以增強(qiáng)時(shí)間推理能力。

例如,假設(shè)問題是“男孩離開房間后在沙發(fā)上留下了什么玩具?”,并且我們?cè)趲?i 中看到了男孩離開房間。如果我們使用查詢“顯示沙發(fā)上的玩具的幀”進(jìn)行檢索,則可能在幀 i 之前存在包含“沙發(fā)上的玩具”的幀,但它們與回答問題無關(guān)。

Arxiv[1]

引用鏈接

??[1]?? Arxiv: https://arxiv.org/abs/2403.10517

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦