LLM合集:港大利用GPT-4o生成QA對,打造大規(guī)模多模態(tài)視頻思維鏈(COT)數(shù)據(jù)集
1. VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection
大型視覺語言模型(LVLMs)的進(jìn)步顯著提升了多模態(tài)理解能力,但在視頻推理任務(wù)中仍面臨挑戰(zhàn),主要原因是高質(zhì)量、大規(guī)模數(shù)據(jù)集的缺乏。現(xiàn)有的視頻問答(VideoQA)數(shù)據(jù)集往往依賴于成本高昂且粒度不足的手動標(biāo)注,或者使用會產(chǎn)生冗余幀分析的自動構(gòu)建方法,這限制了它們在復(fù)雜推理任務(wù)中的可擴(kuò)展性和有效性。為了解決這些挑戰(zhàn),我們提出了VideoEspresso,這是一個新的數(shù)據(jù)集,它包含保留了關(guān)鍵空間細(xì)節(jié)和時間連貫性的VideoQA對,以及中間推理步驟的多模態(tài)標(biāo)注。我們的構(gòu)建流程采用了一種語義感知的方法來減少冗余,并通過GPT-4o生成QA對。此外,我們開發(fā)了視頻思維鏈(CoT)標(biāo)注以豐富推理過程,指導(dǎo)GPT-4o從QA對和視頻內(nèi)容中提取邏輯關(guān)系。
為了充分利用高質(zhì)量的VideoQA對,我們提出了一種混合LVLM協(xié)作框架,該框架包括一個幀選擇器和一個兩階段指令微調(diào)推理LVLM。此框架能夠自適應(yīng)地選擇核心幀,并利用多模態(tài)證據(jù)進(jìn)行CoT推理。在我們提出的基準(zhǔn)測試中,與9種流行的LVLM相比,在14項(xiàng)任務(wù)上,我們的方法在大多數(shù)任務(wù)上優(yōu)于現(xiàn)有基線,展示了卓越的視頻推理能力。
論文: https://arxiv.org/pdf/2411.14794
2. EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality
在資源受限環(huán)境中部署神經(jīng)網(wǎng)絡(luò)時,先前的工作構(gòu)建了輕量級架構(gòu),分別使用卷積和注意力機(jī)制來捕捉局部和全局依賴關(guān)系。最近,狀態(tài)空間模型(SSM)作為一種有效的全局token交互方式出現(xiàn),其在token數(shù)量上的計(jì)算成本呈線性增長,具有明顯優(yōu)勢。然而,基于SSM構(gòu)建的高效視覺骨干網(wǎng)絡(luò)研究較少。在本文中,我們提出了一種名為Efficient Vision Mamba (EfficientViM)的新架構(gòu),該架構(gòu)基于隱藏狀態(tài)混合器的狀態(tài)空間二元性(HSM-SSD),能夠以更低的計(jì)算成本高效地捕捉全局依賴關(guān)系。在HSM-SSD層中,我們重新設(shè)計(jì)了之前的SSD層,使得可以在隱藏狀態(tài)內(nèi)執(zhí)行通道混合操作。此外,我們提出了多階段隱藏狀態(tài)融合方法,進(jìn)一步增強(qiáng)隱藏狀態(tài)的表示能力,并提供了一種緩解由內(nèi)存限制操作引起瓶頸的設(shè)計(jì)。
結(jié)果表明,EfficientViM系列在ImageNet-1k上達(dá)到了新的速度-精度平衡,相比第二優(yōu)秀的模型SHViT,性能提高了0.7%,同時運(yùn)行速度更快。另外,在圖像縮放或采用蒸餾訓(xùn)練時,與之前的工作相比,我們在吞吐量和準(zhǔn)確率方面都觀察到了顯著提升。
論文: https://arxiv.org/pdf/2411.15241
3. SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis
盡管大型多模態(tài)模型取得了進(jìn)展,但在處理長且未經(jīng)剪輯的視頻內(nèi)容時仍面臨挑戰(zhàn),主要原因是上下文長度的限制和巨大的內(nèi)存開銷。這些限制往往導(dǎo)致信息丟失嚴(yán)重,并降低了模型響應(yīng)的相關(guān)性。隨著網(wǎng)絡(luò)平臺上視頻數(shù)據(jù)的指數(shù)級增長,理解長視頻對于推進(jìn)通用智能至關(guān)重要。在本文中,我們介紹了SALOVA(段增強(qiáng)長視頻助手):一種新穎的視頻-大語言模型框架,旨在通過有針對性的檢索過程增強(qiáng)對長視頻內(nèi)容的理解。
為實(shí)現(xiàn)這一目標(biāo),我們解決了兩個主要挑戰(zhàn):
我們發(fā)布了SceneWalk數(shù)據(jù)集,這是一個高質(zhì)量的87,800個長視頻集合,每個視頻都在片段級別進(jìn)行了密集標(biāo)注,以使模型能夠捕捉場景連續(xù)性并保持豐富的描述性上下文。
我們的框架通過允許精確識別和檢索與查詢相關(guān)的視頻片段,從而緩解了當(dāng)前視頻-大語言模型的局限性,提高了生成響應(yīng)的上下文相關(guān)性。通過廣泛的實(shí)驗(yàn),SALOVA展示了在處理復(fù)雜長視頻方面的增強(qiáng)能力,顯著提升了在長時間序列中保持上下文完整性的能力。
論文: https://arxiv.org/pdf/2411.16173
4. Edit Away and My Face Will not Stay: Personal Biometric Defense against\n Malicious Generative Editing
擴(kuò)散模型的最新進(jìn)展使得生成式圖像編輯變得更加容易,這雖然促進(jìn)了創(chuàng)意編輯,但也引發(fā)了倫理問題,尤其是在涉及惡意修改人像時,這些修改可能威脅到個人隱私和身份安全?,F(xiàn)有的保護(hù)方法主要依賴于對抗性擾動來抵消編輯效果,但往往難以應(yīng)對多樣化的編輯請求。我們提出了一種名為FaceLock的新方法,通過優(yōu)化對抗性擾動來破壞或顯著改變生物特征信息,使編輯后的輸出在生物特征上無法識別。FaceLock將面部識別和視覺感知集成到擾動優(yōu)化過程中,以提供對各種編輯嘗試的強(qiáng)健保護(hù)。
我們還指出了常用評估指標(biāo)中的缺陷,并揭示了它們?nèi)绾伪徊倏v,強(qiáng)調(diào)了需要可靠的保護(hù)評估方法。實(shí)驗(yàn)表明,F(xiàn)aceLock在抵御惡意編輯方面優(yōu)于基線方法,并且對凈化技術(shù)具有魯棒性。消融研究證實(shí)了其穩(wěn)定性和在基于擴(kuò)散的編輯算法中的廣泛適用性。我們的工作推進(jìn)了生物特征防御,并為圖像編輯中的隱私保護(hù)實(shí)踐奠定了基礎(chǔ)。
論文: https://arxiv.org/pdf/2411.16832
本文轉(zhuǎn)載自 ??AI-PaperDaily??,作者: AI-PaperDaily
