自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025

發(fā)布于 2025-4-24 17:31
瀏覽
0收藏

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)ICLR(International Conference on Learning Representations)是人工智能領(lǐng)域頂級學(xué)術(shù)會議之一,主要聚焦于深度學(xué)習(xí)及其在表示學(xué)習(xí)(representation learning)方面的最新研究進(jìn)展,是學(xué)術(shù)界和工業(yè)界展示最前沿機器學(xué)習(xí)成果的重要平臺。ICLR 2025 將于 4 月 24 日至 28 日在新加坡博覽中心舉行,本屆論文錄用結(jié)果揭曉,本次大會共收到 11672 篇有效投稿,最終有 3706 篇論文中稿,錄取率為 31.75%。logo


快手憑借其在深度學(xué)習(xí)算法研發(fā)領(lǐng)域的持續(xù)深耕與技術(shù)創(chuàng)新,共有 11 篇高質(zhì)量學(xué)術(shù)論文成功入選。這些研究成果涵蓋大規(guī)模視覺-語言模型、可控視頻生成、3D 人臉動畫生成模型等前沿研究方向,不僅體現(xiàn)了研發(fā)團(tuán)隊在跨模態(tài)理解、生成式 AI 等核心領(lǐng)域的關(guān)鍵技術(shù)突破,更彰顯了企業(yè)在人工智能研究方面的國際競爭力。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 01:SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding


項目地址:??https://github.com/yzy-bupt/SVBench??


論文簡介:


盡管大型視覺語言模型(LVLMs)在現(xiàn)有基準(zhǔn)測試中取得了顯著進(jìn)展,但在新興的長上下文流媒體視頻理解領(lǐng)域,其適用性仍缺乏合適的評估體系。當(dāng)前的視頻理解基準(zhǔn)通常側(cè)重于孤立的單實例文本輸入,而未能評估模型在視頻流全時長內(nèi)持續(xù)進(jìn)行時序推理的能力。


為彌補這些缺陷,我們提出了一個具有時序多輪問答鏈的開拓性基準(zhǔn) SVBench,專門用于全面評估當(dāng)前 LVLMs 在流媒體視頻理解中的能力。我們設(shè)計了半自動化標(biāo)注流程,從 1,353 個流媒體視頻中構(gòu)建了 49,979 個問答對,包括生成代表視頻片段連續(xù)多輪對話的問答鏈,以及在連續(xù)問答鏈間建立時序關(guān)聯(lián)。通過對 14 個模型進(jìn)行對話式評估和流式評估的實驗結(jié)果表明,雖然閉源的 GPT-4o 模型表現(xiàn)最優(yōu),但大多數(shù)開源 LVLMs 在長上下文流媒體視頻理解方面仍面臨挑戰(zhàn)。我們還構(gòu)建了 StreamingChat 模型,該模型在 SVBench 上顯著超越開源 LVLMs,并在多樣化視覺語言基準(zhǔn)測試中達(dá)到可比性能。我們期望 SVBench 能夠通過提供對當(dāng)前 LVLMs 的全面深入分析,推動流媒體視頻理解領(lǐng)域的研究進(jìn)展。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 02:3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation


| 項目地址:??https://github.com/KwaiVGI/3DTrajMaster??


論文簡介:


現(xiàn)有的可控視頻生成方法主要利用二維控制信號來調(diào)控物體運動,雖已取得顯著合成效果,但二維控制信號本質(zhì)上難以充分表達(dá)物體運動的三維本質(zhì)。


為解決這一難題,我們提出一個基于用戶設(shè)定實體 6 自由度位姿(位置與旋轉(zhuǎn))序列的三維空間多實體動力學(xué)調(diào)控框架 3DTrajMaster。該系統(tǒng)的核心在于創(chuàng)新的即插即用型三維運動基準(zhǔn)化物體注入模塊,該模塊通過門控自注意力機制將多輸入實體與其三維軌跡深度融合。此外,我們采用注入式架構(gòu)以保持視頻擴(kuò)散模型先驗,這對系統(tǒng)的泛化能力至關(guān)重要。為緩解視頻質(zhì)量衰減,我們在訓(xùn)練階段引入領(lǐng)域適配器,并在推理階段采用退火采樣策略。針對訓(xùn)練數(shù)據(jù)匱乏問題,我們構(gòu)建了 360-Motion 數(shù)據(jù)集:首先對齊采集的三維人體與動物資產(chǎn)與 GPT 生成的軌跡數(shù)據(jù),隨后在多樣化三維虛幻引擎平臺上使用 12 組均勻環(huán)繞攝像頭捕獲其運動。大量實驗表明,3DTrajMaster 在多實體三維運動控制的準(zhǔn)確性與泛化性方面均達(dá)到當(dāng)前最優(yōu)水平。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 03:Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control


項目地址:

??https://harryxd2018.github.io/cafe-talk/??


論文簡介:

語音驅(qū)動的 3D 人臉動畫方法需同時實現(xiàn)精準(zhǔn)的唇形同步與可控的表情生成。現(xiàn)有方法僅采用離散情感標(biāo)簽對整段序列進(jìn)行全局表情控制,限制了時空域內(nèi)的靈活細(xì)粒度面部調(diào)控。


為此,我們提出一種基于擴(kuò)散-Transformer 架構(gòu)的 3D 人臉動畫生成模型 Cafe-Talk,通過融合粗粒度與細(xì)粒度的多模態(tài)控制條件實現(xiàn)同步優(yōu)化。然而,多重條件的耦合性對模型性能提出了挑戰(zhàn)。為解耦語音與細(xì)粒度控制條件,我們采用兩階段訓(xùn)練策略:首先僅基于語音音頻和粗粒度條件預(yù)訓(xùn)練模型,隨后通過提出的細(xì)粒度控制適配器(Fine-grained Control Adapter)逐步引入以動作單元(Action Units, AUs)表征的細(xì)粒度指令,避免對唇音同步的干擾。針對粗-細(xì)粒度條件的解耦,我們設(shè)計了交換標(biāo)簽訓(xùn)練機制(Swap-label training mechanism),確保細(xì)粒度條件的主導(dǎo)性,并開發(fā)了基于掩碼的分類器無關(guān)引導(dǎo)技術(shù)(Mask-based Classifier-Free Guidance)以調(diào)節(jié)細(xì)粒度控制的強度。此外,通過文本-AU 對齊技術(shù)引入基于文本的檢測器,支持自然語言用戶輸入,進(jìn)一步擴(kuò)展多模態(tài)控制能力。大量實驗表明,Cafe-Talk 在唇形同步精度與表情自然度上均達(dá)到最先進(jìn)水平,并在用戶研究中獲得細(xì)粒度控制的高接受度。


新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)

?

論文 04:Making Transformer Decoders Better Differentiable Indexers


| 項目地址:??https://openreview.net/pdf?id=bePaRx0otZ??


論文簡介:


檢索任務(wù)旨在從海量數(shù)據(jù)集中篩選出與查詢/用戶最相關(guān)的 top-k 項。傳統(tǒng)檢索模型通過將查詢/用戶與物品表征為嵌入向量,并采用近似最近鄰(ANN)搜索實現(xiàn)檢索。近期研究提出一種生成式檢索方法,其核心創(chuàng)新在于:將物品表示為標(biāo)記序列,并基于解碼器模型進(jìn)行自回歸訓(xùn)練。相較傳統(tǒng)方法,該方法采用更復(fù)雜的模型架構(gòu),并在訓(xùn)練過程中整合索引結(jié)構(gòu),從而獲得更優(yōu)性能。然而,現(xiàn)有方法仍存在兩階段流程的固有缺陷:索引構(gòu)建與檢索模型相互割裂,限制了模型整體能力。此外,現(xiàn)有索引構(gòu)建方法通過在歐氏空間對預(yù)訓(xùn)練物品表征進(jìn)行聚類實現(xiàn),但現(xiàn)實場景的復(fù)雜性使得此類方法難以保證準(zhǔn)確性。


為解決上述問題,本文提出檢索與索引統(tǒng)一框架 URI。該框架通過以下機制實現(xiàn)突破:

  • 索引構(gòu)建與檢索模型(通常為 Transformer 解碼器)的強一致性保障;
  • 索引構(gòu)建與解碼器訓(xùn)練的同步優(yōu)化,使索引直接由解碼器內(nèi)生構(gòu)建;
  • 摒棄基于歐氏空間的單側(cè)物品表征,轉(zhuǎn)而在查詢-物品交互空間中構(gòu)建索引。


通過在三個真實數(shù)據(jù)集上的實驗對比,URI 展現(xiàn)出顯著優(yōu)于現(xiàn)有方法的性能。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 05:Pyramidal Flow Matching for Efficient Video Generative Modeling


| 項目地址:??https://pyramid-flow.github.io/??


論文簡介:


視頻生成需要對廣袤的時空空間進(jìn)行建模,這對計算資源和數(shù)據(jù)使用提出了極高要求。為降低復(fù)雜度,主流方法采用級聯(lián)架構(gòu)以避免直接訓(xùn)練全分辨率潛在空間。盡管降低了計算需求,但各子階段的獨立優(yōu)化阻礙了知識共享并犧牲了靈活性。


本文提出統(tǒng)一的金字塔流匹配算法,將原始去噪軌跡重新詮釋為多級金字塔階段,其中僅最終階段在全分辨率運行,從而實現(xiàn)更高效的視頻生成建模。通過精心設(shè)計,不同金字塔階段的流可相互鏈接以保持連續(xù)性;同時,我們構(gòu)建了時域金字塔自回歸視頻生成框架以壓縮全分辨率歷史信息。整個系統(tǒng)可通過端到端方式聯(lián)合優(yōu)化,并僅需單一統(tǒng)一的擴(kuò)散 Transformer(Diffusion Transformer)。大量實驗表明,該方法支持在 20.7k A100 GPU 訓(xùn)練小時內(nèi)生成 768p 分辨率、24 幀率的高質(zhì)量 5 秒(最高達(dá) 10 秒)視頻。


新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 06:RecFlow: An Industrial Full Flow Recommendation Dataset


| 項目地址:??https://github.com/RecFlow-ICLR/RecFlow??


論文簡介:


工業(yè)推薦系統(tǒng)采用多階段流程,將海量內(nèi)容庫中的物品逐步篩選并推送給用戶,以在效果與效率之間實現(xiàn)平衡。現(xiàn)有的推薦系統(tǒng)基準(zhǔn)數(shù)據(jù)集主要聚焦于曝光空間,在此空間內(nèi)進(jìn)行新算法的訓(xùn)練與評估。然而,當(dāng)這些算法遷移至真實工業(yè)推薦系統(tǒng)時,面臨兩大關(guān)鍵挑戰(zhàn):

  • 忽視規(guī)模遠(yuǎn)超曝光空間的未曝光物品空間,而兩者差異對推薦系統(tǒng)整體性能有深刻影響;
  • 忽視工業(yè)推薦系統(tǒng)中多個階段間復(fù)雜的相互作用,導(dǎo)致系統(tǒng)整體性能次優(yōu)。


為彌合離線推薦基準(zhǔn)與真實在線環(huán)境間的鴻溝,我們推出首個工業(yè)級全流程推薦數(shù)據(jù)集 RecFlow。與現(xiàn)有數(shù)據(jù)集不同,RecFlow 不僅包含曝光空間樣本,還涵蓋推薦漏斗中各階段被過濾的未曝光樣本。該數(shù)據(jù)集包含:基于 42,000 用戶對近 900 萬項目的 3,800 萬次交互數(shù)據(jù),以及通過 930 萬次在線請求在 37 天內(nèi)收集的橫跨 6 個流程階段的 19 億階段樣本?;?RecFlow,我們開展探索實驗驗證其在推薦算法創(chuàng)新中的潛力:引入各階段的未曝光樣本可顯著提升算法效果。部分算法已在快手平臺上線并持續(xù)產(chǎn)生顯著收益。我們發(fā)布 RecFlow 作為推薦領(lǐng)域首個完整的全流程基準(zhǔn)數(shù)據(jù)集,支持以下研究方向:全流程算法設(shè)計(包括選擇偏差研究、去偏算法、多階段一致性與最優(yōu)性)、多任務(wù)推薦及用戶行為建模。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 07:Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model


| 項目地址:??https://github.com/longrongyang/STGC??


論文簡介:


混合專家模型(MoE)在大型視覺語言模型(LVLMs)研究中受到廣泛關(guān)注。該方法通過稀疏模型替代稠密模型,在保持可比性能的同時,僅激活少量參數(shù)進(jìn)行推理,從而顯著降低計算成本。現(xiàn)有 LVLM 中的 MoE 方法促使不同專家專注于不同 token,通常通過路由模塊預(yù)測每個 token 的路徑。然而,路由模塊并未針對專家內(nèi) token 產(chǎn)生的不同參數(shù)優(yōu)化方向進(jìn)行優(yōu)化,這可能導(dǎo)致同一專家內(nèi) token 間的嚴(yán)重干擾。


為解決該問題,本文提出基于 token 級梯度分析的 token 梯度沖突消解方法 STGC。具體而言,我們首先通過 token 級梯度識別專家內(nèi)的沖突 token,隨后設(shè)計定制化正則損失,促使沖突 token 從當(dāng)前專家路由至其他專家,從而降低專家內(nèi) token 間的干擾。該方法可作為即插即用模塊適配多種 LVLM 方法,大量實驗結(jié)果驗證了其有效性。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 08:Stable Segment Anything Model


| 項目地址:??https://github.com/fanq15/Stable-SAM?tab=readme-ov-file??


論文簡介:


盡管 Segment Anything 模型(SAM)在高質(zhì)量提示下能夠?qū)崿F(xiàn)卓越的可提示分割效果,但這些提示通常需要較高的標(biāo)注技巧才能生成。


為了使 SAM 對隨意提示更具魯棒性,本文首次全面分析了 SAM 在不同提示質(zhì)量(尤其是邊界框不精確和點數(shù)不足)下的分割穩(wěn)定性。我們的關(guān)鍵發(fā)現(xiàn)表明,當(dāng)輸入此類低質(zhì)量提示時,SAM 的掩碼解碼器傾向于激活偏向背景或局限于特定物體局部的圖像特征。為緩解此問題,我們的核心思路是通過調(diào)整圖像特征的采樣位置和幅度,僅對 SAM 的掩碼注意力進(jìn)行校準(zhǔn),同時保持原始 SAM 模型架構(gòu)和權(quán)重不變。由此提出的可變形采樣插件(Deformable Sampling Plugin)使 SAM 能夠以數(shù)據(jù)驅(qū)動的方式自適應(yīng)地將注意力轉(zhuǎn)移到提示目標(biāo)區(qū)域。在推理階段,我們進(jìn)一步提出動態(tài)路由插件(Dynamic Routing Plugin),根據(jù)輸入提示質(zhì)量動態(tài)切換 SAM 的可變形采樣模式與常規(guī)網(wǎng)格采樣模式。因此,我們的解決方案(Stable-SAM)具備以下優(yōu)勢:

  • 顯著提升 SAM 在廣泛提示質(zhì)量下的分割穩(wěn)定性;
  • 完整保留 SAM 原有的高效可提示分割能力與通用性;
  • 僅需極少可學(xué)習(xí)參數(shù)(0.08 M)且支持快速適配。


大量實驗驗證了該方法的有效性和優(yōu)勢,表明 Stable-SAM 為"分割萬物"任務(wù)提供了一個更魯棒的解決方案。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 09:SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints


| 項目地址:??https://jianhongbai.github.io/SynCamMaster/??


論文簡介:


近年來,視頻擴(kuò)散模型在模擬真實世界動態(tài)與 3D 一致性方面展現(xiàn)出卓越能力。這一進(jìn)展促使我們探索此類模型在跨視角動態(tài)一致性保持方面的潛力,該特性在虛擬拍攝等應(yīng)用中備受關(guān)注。與現(xiàn)有聚焦于單物體多視角生成以實現(xiàn) 4D 重建的方法不同,我們的研究旨在通過六自由度(6 DoF)相機位姿生成任意視角、多相機同步的開放世界視頻。為此,我們提出了一種即插即用模塊,通過微調(diào)預(yù)訓(xùn)練文本到視頻模型實現(xiàn)多相機視頻生成,確??缫暯莾?nèi)容一致性。具體而言,我們設(shè)計了多視角同步模塊以促進(jìn)視角間的內(nèi)容與幾何一致性。鑒于高質(zhì)量訓(xùn)練數(shù)據(jù)的稀缺性,我們還提出了一種漸進(jìn)式訓(xùn)練方案,通過融合多相機圖像與單目視頻作為 Unreal Engine 渲染多相機視頻的補充。這種綜合性策略顯著提升了模型性能。實驗結(jié)果表明,我們提出的方法在現(xiàn)有競爭方法與基線模型上均表現(xiàn)出優(yōu)越性。此外、該工作提出了多視角同步視頻數(shù)據(jù)集 SynCamVideo-Dataset 用于多視角視頻生成的研究。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 10:TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types


| 項目地址:??https://github.com/Kwai-YuanQi/TaskGalaxy??


論文簡介:


多模態(tài)視覺語言模型正憑借模型架構(gòu)、訓(xùn)練技術(shù)及高質(zhì)量數(shù)據(jù)的進(jìn)步,在開放世界應(yīng)用中嶄露頭角。然而,特定任務(wù)數(shù)據(jù)不足嚴(yán)重制約了其性能,導(dǎo)致泛化能力弱化與輸出偏差?,F(xiàn)有增強微調(diào)數(shù)據(jù)集任務(wù)多樣性的方法受限于人工任務(wù)標(biāo)注的高成本,通常僅能產(chǎn)生數(shù)百種任務(wù)類型。


為此,我們提出一個包含 19,227 種層次化任務(wù)類型(含 413,648 樣本)的大規(guī)模多模態(tài)指令微調(diào)數(shù)據(jù)集 TaskGalaxy。該數(shù)據(jù)集通過 GPT-4o 從少量人工定義任務(wù)出發(fā)進(jìn)行任務(wù)擴(kuò)展,利用 CLIP 與 GPT-4o 篩選與開源圖像最匹配的任務(wù),并生成相關(guān)問答對;通過多模型協(xié)同確保樣本質(zhì)量。這種自動化流程在提升任務(wù)多樣性的同時保障了數(shù)據(jù)質(zhì)量,顯著減少人工干預(yù)。將 TaskGalaxy 應(yīng)用于 LLaVA-v1.5 與 InternVL-Chat-v1.0 模型后,在 16 項基準(zhǔn)測試中均取得顯著性能提升,充分驗證任務(wù)多樣性的關(guān)鍵作用。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


論文 11:ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability


| 項目地址:??https://github.com/Jeryi-Sun/ReDEeP-ICLR??


論文簡介:


Retrieval-Augmented Generation(RAG)模型通過結(jié)合外部知識以減少幻覺問題,但即使檢索到準(zhǔn)確的上下文,RAG 模型仍可能在生成過程中產(chǎn)生與檢索信息相沖突的“幻覺”輸出。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)


我們的研究聚焦于:

1. 幻覺來源

通過機制解釋性 MechanisticInterpretability 分析 LLM 模型內(nèi)部的注意力和前饋網(wǎng)絡(luò)(Feed-Forward Network,F(xiàn)FN),我們發(fā)現(xiàn):

  • 某些注意力頭(稱為 Copying Heads)在獲取外部上下文時,經(jīng)常出現(xiàn)信息丟失或未能有效“拷貝”外部知識的現(xiàn)象。
  • 部分深層 FFN(稱為 Knowledge FFNs)過度向殘差流中注入?yún)?shù)化知識 ParametricKnowledge,可能“淹沒”外部上下文。


2. 提出方法:

ReDeEP RegressingDecoupledExternalcontextandParametricknowledge

  • 將模型對外部上下文和參數(shù)化知識的利用進(jìn)行顯式解耦,并通過多元線性回歸來檢測幻覺傾向。
  • 提供兩種檢測粒度:Token-level 和 Chunk-level,兼顧精細(xì)度與計算效率。


3. 改進(jìn)模型生成:

AARF AddAttentionReduceFFN

  • 在推理過程中,無需額外訓(xùn)練,依據(jù)實時“幻覺分?jǐn)?shù)”對注意力和 FFN 的輸出進(jìn)行動態(tài)加權(quán)調(diào)控。
  • 引導(dǎo)模型更多依賴外部知識,同時抑制過度依賴內(nèi)部參數(shù)化知識,從而顯著降低幻覺。

新加坡見!快手11篇論文入選人工智能領(lǐng)域頂會ICLR 2025-AI.x社區(qū)



標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦