自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM合集:微軟開源新一代視頻token化方法VidTok,打造高性能視頻Token化解決方案

發(fā)布于 2024-12-20 10:36
瀏覽
0收藏

1. VidTok: A Versatile and Open-Source Video Tokenizer

LLM合集:微軟開源新一代視頻token化方法VidTok,打造高性能視頻Token化解決方案-AI.x社區(qū)

將視頻內(nèi)容編碼為緊湊的潛在token已經(jīng)成為視頻生成和理解中的一個(gè)基本步驟,這是為了應(yīng)對(duì)像素級(jí)表示中固有的冗余問題。因此,隨著以視頻為中心的研究日益重要,對(duì)高性能、開源視頻token化工具的需求也在不斷增長(zhǎng)。我們推出了 VidTok,這是一種多功能的視頻Tokenizer,在連續(xù)和離散token化方面都提供了最先進(jìn)的性能。

VidTok 相較于現(xiàn)有方法引入了幾個(gè)關(guān)鍵改進(jìn):模型架構(gòu)方面采用了卷積層和上/下采樣模塊;為了解決傳統(tǒng)向量量化(VQ)常見的訓(xùn)練不穩(wěn)定性和碼本崩潰問題,我們將有限標(biāo)量量化(FSQ)整合到離散視頻token化中;改進(jìn)了訓(xùn)練策略,包括兩階段訓(xùn)練過程和使用較低幀率等措施。

通過集成這些改進(jìn),VidTok 在多個(gè)評(píng)估指標(biāo)上實(shí)現(xiàn)了顯著的進(jìn)步,如峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)、感知路徑長(zhǎng)度(LPIPS)以及弗雷歇視頻距離(FVD),在標(biāo)準(zhǔn)化的評(píng)估設(shè)置下表現(xiàn)出色,超越了現(xiàn)有方法。

VidTok 的推出不僅提升了視頻token化的效率和質(zhì)量,還為視頻內(nèi)容的理解與生成提供了一種強(qiáng)大的工具,有助于推動(dòng)視頻技術(shù)的發(fā)展。

論文:??https://arxiv.org/pdf/2412.13061??

2. Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN

LLM合集:微軟開源新一代視頻token化方法VidTok,打造高性能視頻Token化解決方案-AI.x社區(qū)

大語言模型(LLMs)取得了顯著的成功,但最新的研究發(fā)現(xiàn),這些模型的深層往往貢獻(xiàn)較小,并且可以在不影響整體性能的情況下被剪枝。雖然一些人將此視為模型壓縮的機(jī)會(huì),我們認(rèn)為這是一個(gè)由于廣泛使用Pre-LN而導(dǎo)致的訓(xùn)練不足問題。我們證明了在像 GPT 和 LLaMA 這樣的模型中常用的 Pre-LN 會(huì)導(dǎo)致其深層的梯度范數(shù)減弱,從而降低了這些層的有效性。相反,后層歸一化(Post-LN)在深層保持較大的梯度范數(shù),但在早期層則遭遇梯度消失的問題。

為了解決這個(gè)問題,我們引入了一種新的歸一化技術(shù)——混合層歸一化(Mix-LN),它在同一模型內(nèi)結(jié)合了 Pre-LN 和 Post-LN 的優(yōu)勢(shì)。Mix-LN 在早期層應(yīng)用 Post-LN,在深層應(yīng)用 Pre-LN,確保整個(gè)網(wǎng)絡(luò)各層之間有更均勻的梯度分布。這使得網(wǎng)絡(luò)的所有部分——無論是淺層還是深層——都能有效地參與到訓(xùn)練中。通過對(duì)從70M到7B參數(shù)規(guī)模的各種模型進(jìn)行大量實(shí)驗(yàn),我們證明 Mix-LN 一貫優(yōu)于單獨(dú)使用 Pre-LN 或 Post-LN,促進(jìn)了更加平衡和健康的全網(wǎng)梯度范數(shù),提高了 LLM 預(yù)訓(xùn)練的整體質(zhì)量。

此外,我們還展示了使用 Mix-LN 預(yù)訓(xùn)練的模型在監(jiān)督微調(diào)(SFT)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)期間比使用 Pre-LN 或 Post-LN 的模型學(xué)得更好,強(qiáng)調(diào)了高質(zhì)量深層的重要性。通過有效解決當(dāng)前 LLM 深層效率低下的問題,Mix-LN 解鎖了它們的潛力,增強(qiáng)了模型能力而無需增加模型尺寸。我們的代碼可在 https://github.com/pixeli99/MixLN 獲取。

論文:??https://arxiv.org/pdf/2412.13795??

3. FastVLM: Efficient Vision Encoding for Vision Language Models

LLM合集:微軟開源新一代視頻token化方法VidTok,打造高性能視頻Token化解決方案-AI.x社區(qū)

提升輸入圖像分辨率對(duì)于增強(qiáng)視覺語言模型(VLMs)的性能至關(guān)重要,尤其是在涉及豐富文本圖像理解的任務(wù)中。然而,像 ViTs 這樣的流行視覺編碼器在高分辨率下變得效率低下,因?yàn)榇罅康膖oken和堆疊的自注意力層導(dǎo)致了高的編碼延遲。在不同的操作分辨率下,VLM 的視覺編碼器可以在兩個(gè)方面進(jìn)行優(yōu)化:減少編碼延遲和最小化傳遞給語言模型(LLM)的視覺token數(shù)量,從而降低整體延遲。

基于對(duì)圖像分辨率、視覺延遲、token數(shù)量和 LLM 尺寸之間相互作用的全面效率分析,我們推出了 FastVLM,這是一種在延遲、模型尺寸和準(zhǔn)確性之間實(shí)現(xiàn)了優(yōu)化權(quán)衡的模型。FastVLM 包含 FastViTHD,這是一種新型的混合視覺編碼器,旨在輸出更少的token并大幅減少高分辨率圖像的編碼時(shí)間。與先前的方法不同,F(xiàn)astVLM 僅通過縮放輸入圖像就實(shí)現(xiàn)了視覺token數(shù)量和圖像分辨率之間的最佳平衡,無需額外的token修剪,并簡(jiǎn)化了模型設(shè)計(jì)。

在 LLaVA-1.5 設(shè)置中,F(xiàn)astVLM 在保持與先前工作相似的 VLM 基準(zhǔn)性能的同時(shí),首次token生成時(shí)間(TTFT)提升了3.2倍。相比最高分辨率(1152x1152)下的 LLaVa-OneVision,F(xiàn)astVLM 使用相同的0.5B參數(shù)量的語言模型,在如 SeedBench 和 MMMU 等關(guān)鍵基準(zhǔn)測(cè)試中達(dá)到了可比的性能,但 TTFT 快了85倍,且視覺編碼器體積小了3.4倍。

論文:??https://arxiv.org/pdf/2412.13303??

4. AniDoc: Animation Creation Made Easier

LLM合集:微軟開源新一代視頻token化方法VidTok,打造高性能視頻Token化解決方案-AI.x社區(qū)

二維動(dòng)畫的制作遵循一個(gè)行業(yè)標(biāo)準(zhǔn)的工作流程,包括四個(gè)基本階段:角色設(shè)計(jì)、關(guān)鍵幀動(dòng)畫、中間幀繪制(in-betweening)和上色。我們的研究旨在通過利用日益強(qiáng)大的生成式人工智能來降低上述過程中的勞動(dòng)力成本?;谝曨l擴(kuò)散模型,我們開發(fā)了 AniDoc 這一視頻線稿上色工具,它可以自動(dòng)將草圖序列轉(zhuǎn)換為符合參考角色規(guī)范的彩色動(dòng)畫。

我們的模型采用對(duì)應(yīng)匹配作為顯式指導(dǎo),這使得它對(duì)參考角色與每一幀線稿之間的變化(例如姿勢(shì)變化)具有很強(qiáng)的魯棒性。此外,我們的模型甚至可以自動(dòng)化中間幀繪制的過程,用戶只需提供一個(gè)角色圖像以及起始和結(jié)束的草圖,就可以輕松創(chuàng)建時(shí)間上連貫的動(dòng)畫。

這項(xiàng)技術(shù)不僅大大減少了動(dòng)畫制作過程中的人力投入,也提高了創(chuàng)作效率和靈活性。我們的代碼可以在以下網(wǎng)址獲?。篽ttps://yihao-meng.github.io/AniDoc_demo。

論文:???https://arxiv.org/pdf/2412.14173??

本文轉(zhuǎn)載自 ??AI-PaperDaily??,作者: AI-PaperDaily

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦