爆!2024‘Meta 推出CTR集成框架 CETNet,多 CTR 模型集成大幅提升預(yù)測精度
1. Kimi k1.5: Scaling Reinforcement Learning with LLMs
語言模型預(yù)訓(xùn)練時(shí),通過預(yù)測下一個(gè)詞來提升計(jì)算量的方法效果不錯(cuò),可訓(xùn)練數(shù)據(jù)量卻限制了它的進(jìn)一步發(fā)展。強(qiáng)化學(xué)習(xí)(RL)的拓展則為人工智能持續(xù)進(jìn)步提供了新途徑,讓大語言模型(LLMs)有機(jī)會通過學(xué)習(xí)探索擴(kuò)充訓(xùn)練數(shù)據(jù)。不過,之前相關(guān)研究成果都不太理想,沒有特別突出的。
基于這樣的情況,我們來分享 Kimi k1.5 的訓(xùn)練過程。這是我們新研發(fā)的多模態(tài) LLM,使用 RL 訓(xùn)練。我們會講講 RL 訓(xùn)練技術(shù)、多模態(tài)數(shù)據(jù)處理方法,還有基礎(chǔ)設(shè)施優(yōu)化這些內(nèi)容。長上下文擴(kuò)展和改良后的策略優(yōu)化是我們訓(xùn)練方法的關(guān)鍵,搭建出簡單好用的 RL 框架,不用像蒙特卡洛樹搜索、價(jià)值函數(shù)、過程獎(jiǎng)勵(lì)模型這些復(fù)雜技巧。
特別要提的是,我們的系統(tǒng)在不少基準(zhǔn)測試和不同模態(tài)里,推理性能都很突出。AIME 測試得 77.5 分,MATH 500 測試得 96.2 分,Codeforces 測試處于 94 百分位,MathVista 測試得 74.9 分,和 OpenAI 的 o1 水平差不多。 另外,我們還找到了好辦法,用長思維鏈(CoT)技術(shù)增強(qiáng)短思維鏈模型。在 AIME 中得分 60.8,MATH500 里得 94.6 分,LiveCodeBench 里得 47.3 分,比 GPT-4o、Claude Sonnet 3.5 這些短思維鏈模型強(qiáng)很多,最高領(lǐng)先幅度能達(dá)到 550%。
論文: ??https://arxiv.org/pdf/2501.12599??
2. FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces
制作虛擬電影,做決策可太復(fù)雜了。既要?jiǎng)?chuàng)作劇本,又要進(jìn)行虛擬攝影,還得精準(zhǔn)設(shè)計(jì)演員的定位和動(dòng)作。最近,自動(dòng)決策領(lǐng)域在基于語言 Agent 社會這一塊有了新進(jìn)展,我們從中受到啟發(fā),提出了 FilmAgent。這是一種基于大語言模型的多 Agent 協(xié)作框架,目的是在我們搭建的 3D 虛擬空間里,從頭到尾實(shí)現(xiàn)電影制作的自動(dòng)化。
FilmAgent 能模仿好多劇組里的角色,像導(dǎo)演、編劇、演員、攝像師等等,涵蓋了電影制作的關(guān)鍵階段。首先是創(chuàng)意開發(fā),把大家頭腦風(fēng)暴出來的想法,整理成有條理的故事情節(jié);接著是劇本創(chuàng)作,仔細(xì)描述每個(gè)場景里角色的對話和動(dòng)作;然后是攝影環(huán)節(jié),確定每個(gè)鏡頭的攝像機(jī)該怎么擺放。Agent 團(tuán)隊(duì)通過反復(fù)地反饋和修改來合作,這樣就能驗(yàn)證中間生成的劇本,減少那些不合理、不真實(shí)內(nèi)容的出現(xiàn)。
我們針對 15 個(gè)創(chuàng)意和 4 個(gè)關(guān)鍵方面生成的視頻做了評估。經(jīng)過人工評估,F(xiàn)ilmAgent 在各個(gè)方面都比其他對比對象表現(xiàn)好,平均得分 3.98 分,這就充分說明多 Agent 協(xié)作在電影制作中是可行的。進(jìn)一步分析發(fā)現(xiàn),就算用的是相對沒那么先進(jìn)的 GPT - 4o 模型,F(xiàn)ilmAgent 的表現(xiàn)還是超過了單 Agento1,這就突出了協(xié)調(diào)得好的多 Agent 系統(tǒng)的優(yōu)勢。
論文: ??https://arxiv.org/pdf/2501.12909??
3. Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback
大語言模型(LLMs)展現(xiàn)出的性能令人贊嘆,不過在快速契合人類偏好方面存在短板,除非重新訓(xùn)練。在這篇文章里,我們提出了測試時(shí)偏好優(yōu)化(TPO)框架,這個(gè)框架能在推理過程中,讓 LLM 的輸出結(jié)果與人類偏好保持一致,也就無需更新模型參數(shù)。
和單純依賴數(shù)值獎(jiǎng)勵(lì)不同,TPO 會把獎(jiǎng)勵(lì)信號轉(zhuǎn)變?yōu)槲谋九u,然后將其當(dāng)作文本獎(jiǎng)勵(lì),一步步優(yōu)化自身的響應(yīng)。在包含指令跟隨、偏好對齊、安全性以及數(shù)學(xué)等方面的基準(zhǔn)測試中,評估結(jié)果顯示 TPO 能逐步提升與人類偏好的契合度。值得一提的是,僅經(jīng)過幾步 TPO 處理,一開始未對齊的 Llama-3.1-70B-SFT 模型,就能超越已對齊的對應(yīng)模型 Llama-3.1-70B-Instruct。而且,TPO 在推理時(shí),隨著搜索寬度和深度的增加,能高效擴(kuò)展。
通過案例研究,我們闡述了 TPO 是如何利用 LLM 自身能力來解讀和執(zhí)行獎(jiǎng)勵(lì)信號的。我們的研究成果表明,TPO 是一種實(shí)用、輕量級的測試時(shí)偏好優(yōu)化替代方案,能實(shí)現(xiàn)實(shí)時(shí)對齊。我們的代碼已在https://github.com/yafuly/TPO 上公開。
論文: ??https://arxiv.org/pdf/2501.12895??
4. VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
在這篇文章里,我們帶來了VideoLLaMA3,這是一個(gè)更厲害的多模態(tài)基礎(chǔ)模型,主要用來理解圖像和視頻。VideoLLaMA3的核心設(shè)計(jì)思路就是以視覺為中心,這里面有兩層含義:一個(gè)是視覺為中心的訓(xùn)練方式,另一個(gè)是視覺為中心的框架設(shè)計(jì)。
為什么采用視覺為中心的訓(xùn)練方式呢?是因?yàn)槲覀儼l(fā)現(xiàn)高質(zhì)量的圖像-文本數(shù)據(jù),對理解圖像和視頻特別重要。所以,我們沒去搞大規(guī)模的視頻-文本數(shù)據(jù)集,而是把心思花在構(gòu)建大規(guī)模、高質(zhì)量的圖像-文本數(shù)據(jù)集上。VideoLLaMA3的訓(xùn)練分成四個(gè)階段:
- 視覺為中心的對齊階段:這個(gè)階段主要是讓視覺編碼器和投影器先熱熱身;
- 視覺-語言預(yù)訓(xùn)練階段:一起優(yōu)化視覺編碼器、投影器和大模型(LLM),用的是大規(guī)模的圖像-文本數(shù)據(jù),像場景圖像、文檔、圖表這些都有,還有純文本數(shù)據(jù);
- 多任務(wù)微調(diào)階段:把圖像-文本SFT數(shù)據(jù)和視頻-文本數(shù)據(jù)用到下游任務(wù)里,給視頻理解打下基礎(chǔ);
- 視頻為中心的微調(diào)階段:讓模型理解視頻的能力再上一個(gè)臺階。
在框架設(shè)計(jì)方面,為了能把圖像里的小細(xì)節(jié)都抓住,我們調(diào)整了預(yù)訓(xùn)練的視覺編碼器,讓它能根據(jù)圖像大小,編碼出對應(yīng)的視覺標(biāo)記數(shù)量,而不是固定的數(shù)量。對于視頻輸入,我們會根據(jù)它們的相似程度,減少視覺標(biāo)記數(shù)量,這樣視頻的表示就更準(zhǔn)確、更簡潔了。
多虧了這種以視覺為中心的設(shè)計(jì),VideoLLaMA3在圖像和視頻理解的基準(zhǔn)測試中,取得了非常不錯(cuò)的成績。
論文: ???https://arxiv.org/pdf/2501.13106??
本文轉(zhuǎn)載自 ??AI-PaperDaily??,作者: AI-PaperDaily
