2024年人工智能進(jìn)展:10大開創(chuàng)性研究亮點(diǎn) 精華
隨著人工智能技術(shù)的飛速發(fā)展,2024年的研究者們在多個領(lǐng)域取得了重大突破。這些研究成果不僅提高了AI的效率和性能,還擴(kuò)展了AI的應(yīng)用范圍,使其能夠更好地理解和創(chuàng)造內(nèi)容,為各行各業(yè)帶來了革命性的變化。
在本文中,我們深入研究了十篇開創(chuàng)性的研究論文,這些論文在包括大語言模型、多模態(tài)處理、視頻生成與編輯以及交互式環(huán)境創(chuàng)建等不同領(lǐng)域拓展了人工智能的前沿。這些研究由Meta、谷歌DeepMind、Stability AI、Anthropic和微軟等領(lǐng)先的研究實(shí)驗(yàn)室完成,展示了創(chuàng)新的方法,包括縮小強(qiáng)大模型以實(shí)現(xiàn)高效的設(shè)備端使用、將多模態(tài)推理擴(kuò)展到數(shù)百萬個標(biāo)記,以及在視頻和音頻合成中實(shí)現(xiàn)無與倫比的保真度。
以下是我們重點(diǎn)介紹的研究論文:
- 卡內(nèi)基梅隆大學(xué)的Albert Gu和普林斯頓大學(xué)的Tri Dao所著的《Mamba:具有選擇性狀態(tài)空間的線性時(shí)間序列建?!?/li>
- 谷歌DeepMind的《Genie:生成式交互環(huán)境》
- Stability AI的《擴(kuò)展整流流變換器以實(shí)現(xiàn)高分辨率圖像合成》
- 谷歌DeepMind的《使用AlphaFold 3準(zhǔn)確預(yù)測生物分子相互作用的結(jié)構(gòu)》
- 微軟的《Phi - 3技術(shù)報(bào)告:手機(jī)本地的高能力語言模型》
- 谷歌Gemini團(tuán)隊(duì)的《Gemini 1.5:解鎖跨數(shù)百萬上下文標(biāo)記的多模態(tài)理解》
- Anthropic的《Claude 3模型系列:Opus、Sonnet、Haiku》
- Meta的《Llama 3模型群》
- Meta的《SAM 2:圖像和視頻中的任意分割》
- Meta的《Movie Gen:一系列媒體基礎(chǔ)模型》
1. Mamba:具有選擇性狀態(tài)空間的線性時(shí)間序列建模
本文介紹了Mamba,這是一種用于序列建模的開創(chuàng)性神經(jīng)架構(gòu),旨在解決Transformers的計(jì)算效率低下問題,同時(shí)匹配或超越其建模能力。
- 主要貢獻(xiàn)
- 選擇性機(jī)制:Mamba在狀態(tài)空間模型中引入了一種新穎的選擇機(jī)制,解決了早期方法的一個重大限制——它們無法以依賴于輸入的方式有效地選擇相關(guān)數(shù)據(jù)。通過基于輸入對模型組件進(jìn)行參數(shù)化,該機(jī)制能夠過濾無關(guān)信息并無限期保留關(guān)鍵上下文,在需要內(nèi)容感知推理的任務(wù)中表現(xiàn)出色。
- 硬件感知算法:為了支持選擇性機(jī)制的計(jì)算需求,Mamba利用了一種硬件優(yōu)化算法,該算法使用掃描方法而不是卷積進(jìn)行遞歸計(jì)算。這種方法避免了與實(shí)現(xiàn)擴(kuò)展?fàn)顟B(tài)相關(guān)的低效率,顯著提高了在現(xiàn)代GPU上的性能。結(jié)果是在序列長度上實(shí)現(xiàn)了真正的線性縮放,并且在A100 GPU上的計(jì)算速度比先前的狀態(tài)空間模型快高達(dá)3倍。
- 簡化架構(gòu):Mamba通過將先前的狀態(tài)空間模型設(shè)計(jì)與受Transformer啟發(fā)的MLP塊集成到一個統(tǒng)一的同構(gòu)架構(gòu)中,簡化了深度序列建模。這種簡化的設(shè)計(jì)消除了對注意力機(jī)制和傳統(tǒng)MLP塊的需求,同時(shí)利用了選擇性狀態(tài)空間,在不同的數(shù)據(jù)模態(tài)上實(shí)現(xiàn)了效率和強(qiáng)大的性能。
- 結(jié)果
- 合成任務(wù):Mamba在諸如選擇性復(fù)制和歸納頭等合成任務(wù)中表現(xiàn)出色,展示了對大語言模型至關(guān)重要的能力。它實(shí)現(xiàn)了無限外推,成功解決了長度超過100萬個標(biāo)記的序列。
- 音頻和基因組學(xué):Mamba在音頻波形建模和DNA序列分析方面優(yōu)于諸如SaShiMi、Hyena和Transformers等最先進(jìn)的模型。它在預(yù)訓(xùn)練質(zhì)量和下游指標(biāo)方面取得了顯著改進(jìn),包括在具有挑戰(zhàn)性的語音生成任務(wù)中FID降低了50%以上。其性能隨著更長的上下文有效擴(kuò)展,支持長達(dá)100萬個標(biāo)記的序列。
- 語言建模:Mamba是第一個在預(yù)訓(xùn)練困惑度和下游評估中都達(dá)到Transformer質(zhì)量性能的線性時(shí)間序列模型。它有效地?cái)U(kuò)展到10億個參數(shù),超過了領(lǐng)先的基線模型,包括像LLaMa這樣基于Transformer的高級架構(gòu)。值得注意的是,Mamba - 3B的性能與兩倍于其大小的Transformers相匹配,提供了快5倍的生成吞吐量,并且在常識推理等任務(wù)中取得了更高的分?jǐn)?shù)。
- 鏈接:https://arxiv.org/abs/2312.00752
2. Genie:生成式交互環(huán)境
由谷歌DeepMind開發(fā)的Genie是一種開創(chuàng)性的生成式人工智能模型,旨在從無注釋的視頻數(shù)據(jù)中創(chuàng)建交互式、動作可控的環(huán)境。在超過20萬小時(shí)的公開互聯(lián)網(wǎng)游戲視頻上進(jìn)行訓(xùn)練后,Genie使用戶能夠使用文本、草圖或圖像作為提示生成身臨其境的可玩世界。其架構(gòu)集成了時(shí)空視頻標(biāo)記器、自回歸動態(tài)模型和潛在動作模型,以預(yù)測逐幀動態(tài),而無需明確的動作標(biāo)簽。Genie代表了一個具有110億參數(shù)的基礎(chǔ)世界模型,標(biāo)志著生成式人工智能在開放式、可控虛擬環(huán)境方面的重大進(jìn)步。
- 主要貢獻(xiàn)
- 潛在動作空間:Genie引入了一種完全無監(jiān)督的潛在動作機(jī)制,能夠在沒有真實(shí)動作標(biāo)簽的情況下生成幀可控環(huán)境,為智能體訓(xùn)練和模仿擴(kuò)展了可能性。
- 可擴(kuò)展的時(shí)空架構(gòu):利用高效的時(shí)空變換器,Genie在視頻生成中實(shí)現(xiàn)了線性可擴(kuò)展性,同時(shí)在擴(kuò)展交互中保持高保真度,優(yōu)于先前的視頻生成方法。
- 跨模態(tài)泛化:該模型支持各種輸入,如真實(shí)世界的照片、草圖或合成圖像,以創(chuàng)建交互式環(huán)境,展示了對分布外提示的魯棒性。
- 結(jié)果
- 交互式世界創(chuàng)建:Genie從未見提示中生成多樣化、高質(zhì)量的環(huán)境,包括創(chuàng)建游戲般的行為和理解物理動態(tài)。
- 穩(wěn)健性能:與最先進(jìn)的模型相比,它在視頻保真度和可控性指標(biāo)上表現(xiàn)出卓越的性能,在包括機(jī)器人技術(shù)在內(nèi)的不同領(lǐng)域中實(shí)現(xiàn)了一致的潛在動作。
- 智能體訓(xùn)練潛力:Genie的潛在動作空間能夠從未見視頻中進(jìn)行模仿,在強(qiáng)化學(xué)習(xí)任務(wù)中實(shí)現(xiàn)高性能,而無需注釋動作數(shù)據(jù),為訓(xùn)練通用智能體鋪平了道路。
- 鏈接:https://arxiv.org/abs/2402.15391
3. Enhanced Rectified Flow:擴(kuò)展整流流變換器以實(shí)現(xiàn)高分辨率圖像合成
Stability AI的這篇論文介紹了整流流模型和基于變換器的架構(gòu)的進(jìn)步,以改進(jìn)高分辨率文本到圖像的合成。所提出的方法將新穎的整流流訓(xùn)練技術(shù)與多模態(tài)變換器架構(gòu)相結(jié)合,在文本到圖像生成質(zhì)量方面優(yōu)于現(xiàn)有的最先進(jìn)模型。該研究強(qiáng)調(diào)可擴(kuò)展性和效率,訓(xùn)練了多達(dá)80億參數(shù)的模型,這些模型在視覺保真度和提示遵循方面表現(xiàn)出最先進(jìn)的性能。
- 主要貢獻(xiàn)
- 增強(qiáng)的整流流訓(xùn)練:引入了定制的時(shí)間步采樣策略,提高了整流流模型相對于傳統(tǒng)基于擴(kuò)散的方法的性能和穩(wěn)定性。這使得采樣更快,圖像質(zhì)量更好。
- 新穎的多模態(tài)變換器架構(gòu):設(shè)計(jì)了一種可擴(kuò)展的架構(gòu),使用獨(dú)立的權(quán)重分離文本和圖像標(biāo)記處理,實(shí)現(xiàn)雙向信息流,以改善文本到圖像的對齊和提示理解。
- 可擴(kuò)展性和分辨率處理:實(shí)現(xiàn)了諸如QK歸一化和分辨率自適應(yīng)時(shí)間步移等高效技術(shù),使模型能夠有效地?cái)U(kuò)展到更高分辨率和更大的數(shù)據(jù)集,而不會影響穩(wěn)定性或質(zhì)量。
- 結(jié)果
- 最先進(jìn)的性能:具有80億參數(shù)的最大模型在GenEval和T2I - CompBench等基準(zhǔn)測試中,在視覺質(zhì)量、提示遵循和排版生成等類別上優(yōu)于開源和專有文本到圖像模型,包括DALLE - 3。
- 提高采樣效率:表明較大的模型需要更少的采樣步驟來實(shí)現(xiàn)高質(zhì)量輸出,從而顯著節(jié)省計(jì)算成本。
- 高分辨率圖像合成:在高達(dá)1024×1024像素的分辨率下實(shí)現(xiàn)了穩(wěn)健的性能,在美學(xué)和構(gòu)圖指標(biāo)的人類評估中表現(xiàn)出色。
- 鏈接:https://arxiv.org/abs/2403.03206
4. 使用AlphaFold 3準(zhǔn)確預(yù)測生物分子相互作用的結(jié)構(gòu)
谷歌DeepMind開發(fā)的AlphaFold 3(AF3)通過引入一個統(tǒng)一的深度學(xué)習(xí)框架,顯著擴(kuò)展了其前身的能力,用于對包括蛋白質(zhì)、核酸、小分子、離子和修飾殘基在內(nèi)的各種生物分子復(fù)合物進(jìn)行高精度結(jié)構(gòu)預(yù)測。利用一種新穎的基于擴(kuò)散的架構(gòu),AF3超越了專門的工具,在蛋白質(zhì) - 配體、蛋白質(zhì) - 核酸和抗體 - 抗原相互作用預(yù)測方面達(dá)到了最先進(jìn)的準(zhǔn)確性。這使AF3成為推進(jìn)分子生物學(xué)和治療設(shè)計(jì)的多功能強(qiáng)大工具。
- 主要貢獻(xiàn)
- 多樣化相互作用的統(tǒng)一模型:AF3預(yù)測涉及蛋白質(zhì)、核酸、配體、離子和修飾殘基的復(fù)合物結(jié)構(gòu)。
- 基于擴(kuò)散的架構(gòu):在AF3中,AlphaFold 2的evoformer模塊被更簡單的pairformer模塊取代,顯著減少了對多序列比對(MSAs)的依賴。AF3使用基于擴(kuò)散的方法直接預(yù)測原始原子坐標(biāo),提高了可擴(kuò)展性和對復(fù)雜分子圖的處理能力。
- 生成式訓(xùn)練框架:新方法采用多尺度擴(kuò)散過程來學(xué)習(xí)不同層次的結(jié)構(gòu),從局部立體化學(xué)到全局構(gòu)型。它通過與AlphaFold - Multimer預(yù)測進(jìn)行交叉蒸餾來減輕無序區(qū)域的幻覺。
- 提高計(jì)算效率:作者提出了一種降低立體化學(xué)復(fù)雜性并消除鍵合模式特殊處理的方法,能夠有效地預(yù)測任意化學(xué)成分。
- 結(jié)果
- AF3在蛋白質(zhì) - 配體復(fù)合物(PoseBusters集)上表現(xiàn)出卓越的準(zhǔn)確性,優(yōu)于傳統(tǒng)對接工具。
- 與RoseTTAFold2NA和其他最先進(jìn)的模型相比,它在蛋白質(zhì) - 核酸和RNA結(jié)構(gòu)預(yù)測中實(shí)現(xiàn)了更高的精度。
- 該模型在預(yù)測抗體 - 蛋白質(zhì)界面方面有了實(shí)質(zhì)性改進(jìn),與AlphaFold - Multimer v2.3相比有顯著增強(qiáng)。
- 鏈接:https://www.nature.com/articles/s41586-024-07487-w
5. Phi - 3技術(shù)報(bào)告:手機(jī)本地的高能力語言模型
微軟研究團(tuán)隊(duì)通過Phi - 3實(shí)現(xiàn)了一項(xiàng)開創(chuàng)性進(jìn)展:一個強(qiáng)大的語言模型足夠緊湊,可以在現(xiàn)代智能手機(jī)上原生運(yùn)行,同時(shí)保持與GPT - 3.5等大得多的模型相當(dāng)?shù)哪芰Α_@一突破是通過優(yōu)化訓(xùn)練數(shù)據(jù)集而不是擴(kuò)大模型大小來實(shí)現(xiàn)的,從而產(chǎn)生了一個高效的模型,平衡了性能和部署的實(shí)用性。
- 主要貢獻(xiàn)
- 緊湊高效的架構(gòu):Phi - 3 - mini是一個38億參數(shù)的模型,在3.3萬億個標(biāo)記上進(jìn)行訓(xùn)練,能夠在像iPhone 14這樣的設(shè)備上完全離線運(yùn)行,每秒生成超過12個標(biāo)記。
- 創(chuàng)新的訓(xùn)練方法:專注于“數(shù)據(jù)最優(yōu)制度”,團(tuán)隊(duì)精心策劃高質(zhì)量的網(wǎng)絡(luò)和合成數(shù)據(jù),以增強(qiáng)推理和語言理解。由于篩選數(shù)據(jù)注重質(zhì)量而非數(shù)量,該模型在邏輯推理和小眾技能方面有了顯著改進(jìn),偏離了傳統(tǒng)的縮放定律。
- 長上下文:所提出的方法采用LongRope方法將上下文長度擴(kuò)展到128K個標(biāo)記,在RULER和RepoQA等長上下文基準(zhǔn)測試中取得了良好結(jié)果。
- 結(jié)果
- 基準(zhǔn)性能:Phi - 3 - mini在MMLU上達(dá)到69%,在MT - Bench上達(dá)到8.38,與GPT - 3.5相當(dāng),而規(guī)模小一個數(shù)量級。Phi - 3 - small(70億)和Phi - 3 - medium(140億)優(yōu)于其他開源模型,在MMLU上分別得分75%和78%。
- 實(shí)際應(yīng)用可行性:Phi - 3 - mini成功地在移動設(shè)備上直接運(yùn)行高質(zhì)量的語言處理任務(wù),為可訪問的設(shè)備端人工智能鋪平了道路。
- 跨模型的可擴(kuò)展性:較大的變體(Phi - 3.5 - MoE和Phi - 3.5 - Vision)將能力擴(kuò)展到多模態(tài)和基于專家的應(yīng)用中,在語言推理、多模態(tài)輸入和視覺理解任務(wù)中表現(xiàn)出色。這些模型實(shí)現(xiàn)了顯著的多語言能力,特別是在阿拉伯語、漢語和俄語等語言中。
- 鏈接:https://arxiv.org/abs/2404.14219
6. Gemini 1.5:解鎖跨數(shù)百萬上下文標(biāo)記的多模態(tài)理解
在本文中,谷歌Gemini團(tuán)隊(duì)介紹了Gemini 1.5,這是一系列多模態(tài)語言模型,顯著擴(kuò)展了長上下文理解和多模態(tài)推理的邊界。這些模型,Gemini 1.5 Pro和Gemini 1.5 Flash,在處理多模態(tài)數(shù)據(jù)方面取得了前所未有的性能,能夠在多達(dá)1000萬個標(biāo)記(包括文本、視頻和音頻)上進(jìn)行回憶和推理?;贕emini 1.0系列,Gemini 1.5在稀疏和密集縮放、訓(xùn)練效率和服務(wù)基礎(chǔ)設(shè)施方面進(jìn)行了創(chuàng)新,實(shí)現(xiàn)了能力的代際飛躍。
- 主要貢獻(xiàn)
- 長上下文理解:Gemini 1.5模型支持高達(dá)1000萬個標(biāo)記的上下文窗口,能夠處理整個長文檔、數(shù)小時(shí)的視頻和數(shù)天的音頻,具有近乎完美的回憶(>99%的檢索率)。
- 多模態(tài)能力:這些模型原生集成文本、視覺和音頻輸入,允許在混合模態(tài)輸入上進(jìn)行無縫推理,用于視頻問答、音頻轉(zhuǎn)錄和文檔分析等任務(wù)。
- 高效架構(gòu):Gemini 1.5 Pro具有稀疏混合專家(MoE)Transformer架構(gòu),在減少訓(xùn)練計(jì)算和服務(wù)延遲的同時(shí)實(shí)現(xiàn)卓越性能。Gemini 1.5 Flash針對效率和延遲進(jìn)行了優(yōu)化,在緊湊且更快服務(wù)的配置中提供高性能。
- 創(chuàng)新應(yīng)用:這些模型在諸如學(xué)習(xí)新語言和使用最少上下文數(shù)據(jù)進(jìn)行翻譯等新穎任務(wù)中表現(xiàn)出色,包括像Kalamang這樣的瀕危語言。
- 結(jié)果
- 基準(zhǔn)性能:Gemini 1.5模型在推理、多語言性和多模態(tài)基準(zhǔn)測試中超過了Gemini 1.0和其他競爭對手。它們在現(xiàn)實(shí)世界和合成評估中始終比GPT - 4 Turbo和Claude 3取得更好的分?jǐn)?shù),包括在多達(dá)1000萬個標(biāo)記的“大海撈針”任務(wù)中近乎完美的檢索。
- 實(shí)際影響:評估表明,Gemini 1.5模型可以在專業(yè)用例中將任務(wù)完成時(shí)間減少26% - 75%,突出了其在生產(chǎn)力工具中的實(shí)用性。
- 可擴(kuò)展性和泛化性:這些模型在不同規(guī)模下保持性能,Gemini 1.5 Pro在高資源環(huán)境中表現(xiàn)出色,Gemini 1.5 Flash在低延遲、資源受限的環(huán)境中提供強(qiáng)大結(jié)果。
- 鏈接:https://arxiv.org/abs/2403.05530
7. Claude 3模型系列:Opus、Sonnet、Haiku
Anthropic推出了Claude 3,這是一個開創(chuàng)性的多模態(tài)模型系列,推動了語言和視覺能力的邊界,在廣泛的任務(wù)中提供了最先進(jìn)的性能。Claude 3系列包括三個模型——Claude 3 Opus(最強(qiáng)大)、Claude 3 Sonnet(在能力和速度之間平衡)和Claude 3 Haiku(針對效率和成本優(yōu)化),將先進(jìn)的推理、編碼、多語言理解和視覺分析集成到一個統(tǒng)一的框架中。
- 主要貢獻(xiàn)
- 統(tǒng)一的多模態(tài)處理:該研究引入了文本和視覺輸入(如圖像、圖表和視頻)的無縫集成,擴(kuò)展了模型在無需特定任務(wù)微調(diào)的情況下執(zhí)行復(fù)雜多模態(tài)推理和分析的能力。
- 長上下文模型設(shè)計(jì):Claude 3 Haiku模型通過優(yōu)化內(nèi)存管理和檢索技術(shù),有可能支持高達(dá)100萬個標(biāo)記的上下文長度(初始生產(chǎn)版本支持高達(dá)20萬個標(biāo)記),從而能夠以前所未有的規(guī)模進(jìn)行詳細(xì)的跨文檔分析和檢索。所提出的方法將密集縮放與內(nèi)存高效架構(gòu)相結(jié)合,以確保即使在擴(kuò)展輸入上也能實(shí)現(xiàn)高召回率和推理性能。
- Constitutional AI進(jìn)展:該研究進(jìn)一步基于Anthropic的Constitutional AI框架,納入了更廣泛的倫理原則,包括對殘疾人的包容性。對齊策略在有用性和安全性之間實(shí)現(xiàn)了更好的平衡,降低了對良性提示的拒絕率,同時(shí)保持對有害或誤導(dǎo)性內(nèi)容的強(qiáng)大防范。
- 增強(qiáng)的多語言性:該研究論文提出了用于多語言任務(wù)的新訓(xùn)練范式,專注于跨語言一致性和推理。
- 增強(qiáng)的編碼能力:開發(fā)了用于編程相關(guān)任務(wù)的先進(jìn)技術(shù),以提高對結(jié)構(gòu)化數(shù)據(jù)格式的理解和生成。
- 結(jié)果
- 基準(zhǔn)性能:Claude 3 Opus在MMLU(5次CoT上88.2%)和GPQA中取得了最先進(jìn)的結(jié)果,展示了卓越的推理能力。Claude模型在編碼基準(zhǔn)測試(包括HumanEval和MBPP)中也創(chuàng)下了新紀(jì)錄,顯著超過了前身和競爭模型。
- 多模態(tài)卓越性:Claude模型在視覺推理任務(wù)(如AI2D科學(xué)圖表解釋88.3%)和文檔理解中也表現(xiàn)出色,展示了對各種多模態(tài)輸入的魯棒性。
- 長上下文回憶:Claude 3 Opus在“大海撈針”評估中實(shí)現(xiàn)了近乎完美的回憶(99.4%),展示了其精確處理大規(guī)模數(shù)據(jù)集的能力。
- 鏈接:https://www-cdn.anthropic.com/f2986af8d052f26236f6251da62d16172cfabd6e/claude-3-model-card.pdf
8. Llama 3模型群
Meta的Llama 3引入了一系列新的基礎(chǔ)模型,旨在支持多語言、多模態(tài)和長上下文處理,在性能和可擴(kuò)展性方面有顯著增強(qiáng)。旗艦?zāi)P褪且粋€4050億參數(shù)的密集Transformer,展示出與GPT - 4等最先進(jìn)模型相當(dāng)?shù)母偁幠芰Γ瑫r(shí)在效率、安全性和可擴(kuò)展性方面有所改進(jìn)。
- 主要貢獻(xiàn)
- 可擴(kuò)展的多語言和多模態(tài)設(shè)計(jì):在15萬億個標(biāo)記上進(jìn)行多語言和多模態(tài)訓(xùn)練,Llama 3支持高達(dá)128K標(biāo)記的上下文,并通過組合方法集成圖像、視頻和語音輸入。這些模型提供強(qiáng)大的多語言能力,通過擴(kuò)展標(biāo)記詞匯表增強(qiáng)了對低資源語言的支持。
- 先進(jìn)的長上下文處理:研究團(tuán)隊(duì)實(shí)施了分組查詢注意力(GQA)和優(yōu)化的位置嵌入,能夠有效處理高達(dá)128K標(biāo)記的上下文。漸進(jìn)式上下文縮放確保了長文檔分析和檢索的穩(wěn)定性和高召回率。
- 簡化但有效的架構(gòu):這些模型采用標(biāo)準(zhǔn)的密集Transformer設(shè)計(jì),并進(jìn)行了有針對性的優(yōu)化,如分組查詢注意力和增強(qiáng)的RoPE嵌入,避免了混合專家(MoE)模型的復(fù)雜性以確保訓(xùn)練穩(wěn)定性。
- 增強(qiáng)的數(shù)據(jù)管理和訓(xùn)練方法:研究人員采用了先進(jìn)的預(yù)處理管道和質(zhì)量過濾,利用基于模型的分類器確保高質(zhì)量、多樣化的數(shù)據(jù)輸入。
- 針對實(shí)際應(yīng)用的訓(xùn)練后優(yōu)化:訓(xùn)練后策略整合了有監(jiān)督微調(diào)、直接偏好優(yōu)化、拒絕采樣和來自人類反饋的強(qiáng)化學(xué)習(xí),以提高對齊性、指令遵循性和事實(shí)性。
- 結(jié)果
- 基準(zhǔn)性能:Llama 3在MMLU、HumanEval和GPQA等基準(zhǔn)測試中取得了接近最先進(jìn)的結(jié)果,在一般和專業(yè)任務(wù)中都具有競爭力的準(zhǔn)確性。它還在多語言推理任務(wù)中表現(xiàn)出色,在MGSM和GSM8K等基準(zhǔn)測試中超過了先前的模型。
- 多模態(tài)和長上下文成就:這些模型展示了出色的多模態(tài)推理能力,包括圖像和語音集成,初步實(shí)驗(yàn)在視覺和語音任務(wù)中顯示出有競爭力的結(jié)果。此外,Llama 3 405B模型在128K標(biāo)記上下文的“大海撈針”檢索任務(wù)中以近乎完美的準(zhǔn)確性進(jìn)行處理。
- 實(shí)際應(yīng)用可行性:Llama 3的多語言和長上下文能力使其非常適合用于研究、法律分析和多語言通信等應(yīng)用,而其多模態(tài)擴(kuò)展則擴(kuò)大了其在視覺和音頻任務(wù)中的實(shí)用性。
- 鏈接:https://arxiv.org/abs/2407.21783
9. SAM 2:圖像和視頻中的任意分割
Meta的Segment Anything Model 2(SAM 2)將其前身SAM的能力擴(kuò)展到視頻領(lǐng)域,為圖像和視頻中的可提示分割提供了一個統(tǒng)一的框架。憑借新穎的數(shù)據(jù)引擎、流式內(nèi)存架構(gòu)和迄今為止最大的視頻分割數(shù)據(jù)集,SAM 2為各種應(yīng)用重新定義了交互式和自動分割的格局。
- 主要貢獻(xiàn)
- 統(tǒng)一的圖像和視頻分割:SAM 2引入了可提示視覺分割(PVS),通過在幀間利用點(diǎn)、框或掩碼提示將SAM的圖像分割推廣到視頻。該模型預(yù)測“掩碼片”,即跟蹤視頻中對象的時(shí)空掩碼。
- 流式內(nèi)存架構(gòu):配備內(nèi)存注意力模塊,SAM 2存儲并引用先前幀的預(yù)測,以在幀間保持對象上下文,提高分割的準(zhǔn)確性和效率。流式設(shè)計(jì)逐幀實(shí)時(shí)處理視頻,將SAM架構(gòu)推廣到支持時(shí)間分割任務(wù)。
- 最大的視頻分割數(shù)據(jù)集(SA - V):SAM 2的數(shù)據(jù)引擎能夠創(chuàng)建SA - V數(shù)據(jù)集,該數(shù)據(jù)集包含50,900個視頻中的超過3500萬個掩碼,比以前的數(shù)據(jù)集大53倍。這個數(shù)據(jù)集包括對整個對象和部分的多樣化注釋,顯著增強(qiáng)了模型的魯棒性和泛化能力。
- 結(jié)果
- 性能改進(jìn):SAM 2在視頻分割方面取得了最先進(jìn)的結(jié)果,在17個視頻數(shù)據(jù)集和37個圖像分割數(shù)據(jù)集上比SAM表現(xiàn)更優(yōu)。它在零樣本視頻分割中也優(yōu)于XMem++和Cutie等基線模型,需要更少的交互并實(shí)現(xiàn)更高的準(zhǔn)確性。
- 速度和可擴(kuò)展性:新模型在圖像分割任務(wù)上的處理速度比SAM快6倍,同時(shí)保持高準(zhǔn)確性。
- 公平性和魯棒性:SA - V數(shù)據(jù)集包括地理上多樣化的視頻,并且在不同年齡和感知性別群體中表現(xiàn)出最小的性能差異,提高了預(yù)測的公平性。
- 鏈接:https://arxiv.org/abs/2408.00714
10. Movie Gen:一系列媒體基礎(chǔ)模型
Meta的Movie Gen引入了一套全面的基礎(chǔ)模型,能夠生成帶有同步音頻的高質(zhì)量視頻,支持視頻編輯、個性化和音頻合成等各種任務(wù)。這些模型利用大規(guī)模訓(xùn)練數(shù)據(jù)和創(chuàng)新架構(gòu),在多個媒體生成基準(zhǔn)測試中取得了最先進(jìn)的性能。
- 主要貢獻(xiàn)
- 統(tǒng)一的媒體生成:一個300億參數(shù)的Movie Gen Video模型聯(lián)合訓(xùn)練用于文本到圖像和文本到視頻生成,能夠生成長達(dá)16秒、各種縱橫比和分辨率的高清視頻。一個130億參數(shù)的Movie Gen Audio模型從視頻或文本提示生成同步的48kHz電影音效和音樂,無縫融合劇情內(nèi)和劇情外聲音。
- 視頻個性化:引入的Personalized Movie Gen Video能夠根據(jù)文本提示和人物圖像生成視頻,在與提示對齊的同時(shí)保持身份一致性。
- 指令引導(dǎo)的視頻編輯:作者還引入了Movie Gen Edit模型,用于使用文本指令進(jìn)行精確的視頻編輯。
- 技術(shù)創(chuàng)新:研究團(tuán)隊(duì)開發(fā)了一種時(shí)間自動編碼器用于時(shí)空壓縮,通過減少計(jì)算需求實(shí)現(xiàn)高效生成長而高分辨率的視頻。他們將流匹配作為訓(xùn)練目標(biāo)實(shí)施,在視頻生成中提供了改進(jìn)的穩(wěn)定性和質(zhì)量,同時(shí)優(yōu)于傳統(tǒng)的基于擴(kuò)散的方法。此外,研究人員引入了一種空間上采樣模型,旨在高效生成1080p高清視頻,進(jìn)一步推進(jìn)了模型的可擴(kuò)展性和性能。
- 大型精選數(shù)據(jù)集:Meta團(tuán)隊(duì)還展示了一個包含超過1億個視頻 - 文本對和10億個圖像 - 文本對的精選數(shù)據(jù)集,以及用于評估的專門基準(zhǔn)(Movie Gen Video Bench和Movie Gen Audio Bench)。
- 結(jié)果
- 最先進(jìn)的性能:Movie Gen在文本到視頻和視頻編輯任務(wù)中優(yōu)于Runway Gen3和OpenAI Sora等領(lǐng)先模型,為質(zhì)量和保真度設(shè)定了新標(biāo)準(zhǔn)。它在音效和音樂合成方面也比PikaLabs和ElevenLabs實(shí)現(xiàn)了更優(yōu)越的音頻生成性能。
- 多樣化能力:引入的模型生成視覺上一致、高質(zhì)量的視頻,捕捉復(fù)雜的動作、逼真的物理效果和同步音頻。它在視頻個性化方面表現(xiàn)出色,根據(jù)用戶的參考圖像和提示創(chuàng)建視頻。
- 鏈接:https://ai.meta.com/research/publications/movie-gen-a-cast-of-media-foundation-models/
總結(jié)思考
本文所探討的研究論文突出了人工智能在不同領(lǐng)域取得的顯著進(jìn)展。從緊湊的設(shè)備端語言模型到前沿的多模態(tài)系統(tǒng)和超逼真的視頻生成,這些作品展示了正在重新定義人工智能所能實(shí)現(xiàn)的創(chuàng)新解決方案。隨著人工智能的邊界不斷擴(kuò)展,這些進(jìn)展為更智能、更通用和更易訪問的人工智能系統(tǒng)的未來鋪平了道路,有望在各個行業(yè)和學(xué)科中帶來變革性的可能性。
