編譯 |言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
過去兩周,新的人工智能更新不斷涌現(xiàn),異常瘋狂。我們決定整理最近發(fā)布的六大框架和模型。
1、ActAnywhere:主題感知視頻背景生成
圖片
Adobe Research和斯坦福大學(xué)推出了Act Anywhere,這是一種生成模型,解決了電影行業(yè)和視覺效果領(lǐng)域中將視頻背景與前景主體運動對齊的挑戰(zhàn)。該模型通過利用大規(guī)模視頻傳播模型來自動化典型的勞動密集型流程。
它采用一系列前景主題分割和描述所需場景的條件幀作為輸入,生成具有連貫前景-背景交互的逼真視頻。
在大規(guī)模人類場景交互視頻數(shù)據(jù)集上進行訓(xùn)練后,數(shù)據(jù)表明Act Anywhere與基線相比表現(xiàn)良好,并證明了其處理各種非分布樣本(包括非人類受試用者)的能力。
2、GALA
圖片
Meta一直試圖在 Facebook、Instagram 和 WhatsApp 等不同平臺上改進其頭像。因此,Meta 的 Codec Avatars Lab 與首爾國立大學(xué)合作推出了GALA框架,該框架可將單層穿著的 3D 人體網(wǎng)格轉(zhuǎn)換為全分層的 3D 資源,從而可以創(chuàng)建各種姿勢的多樣化服裝人體頭像。
與將穿著衣服的人類視為單層幾何體的現(xiàn)有方法不同,GALA 基于人類的發(fā)型、服裝和配飾的組合性,增強了下游應(yīng)用。由于遮擋,將網(wǎng)格分解為單獨的層具有挑戰(zhàn)性,即使分解成功,姿勢和身體形狀通常也與現(xiàn)實生活不一樣。
為了克服這個問題,研究人員使用預(yù)先訓(xùn)練的二維擴散模型作為幾何和外觀的先驗?zāi)P?。該過程包括使用來自多視圖 2D 分割的 3D 表面分割對輸入網(wǎng)格進行分割,使用新的姿勢引導(dǎo)得分蒸餾采樣 (SDS) 損失合成姿勢空間和規(guī)范空間中缺失的幾何形狀,并將相同的 SDS 損失應(yīng)用于紋理完整的外觀。這會在共享規(guī)范空間中產(chǎn)生多層 3D 資產(chǎn),并針對姿勢和人體形狀進行標(biāo)準(zhǔn)化,從而有助于輕松組合新穎的身份和姿勢。
3、Lumiere
圖片
為了解決在合成視頻中創(chuàng)建逼真、多樣化和連貫的運動的挑戰(zhàn),谷歌提出了Lumiere,一種文本轉(zhuǎn)視頻模型,由魏茨曼研究所、特拉維夫大學(xué)和以色列理工學(xué)院合作開發(fā)。訓(xùn)練涉及時空 U-Net 架構(gòu),它一次性生成整個視頻持續(xù)時間,這與使用遠(yuǎn)程關(guān)鍵幀和時間超分辨率的現(xiàn)有模型不同。
通過結(jié)合空間和時間處理并利用預(yù)先訓(xùn)練的文本到圖像模型,該系統(tǒng)直接生成全幀率、低分辨率視頻。它擅長文本到視頻的任務(wù),例如圖像到視頻和風(fēng)格化生成。該模型展示了最先進的文本到視頻結(jié)果,并且適用于圖像到視頻、視頻修復(fù)和風(fēng)格化生成等任務(wù)。
然而,它目前無法處理具有多個鏡頭或場景轉(zhuǎn)換的視頻,這些領(lǐng)域還需要進一步研究。盡管存在一些限制,該項目的重點是使用戶能夠創(chuàng)造性地、靈活地生成視覺內(nèi)容。
4、元提示(Meta-Prompting)
在另一篇有趣的研究論文中,OpenAI和斯坦福大學(xué)聯(lián)手提出了元提示,這是一種有效的腳手架技術(shù),可以以與任務(wù)無關(guān)的方式增強語言模型 (LM) 的性能。這是通過將它們轉(zhuǎn)變?yōu)榭梢怨芾矶鄠€獨立查詢的多功能導(dǎo)體來完成的。元提示與任務(wù)無關(guān),無需詳細(xì)說明即可簡化用戶交互。
GPT-4 的實驗顯示了元提示相對于傳統(tǒng)方法的優(yōu)越性,在 Game of 24、Checkmate-in-One、Python編程難題等任務(wù)中,元提示比標(biāo)準(zhǔn)提示提高了 17.1%,比動態(tài)提示提高了 17.3%,比多人提示(MP)提高了 15.2% 。
使用清晰的指令,元提示引導(dǎo) LM 將復(fù)雜的任務(wù)分解為更小的子任務(wù),然后由同一 LM 的專門實例處理,每個子任務(wù)都遵循定制的指令。LM 充當(dāng)導(dǎo)體,確保順暢的通信和輸出的有效集成。它還利用批判性思維和驗證流程來完善結(jié)果。這種協(xié)作提示允許單個 LM 充當(dāng)協(xié)調(diào)者和專家小組,從而提高各種任務(wù)的性能。
5、自我獎勵語言模型
圖片
Meta 和 NYU 最近的一篇研究論文中引入了自我獎勵語言模型,該模型不依賴于源自人類偏好的獎勵模型,這種模型可能會受到人類表現(xiàn)的限制,并且在訓(xùn)練過程中無法改進。這些模型可以通過評估和訓(xùn)練其輸出來調(diào)整自身,并使用語言模型本身通過法學(xué)碩士作為法官的提示來產(chǎn)生獎勵。
該方法涉及迭代訓(xùn)練,其中模型使用法學(xué)碩士作為法官的提示將獎勵分配給自己的輸出,從而生成基于偏好的指令數(shù)據(jù)。結(jié)果表明,這種訓(xùn)練提高了模型遵循指令的能力,并改進了其跨迭代的獎勵建模。
6、高斯自適應(yīng)注意力(GAAM)is all your need!
圖片
本研究引入了Multi-Head高斯自適應(yīng)注意力機制(GAAM)和高斯自適應(yīng)變換器(GAT)來提高模型性能和上下文表示,特別是對于高度可變的數(shù)據(jù)。GAAM 將可學(xué)習(xí)的均值和方差納入其注意力機制中,并在多頭框架內(nèi)構(gòu)建。此設(shè)置允許 GAAM 共同表示任何概率分布,從而能夠根據(jù)需要不斷調(diào)整功能的重要性。
該研究還引入了重要性因子(IF)以增強模型的可解釋性。GAAM(一種新的概率注意力框架)和 GAT 的提出是為了促進跨語音、文本和視覺模式的信息編譯。它通過識別特征空間中的關(guān)鍵元素,在模型性能方面超越了最先進的注意力技術(shù)。
該論文由詹姆斯·西爾伯拉德·布朗人工智能中心、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)和亞馬遜發(fā)表。