自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

過去兩周,六個最有可能改變AI進程的發(fā)布!

譯文 精選
人工智能
本研究引入了Multi-Head高斯自適應(yīng)注意力機制(GAAM)和高斯自適應(yīng)變換器(GAT)來提高模型性能和上下文表示,特別是對于高度可變的數(shù)據(jù)。GAAM 將可學(xué)習(xí)的均值和方差納入其注意力機制中,并在多頭框架內(nèi)構(gòu)建。此設(shè)置允許 GAAM 共同表示任何概率分布,從而能夠根據(jù)需要不斷調(diào)整功能的重要性。

編譯 |言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

過去兩周,新的人工智能更新不斷涌現(xiàn),異常瘋狂。我們決定整理最近發(fā)布的六大框架和模型。

1、ActAnywhere:主題感知視頻背景生成

圖片圖片

Adobe Research和斯坦福大學(xué)推出了Act Anywhere,這是一種生成模型,解決了電影行業(yè)和視覺效果領(lǐng)域中將視頻背景與前景主體運動對齊的挑戰(zhàn)。該模型通過利用大規(guī)模視頻傳播模型來自動化典型的勞動密集型流程。 

它采用一系列前景主題分割和描述所需場景的條件幀作為輸入,生成具有連貫前景-背景交互的逼真視頻。 

在大規(guī)模人類場景交互視頻數(shù)據(jù)集上進行訓(xùn)練后,數(shù)據(jù)表明Act Anywhere與基線相比表現(xiàn)良好,并證明了其處理各種非分布樣本(包括非人類受試用者)的能力。

2、GALA

圖片圖片

Meta一直試圖在 Facebook、Instagram 和 WhatsApp 等不同平臺上改進其頭像。因此,Meta 的 Codec Avatars Lab 與首爾國立大學(xué)合作推出了GALA框架,該框架可將單層穿著的 3D 人體網(wǎng)格轉(zhuǎn)換為全分層的 3D 資源,從而可以創(chuàng)建各種姿勢的多樣化服裝人體頭像。 

與將穿著衣服的人類視為單層幾何體的現(xiàn)有方法不同,GALA 基于人類的發(fā)型、服裝和配飾的組合性,增強了下游應(yīng)用。由于遮擋,將網(wǎng)格分解為單獨的層具有挑戰(zhàn)性,即使分解成功,姿勢和身體形狀通常也與現(xiàn)實生活不一樣。

為了克服這個問題,研究人員使用預(yù)先訓(xùn)練的二維擴散模型作為幾何和外觀的先驗?zāi)P?。該過程包括使用來自多視圖 2D 分割的 3D 表面分割對輸入網(wǎng)格進行分割,使用新的姿勢引導(dǎo)得分蒸餾采樣 (SDS) 損失合成姿勢空間和規(guī)范空間中缺失的幾何形狀,并將相同的 SDS 損失應(yīng)用于紋理完整的外觀。這會在共享規(guī)范空間中產(chǎn)生多層 3D 資產(chǎn),并針對姿勢和人體形狀進行標(biāo)準(zhǔn)化,從而有助于輕松組合新穎的身份和姿勢。

3、Lumiere

圖片圖片

為了解決在合成視頻中創(chuàng)建逼真、多樣化和連貫的運動的挑戰(zhàn),谷歌提出了Lumiere,一種文本轉(zhuǎn)視頻模型,由魏茨曼研究所、特拉維夫大學(xué)和以色列理工學(xué)院合作開發(fā)。訓(xùn)練涉及時空 U-Net 架構(gòu),它一次性生成整個視頻持續(xù)時間,這與使用遠(yuǎn)程關(guān)鍵幀和時間超分辨率的現(xiàn)有模型不同。 

通過結(jié)合空間和時間處理并利用預(yù)先訓(xùn)練的文本到圖像模型,該系統(tǒng)直接生成全幀率、低分辨率視頻。它擅長文本到視頻的任務(wù),例如圖像到視頻和風(fēng)格化生成。該模型展示了最先進的文本到視頻結(jié)果,并且適用于圖像到視頻、視頻修復(fù)和風(fēng)格化生成等任務(wù)。 

然而,它目前無法處理具有多個鏡頭或場景轉(zhuǎn)換的視頻,這些領(lǐng)域還需要進一步研究。盡管存在一些限制,該項目的重點是使用戶能夠創(chuàng)造性地、靈活地生成視覺內(nèi)容。

4、元提示(Meta-Prompting)

圖片

在另一篇有趣的研究論文中,OpenAI和斯坦福大學(xué)聯(lián)手提出了元提示,這是一種有效的腳手架技術(shù),可以以與任務(wù)無關(guān)的方式增強語言模型 (LM) 的性能。這是通過將它們轉(zhuǎn)變?yōu)榭梢怨芾矶鄠€獨立查詢的多功能導(dǎo)體來完成的。元提示與任務(wù)無關(guān),無需詳細(xì)說明即可簡化用戶交互。

GPT-4 的實驗顯示了元提示相對于傳統(tǒng)方法的優(yōu)越性,在 Game of 24、Checkmate-in-One、Python編程難題等任務(wù)中,元提示比標(biāo)準(zhǔn)提示提高了 17.1%,比動態(tài)提示提高了 17.3%,比多人提示(MP)提高了 15.2% 。

使用清晰的指令,元提示引導(dǎo) LM 將復(fù)雜的任務(wù)分解為更小的子任務(wù),然后由同一 LM 的專門實例處理,每個子任務(wù)都遵循定制的指令。LM 充當(dāng)導(dǎo)體,確保順暢的通信和輸出的有效集成。它還利用批判性思維和驗證流程來完善結(jié)果。這種協(xié)作提示允許單個 LM 充當(dāng)協(xié)調(diào)者和專家小組,從而提高各種任務(wù)的性能。

5、自我獎勵語言模型

圖片圖片

Meta 和 NYU 最近的一篇研究論文中引入了自我獎勵語言模型,該模型不依賴于源自人類偏好的獎勵模型,這種模型可能會受到人類表現(xiàn)的限制,并且在訓(xùn)練過程中無法改進。這些模型可以通過評估和訓(xùn)練其輸出來調(diào)整自身,并使用語言模型本身通過法學(xué)碩士作為法官的提示來產(chǎn)生獎勵。

該方法涉及迭代訓(xùn)練,其中模型使用法學(xué)碩士作為法官的提示將獎勵分配給自己的輸出,從而生成基于偏好的指令數(shù)據(jù)。結(jié)果表明,這種訓(xùn)練提高了模型遵循指令的能力,并改進了其跨迭代的獎勵建模。 

6、高斯自適應(yīng)注意力(GAAM)is all your need!

圖片圖片

本研究引入了Multi-Head高斯自適應(yīng)注意力機制(GAAM)和高斯自適應(yīng)變換器(GAT)來提高模型性能和上下文表示,特別是對于高度可變的數(shù)據(jù)。GAAM 將可學(xué)習(xí)的均值和方差納入其注意力機制中,并在多頭框架內(nèi)構(gòu)建。此設(shè)置允許 GAAM 共同表示任何概率分布,從而能夠根據(jù)需要不斷調(diào)整功能的重要性。

該研究還引入了重要性因子(IF)以增強模型的可解釋性。GAAM(一種新的概率注意力框架)和 GAT 的提出是為了促進跨語音、文本和視覺模式的信息編譯。它通過識別特征空間中的關(guān)鍵元素,在模型性能方面超越了最先進的注意力技術(shù)。 

該論文由詹姆斯·西爾伯拉德·布朗人工智能中心、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)和亞馬遜發(fā)表。 

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2010-12-14 10:12:33

新版Android M

2009-04-20 08:48:25

Windows 7微軟操作系統(tǒng)

2013-08-08 14:14:16

Windows 8.1

2024-08-30 16:18:44

2024-08-05 14:42:43

2015-10-22 13:43:10

開源平臺PaaS應(yīng)用開發(fā)

2020-03-09 11:00:42

軟件技術(shù)開發(fā)

2023-12-18 16:04:37

2024-11-11 16:22:15

2014-07-07 09:29:15

Android L用戶體驗

2009-05-27 16:14:17

LinuxUbuntu體驗

2023-07-11 14:13:04

技術(shù)會談

2020-07-02 15:43:26

Kubernetes容器工作負(fù)載

2025-03-13 00:00:05

2024-11-15 11:30:58

2019-07-19 20:34:32

2021-08-16 10:12:51

人工智能AI失敗

2021-11-11 15:13:15

人工智能容器技術(shù)

2022-07-29 15:28:45

人工智能Python框架

2022-11-15 16:54:54

點贊
收藏

51CTO技術(shù)棧公眾號