自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strike id="u6irr"></strike>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

過去兩周，六個最有可能改變AI進程的發(fā)布！

作者：言征 2024-01-29 01:26:22

本研究引入了Multi-Head高斯自適應(yīng)注意力機制（GAAM）和高斯自適應(yīng)變換器（GAT）來提高模型性能和上下文表示，特別是對于高度可變的數(shù)據(jù)。GAAM 將可學(xué)習(xí)的均值和方差納入其注意力機制中，并在多頭框架內(nèi)構(gòu)建。此設(shè)置允許 GAAM 共同表示任何概率分布，從而能夠根據(jù)需要不斷調(diào)整功能的重要性。

編譯｜言征

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

過去兩周，新的人工智能更新不斷涌現(xiàn)，異常瘋狂。我們決定整理最近發(fā)布的六大框架和模型。

1、ActAnywhere：主題感知視頻背景生成

圖片

Adobe Research和斯坦福大學(xué)推出了Act Anywhere，這是一種生成模型，解決了電影行業(yè)和視覺效果領(lǐng)域中將視頻背景與前景主體運動對齊的挑戰(zhàn)。該模型通過利用大規(guī)模視頻傳播模型來自動化典型的勞動密集型流程。

它采用一系列前景主題分割和描述所需場景的條件幀作為輸入，生成具有連貫前景-背景交互的逼真視頻。

在大規(guī)模人類場景交互視頻數(shù)據(jù)集上進行訓(xùn)練后，數(shù)據(jù)表明Act Anywhere與基線相比表現(xiàn)良好，并證明了其處理各種非分布樣本（包括非人類受試用者）的能力。

2、GALA

圖片

Meta一直試圖在 Facebook、Instagram 和 WhatsApp 等不同平臺上改進其頭像。因此，Meta 的 Codec Avatars Lab 與首爾國立大學(xué)合作推出了GALA框架，該框架可將單層穿著的 3D 人體網(wǎng)格轉(zhuǎn)換為全分層的 3D 資源，從而可以創(chuàng)建各種姿勢的多樣化服裝人體頭像。

與將穿著衣服的人類視為單層幾何體的現(xiàn)有方法不同，GALA 基于人類的發(fā)型、服裝和配飾的組合性，增強了下游應(yīng)用。由于遮擋，將網(wǎng)格分解為單獨的層具有挑戰(zhàn)性，即使分解成功，姿勢和身體形狀通常也與現(xiàn)實生活不一樣。

為了克服這個問題，研究人員使用預(yù)先訓(xùn)練的二維擴散模型作為幾何和外觀的先驗?zāi)Ｐ?。該過程包括使用來自多視圖 2D 分割的 3D 表面分割對輸入網(wǎng)格進行分割，使用新的姿勢引導(dǎo)得分蒸餾采樣 (SDS) 損失合成姿勢空間和規(guī)范空間中缺失的幾何形狀，并將相同的 SDS 損失應(yīng)用于紋理完整的外觀。這會在共享規(guī)范空間中產(chǎn)生多層 3D 資產(chǎn)，并針對姿勢和人體形狀進行標(biāo)準(zhǔn)化，從而有助于輕松組合新穎的身份和姿勢。

3、Lumiere

圖片

為了解決在合成視頻中創(chuàng)建逼真、多樣化和連貫的運動的挑戰(zhàn)，谷歌提出了Lumiere，一種文本轉(zhuǎn)視頻模型，由魏茨曼研究所、特拉維夫大學(xué)和以色列理工學(xué)院合作開發(fā)。訓(xùn)練涉及時空 U-Net 架構(gòu)，它一次性生成整個視頻持續(xù)時間，這與使用遠(yuǎn)程關(guān)鍵幀和時間超分辨率的現(xiàn)有模型不同。

通過結(jié)合空間和時間處理并利用預(yù)先訓(xùn)練的文本到圖像模型，該系統(tǒng)直接生成全幀率、低分辨率視頻。它擅長文本到視頻的任務(wù)，例如圖像到視頻和風(fēng)格化生成。該模型展示了最先進的文本到視頻結(jié)果，并且適用于圖像到視頻、視頻修復(fù)和風(fēng)格化生成等任務(wù)。

然而，它目前無法處理具有多個鏡頭或場景轉(zhuǎn)換的視頻，這些領(lǐng)域還需要進一步研究。盡管存在一些限制，該項目的重點是使用戶能夠創(chuàng)造性地、靈活地生成視覺內(nèi)容。

4、元提示（Meta-Prompting）

在另一篇有趣的研究論文中，OpenAI和斯坦福大學(xué)聯(lián)手提出了元提示，這是一種有效的腳手架技術(shù)，可以以與任務(wù)無關(guān)的方式增強語言模型 (LM) 的性能。這是通過將它們轉(zhuǎn)變?yōu)榭梢怨芾矶鄠€獨立查詢的多功能導(dǎo)體來完成的。元提示與任務(wù)無關(guān)，無需詳細(xì)說明即可簡化用戶交互。

GPT-4 的實驗顯示了元提示相對于傳統(tǒng)方法的優(yōu)越性，在 Game of 24、Checkmate-in-One、Python編程難題等任務(wù)中，元提示比標(biāo)準(zhǔn)提示提高了 17.1%，比動態(tài)提示提高了 17.3%，比多人提示（MP）提高了 15.2% 。

使用清晰的指令，元提示引導(dǎo) LM 將復(fù)雜的任務(wù)分解為更小的子任務(wù)，然后由同一 LM 的專門實例處理，每個子任務(wù)都遵循定制的指令。LM 充當(dāng)導(dǎo)體，確保順暢的通信和輸出的有效集成。它還利用批判性思維和驗證流程來完善結(jié)果。這種協(xié)作提示允許單個 LM 充當(dāng)協(xié)調(diào)者和專家小組，從而提高各種任務(wù)的性能。

5、自我獎勵語言模型

圖片

Meta 和 NYU 最近的一篇研究論文中引入了自我獎勵語言模型，該模型不依賴于源自人類偏好的獎勵模型，這種模型可能會受到人類表現(xiàn)的限制，并且在訓(xùn)練過程中無法改進。這些模型可以通過評估和訓(xùn)練其輸出來調(diào)整自身，并使用語言模型本身通過法學(xué)碩士作為法官的提示來產(chǎn)生獎勵。

該方法涉及迭代訓(xùn)練，其中模型使用法學(xué)碩士作為法官的提示將獎勵分配給自己的輸出，從而生成基于偏好的指令數(shù)據(jù)。結(jié)果表明，這種訓(xùn)練提高了模型遵循指令的能力，并改進了其跨迭代的獎勵建模。

6、高斯自適應(yīng)注意力（GAAM）is all your need！

圖片

本研究引入了Multi-Head高斯自適應(yīng)注意力機制（GAAM）和高斯自適應(yīng)變換器（GAT）來提高模型性能和上下文表示，特別是對于高度可變的數(shù)據(jù)。GAAM 將可學(xué)習(xí)的均值和方差納入其注意力機制中，并在多頭框架內(nèi)構(gòu)建。此設(shè)置允許 GAAM 共同表示任何概率分布，從而能夠根據(jù)需要不斷調(diào)整功能的重要性。

該研究還引入了重要性因子（IF）以增強模型的可解釋性。GAAM（一種新的概率注意力框架）和 GAT 的提出是為了促進跨語音、文本和視覺模式的信息編譯。它通過識別特征空間中的關(guān)鍵元素，在模型性能方面超越了最先進的注意力技術(shù)。

該論文由詹姆斯·西爾伯拉德·布朗人工智能中心、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)和亞馬遜發(fā)表。

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="cwx0y"></blockquote>