自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="vm6ur"></ruby>

<thead id="vm6ur"></thead>

<style id="vm6ur"></style>

<sub id="vm6ur"><p id="vm6ur"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG

發(fā)布于 2024-6-19 13:06

瀏覽

0收藏

蘋(píng)果OpenAI官宣合作，GPT-4o加持Siri，讓AI個(gè)性化生成賽道熱度飆升。

?

其實(shí)，國(guó)內(nèi)已有相關(guān)研究，一項(xiàng)基于大模型的個(gè)性化多模態(tài)內(nèi)容生成技術(shù)，直接可讓AI學(xué)會(huì)為用戶“量身定制”輸出。

例如在聊天軟件中生成表情包，輸入都是：

我通過(guò)了，很開(kāi)心！

?

配備了個(gè)性化生成技術(shù)的聊天軟件可以識(shí)別當(dāng)前用戶想表達(dá)的情緒并考慮用戶的個(gè)性化偏好，自動(dòng)生成表情庫(kù)里沒(méi)有的多個(gè)笑臉貓表情候選供用戶點(diǎn)擊使用：

△圖1 個(gè)性化生成能夠生成符合用戶偏好的表情包

相比而言，非個(gè)性化生成不會(huì)考慮每個(gè)用戶之前的行為偏好，對(duì)用戶無(wú)差別對(duì)待，就沒(méi)那么懂用戶了。

這項(xiàng)最新技術(shù)名為PMG（Personalized Multimodal Generation），由華為與清華大學(xué)聯(lián)手打造。

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG-AI.x社區(qū)

PMG不僅限于即時(shí)通信軟件，還可以廣泛應(yīng)用于電商、在線廣告、游戲、創(chuàng)作輔助等領(lǐng)域，實(shí)現(xiàn)個(gè)性化背景、人體形態(tài)、顏色、表情、角色等內(nèi)容的生成。

比如根據(jù)用戶歷史偏好提取關(guān)鍵詞，生成T恤設(shè)計(jì)圖：

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG-AI.x社區(qū)

PMG是如何做到個(gè)性化生成的？

PMG長(zhǎng)啥樣？

以個(gè)性化生成《泰坦尼克號(hào)》電影海報(bào)為例，下圖展示了PMG的模型結(jié)構(gòu)。

△圖2 PMG的模型結(jié)構(gòu)

用戶的觀影和對(duì)話歷史作為用戶歷史行為，電影泰坦尼克號(hào)真實(shí)的電影海報(bào)作為目標(biāo)物品。研究團(tuán)隊(duì)利用大語(yǔ)言模型的推理能力，從用戶歷史行為中提取用戶偏好。

具體包括兩部分：

通過(guò)凍結(jié)的大語(yǔ)言模型生成自然語(yǔ)言的顯式關(guān)鍵詞表達(dá)用戶偏好，稱為“顯式（硬）用戶偏好”，例如圖中用戶喜歡災(zāi)難、驚悚片；
通過(guò)可訓(xùn)練的大語(yǔ)言模型生成的隱式向量，稱為“隱式（軟）用戶偏好”，用來(lái)補(bǔ)充表達(dá)難以用少數(shù)關(guān)鍵詞描述的偏好。

同時(shí)，他們將目標(biāo)物品也通過(guò)大模型轉(zhuǎn)換為顯式關(guān)鍵詞（稱為“目標(biāo)物品關(guān)鍵詞”）作為目標(biāo)項(xiàng)的描述信息。

最終，生成器（例如擴(kuò)散模型或多模態(tài)大語(yǔ)言模型）通過(guò)整合和加權(quán)用戶偏好和目標(biāo)項(xiàng)關(guān)鍵詞來(lái)生成既反映用戶個(gè)性偏好、又符合目標(biāo)物品的多模態(tài)內(nèi)容，例子中為更具有災(zāi)難、驚悚風(fēng)格的泰坦尼克號(hào)電影海報(bào)。

整個(gè)過(guò)程中有三個(gè)關(guān)鍵技術(shù)點(diǎn)：關(guān)鍵詞生成、隱式向量生成、用戶偏好和目標(biāo)項(xiàng)的平衡。

下面我們逐一來(lái)看。

關(guān)鍵詞生成

首先需要構(gòu)造提示詞指導(dǎo)大模型將用戶偏好提取為關(guān)鍵詞，該提示詞主要包含三個(gè)組成部分：任務(wù)指令p、屬性a_i和任務(wù)示例e。

這些組件是針對(duì)每個(gè)場(chǎng)景人工設(shè)計(jì)的。

其中，任務(wù)指令p描述了需要大語(yǔ)言模型執(zhí)行的任務(wù)，即“提取用戶偏好”。

屬性a=[a₁,a₂…]針對(duì)每個(gè)場(chǎng)景進(jìn)行了定制，例如對(duì)于服裝可以是“顏色、材質(zhì)、形狀”，對(duì)于電影可以是“類(lèi)型、地區(qū)、導(dǎo)演”等等。

在每個(gè)問(wèn)題中，大語(yǔ)言模型被指派回答與特定屬性相關(guān)的用戶偏好，并將這些答案進(jìn)行組合。

示例e提供了期望的輸出格式和示例關(guān)鍵詞（例如“可愛(ài)”、“卡通”等），不僅有助于指導(dǎo)模型的回答，還使其遵循了標(biāo)準(zhǔn)化的輸出格式，從而便于從生成的輸出中提取關(guān)鍵詞。利用這個(gè)提示，可以將模型為屬性a_i生成的用戶偏好關(guān)鍵詞k^p_i表示為：

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG-AI.x社區(qū)

接下來(lái)，將每個(gè)屬性的輸出組合起來(lái)，并消除重復(fù)項(xiàng)，得到用戶偏好關(guān)鍵詞k^p：

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG-AI.x社區(qū)

生成目標(biāo)項(xiàng)目關(guān)鍵詞k^t的過(guò)程類(lèi)似，但只有一個(gè)目標(biāo)交互物品h^t和相應(yīng)的總結(jié)信息x^t，同時(shí)在這種情況下，沒(méi)有涉及到對(duì)話，其生成過(guò)程可以表示為：

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG-AI.x社區(qū)

隱向量生成

利用提取出的用戶偏好關(guān)鍵詞k^p和目標(biāo)項(xiàng)關(guān)鍵詞k^t，已經(jīng)可以用于后續(xù)多模態(tài)內(nèi)容生成，然而，作為一種離散化形式，自然語(yǔ)言表達(dá)能力有限。

另一方面，利用連續(xù)的隱向量能提供更豐富和精確的表示卻需要大量的訓(xùn)練資源。因此我們采取以關(guān)鍵詞為主，隱向量為輔兩者結(jié)合的方式表征用戶偏好，這些用戶偏好向量有助于解決自然語(yǔ)言與實(shí)際用戶偏好之間的不匹配問(wèn)題，其訓(xùn)練過(guò)程如圖3所示。

△圖3 用戶偏好向量訓(xùn)練流程

在用戶行為與提示詞的基礎(chǔ)上，研究團(tuán)隊(duì)引入P-Tuning V2微調(diào)的偏差校正大模型，在其中使用額外長(zhǎng)度為L(zhǎng)的多模態(tài)表征M=[m₁,m₂…m_L]來(lái)學(xué)習(xí)多模態(tài)生成能力。

這些多模態(tài)表征會(huì)被傳遞給大語(yǔ)言模型，并且它們?cè)谙蛄繉又械膶?duì)應(yīng)參數(shù)是可訓(xùn)練的。

同時(shí)按照P-Tuning V2的方法，在每個(gè)Transformer層的自注意力機(jī)制中，將S個(gè)可訓(xùn)練的前綴向量t=[t₁,t₂…t_S]前置到向量序列中。偏差校正大模型正向傳播操作的結(jié)果輸出向量可以表示為：

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG-AI.x社區(qū)

其中E_prompt和E_m表示大語(yǔ)言模型的兩部分輸出，其中多模態(tài)表征的輸出E_m被作為偏好隱向量用于后續(xù)多模態(tài)內(nèi)容的生成過(guò)程。生成器結(jié)合偏好隱向量、用戶關(guān)鍵詞生成的多模態(tài)內(nèi)容會(huì)與監(jiān)督信號(hào)計(jì)算MSE損失，并反向傳播到偏差校正大模型中的可訓(xùn)練參數(shù)中進(jìn)行訓(xùn)練。

用戶偏好和目標(biāo)項(xiàng)的平衡

在生成推理過(guò)程中，需要同時(shí)結(jié)合用戶偏好和目標(biāo)項(xiàng)。

然而，生成器往往具有較大的隨機(jī)性，簡(jiǎn)單地組合可能導(dǎo)致對(duì)某一個(gè)條件的過(guò)度側(cè)重，而忽略了另一個(gè)條件。為了解決這一問(wèn)題，研究團(tuán)隊(duì)使用生成內(nèi)容與偏好關(guān)鍵詞之間的相似度來(lái)衡量個(gè)性化程度，稱之為“個(gè)性化水平”。

同樣地，生成結(jié)果與目標(biāo)項(xiàng)關(guān)鍵詞的相似度稱為“準(zhǔn)確度”，即目標(biāo)契合指標(biāo)。

通過(guò)這兩個(gè)指標(biāo)，可以從兩個(gè)角度量化衡量生成效果。

這兩個(gè)指標(biāo)的計(jì)算方式為利用預(yù)訓(xùn)練的多模態(tài)網(wǎng)絡(luò)（如CLIP），將生成結(jié)果M和關(guān)鍵詞k^p、k^t轉(zhuǎn)換為向量e_M、e_p、e_t，計(jì)算它們之間的余弦相似度，作為個(gè)性化水平d_p和準(zhǔn)確度d_t。

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG-AI.x社區(qū)

最后，優(yōu)化目標(biāo)為最大化d_p和d_t的加權(quán)和：

AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG-AI.x社區(qū)

超參數(shù)α通常設(shè)置為0.5，可以根據(jù)使用場(chǎng)景和需求進(jìn)行調(diào)整，以實(shí)現(xiàn)不同程度的個(gè)性化。

考慮到當(dāng)前多模態(tài)生成器具有強(qiáng)大的并行生成能力，研究團(tuán)隊(duì)使用多個(gè)預(yù)定義的權(quán)重集合w_p、w_t進(jìn)行生成，并選擇得分z最高的一個(gè)作為最終生成結(jié)果。

PMG效果如何？

研究團(tuán)隊(duì)通過(guò)以下三個(gè)應(yīng)用場(chǎng)景來(lái)驗(yàn)證PMG：

在電商應(yīng)用中以服裝圖片生成為例，根據(jù)用戶歷史點(diǎn)擊的產(chǎn)品，生成服裝的個(gè)性化圖像。研究團(tuán)隊(duì)采用了一個(gè)多模態(tài)的時(shí)尚服裝數(shù)據(jù)集POG，用于訓(xùn)練和評(píng)估。
在電影海報(bào)場(chǎng)景，根據(jù)用戶觀影歷史，生成個(gè)性化電影海報(bào)。采用MovieLens數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)估。
在表情生成應(yīng)用中，根據(jù)用戶的對(duì)話和表情使用歷史，生成個(gè)性化表情符號(hào)。

使用Llama2-7B作為基礎(chǔ)的大模型進(jìn)行了實(shí)驗(yàn)，生成效果如下圖所示。

在每個(gè)場(chǎng)景中，PMG都能夠生成反映用戶偏好的個(gè)性化內(nèi)容。

它可以為男性和女性生成不同風(fēng)格的服裝圖片：

△圖4 服裝場(chǎng)景生成效果

為喜歡卡通片的觀眾生成卡通版電影海報(bào)：

△圖5 電影海報(bào)場(chǎng)景生成效果

為喜歡小動(dòng)物的用戶生成小貓表情包：

△圖6 表情包場(chǎng)景生成效果

研究人員使用POG和MovieLens數(shù)據(jù)集對(duì)服裝和電影海報(bào)這兩個(gè)場(chǎng)景進(jìn)行了量化評(píng)估。

評(píng)估方式是通過(guò)圖像相似度指標(biāo)LPIPS和SSIM計(jì)算生成結(jié)果與用戶交互歷史以及與目標(biāo)物品圖像之間的相似度，從而衡量其個(gè)性化程度以及與目標(biāo)物品的符合程度。

PMG在這兩個(gè)指標(biāo)上都表現(xiàn)出色，測(cè)試結(jié)果如下表：

此外，研究人員展示了對(duì)偏好隱向量的Case Study分析。

當(dāng)只提供關(guān)鍵詞“鞋子，卡通”時(shí)，有一定可能形生成鞋子的卡通風(fēng)格畫(huà)。然而，在加入偏好隱向量后，模型始終生成帶有卡通圖案的逼真鞋子。

如下，左圖為僅使用關(guān)鍵詞生成，右圖為同時(shí)使用關(guān)鍵詞和隱向量進(jìn)行生成。

△圖7 偏好隱向量的Case Study

研究團(tuán)隊(duì)通過(guò)用戶調(diào)研對(duì)該技術(shù)進(jìn)行了評(píng)估，結(jié)果顯示，PMG生成的內(nèi)容得分遠(yuǎn)高于非個(gè)性化生成內(nèi)容。

最后，團(tuán)隊(duì)表示，個(gè)性化多模態(tài)生成技術(shù)目前處于早期探索階段，近期重量級(jí)的OpenAI與蘋(píng)果Siri合作的核心競(jìng)爭(zhēng)力之一就是通過(guò)Siri的用戶數(shù)據(jù)來(lái)讓AI生成加入個(gè)性化，個(gè)性化多模態(tài)生成技術(shù)將成為AI的關(guān)鍵熱點(diǎn)趨勢(shì)。

我們相信這項(xiàng)技術(shù)將在未來(lái)?yè)碛袕V闊的應(yīng)用前景和巨大的商業(yè)潛力，很快迎來(lái)爆發(fā)式增長(zhǎng)。

論文鏈接：https://arxiv.org/abs/2404.08677

代碼鏈接：https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/Ysqa_XSXL7nb11q-ZOF6jA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

?ICLR 2024 | UTS提出全新聯(lián)邦推薦算法：從全面個(gè)性化過(guò)渡到加性個(gè)性化

laokugonggao ? 3527瀏覽 ? 0回復(fù)
上交、清華開(kāi)源個(gè)性化聯(lián)邦學(xué)習(xí)算法庫(kù)PFLlib

zhangyannni ? 2807瀏覽 ? 0回復(fù)
「個(gè)性化」圖像生成時(shí)代來(lái)了！六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架

duhorse ? 2934瀏覽 ? 0回復(fù)
統(tǒng)一單ID和多ID個(gè)性化框架！阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法

angel ? 2603瀏覽 ? 0回復(fù)
T2I與StlyeGAN2首次聯(lián)手！PreciseControl:單肖像生成精細(xì)個(gè)性化圖像！

angel ? 2046瀏覽 ? 0回復(fù)
T2I與StlyeGAN2首次聯(lián)手！PreciseControl:單肖像生成精細(xì)個(gè)性化圖像！

angel ? 2147瀏覽 ? 0回復(fù)
破解AI多模態(tài)理解難題：浙江大學(xué)與字節(jié)跳動(dòng)聯(lián)手推出Molecule-Space新方法

AI論文解讀 ? 2512瀏覽 ? 0回復(fù)
一文總結(jié)特征增強(qiáng)&個(gè)性化在CTR預(yù)估中的經(jīng)典方法和效果對(duì)比

海因斯DK ? 2160瀏覽 ? 0回復(fù)
突破個(gè)性化圖像生成局限！MagicTailor：組件可控個(gè)性化圖像生成創(chuàng)新框架！

angel ? 2565瀏覽 ? 0回復(fù)
大模型也要"私人定制"？最新綜述帶你解鎖AI的個(gè)性化服務(wù) | 綜述！擴(kuò)散模型：AI藝術(shù)創(chuàng)作背后的"魔法引擎"

arnoldzhw ? 3351瀏覽 ? 0回復(fù)
mR^2AG：基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗

大模型自然語(yǔ)言處理 ? 1845瀏覽 ? 0回復(fù)
Snap&卡內(nèi)基梅隆提出多主體開(kāi)集個(gè)性化視頻生成新范式Video Alchemist！

angel ? 2045瀏覽 ? 0回復(fù)
面向統(tǒng)一的單、多主體個(gè)性化文生圖框架！阿里通義發(fā)布AnyStory！

angel ? 1697瀏覽 ? 0回復(fù)
個(gè)性化大語(yǔ)言模型：PPlug——讓AI更懂你

AIGC前沿技術(shù)追蹤 ? 1736瀏覽 ? 0回復(fù)
探究PEPNet模型：多任務(wù)多領(lǐng)域推薦的個(gè)性化建模！

南夏的算法驛站 ? 1778瀏覽 ? 0回復(fù)
零階優(yōu)化的擴(kuò)散模型個(gè)性化方法；合成圖像檢測(cè)；舞蹈動(dòng)作音樂(lè)同步生成

AI研究前瞻 ? 1130瀏覽 ? 0回復(fù)
新加坡國(guó)立開(kāi)源Conceptrol：讓個(gè)性化圖像生成更懂你的文字提示

angel ? 1100瀏覽 ? 0回復(fù)
FlashFace: 具有高保真身份保存的人像個(gè)性化方法，效果超越InstantID，人臉定制化更逼真了！

AIGCStudio ? 1078瀏覽 ? 0回復(fù)
突破傳統(tǒng)“非此即彼”，真靈魂P(guān)圖！騰訊最新FlexIP黑科技：身份保持和個(gè)性化我都要！

angel ? 879瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開(kāi)辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開(kāi)源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：霉霉開(kāi)口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態(tài)也自然，復(fù)旦百度等出品｜GitHub攬星1k+

下一篇：清華推出首個(gè)通用城市時(shí)空預(yù)測(cè)模型UniST，零樣本場(chǎng)景開(kāi)箱即用｜KDD2024

社區(qū)精華內(nèi)容

目錄

<cite id="tqnxh"></cite>

<sub id="tqnxh"><p id="tqnxh"></p></sub>

<style id="tqnxh"></style>