自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI生圖可“量身定制”了,華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG

人工智能
個(gè)性化多模態(tài)生成技術(shù)目前處于早期探索階段,近期重量級(jí)的OpenAI與蘋果Siri合作的核心競爭力之一就是通過Siri的用戶數(shù)據(jù)來讓AI生成加入個(gè)性化,個(gè)性化多模態(tài)生成技術(shù)將成為AI的關(guān)鍵熱點(diǎn)趨勢。

蘋果OpenAI官宣合作,GPT-4o加持Siri,讓AI個(gè)性化生成賽道熱度飆升。

其實(shí),國內(nèi)已有相關(guān)研究,一項(xiàng)基于大模型的個(gè)性化多模態(tài)內(nèi)容生成技術(shù),直接可讓AI學(xué)會(huì)為用戶“量身定制”輸出。

例如在聊天軟件中生成表情包,輸入都是:

我通過了,很開心!

配備了個(gè)性化生成技術(shù)的聊天軟件可以識(shí)別當(dāng)前用戶想表達(dá)的情緒并考慮用戶的個(gè)性化偏好,自動(dòng)生成表情庫里沒有的多個(gè)笑臉貓表情候選供用戶點(diǎn)擊使用:

圖1 個(gè)性化生成能夠生成符合用戶偏好的表情包圖1 個(gè)性化生成能夠生成符合用戶偏好的表情包

相比而言,非個(gè)性化生成不會(huì)考慮每個(gè)用戶之前的行為偏好,對(duì)用戶無差別對(duì)待,就沒那么懂用戶了。

這項(xiàng)最新技術(shù)名為PMG(Personalized Multimodal Generation),由華為與清華大學(xué)聯(lián)手打造。

圖片圖片

PMG不僅限于即時(shí)通信軟件,還可以廣泛應(yīng)用于電商、在線廣告、游戲、創(chuàng)作輔助等領(lǐng)域,實(shí)現(xiàn)個(gè)性化背景、人體形態(tài)、顏色、表情、角色等內(nèi)容的生成。

比如根據(jù)用戶歷史偏好提取關(guān)鍵詞,生成T恤設(shè)計(jì)圖:

圖片圖片

PMG是如何做到個(gè)性化生成的?

PMG長啥樣?

以個(gè)性化生成《泰坦尼克號(hào)》電影海報(bào)為例,下圖展示了PMG的模型結(jié)構(gòu)。

圖2 PMG的模型結(jié)構(gòu)圖2 PMG的模型結(jié)構(gòu)

用戶的觀影和對(duì)話歷史作為用戶歷史行為,電影泰坦尼克號(hào)真實(shí)的電影海報(bào)作為目標(biāo)物品。研究團(tuán)隊(duì)利用大語言模型的推理能力,從用戶歷史行為中提取用戶偏好。

具體包括兩部分:

  • 通過凍結(jié)的大語言模型生成自然語言的顯式關(guān)鍵詞表達(dá)用戶偏好,稱為“顯式(硬)用戶偏好”,例如圖中用戶喜歡災(zāi)難、驚悚片;
  • 通過可訓(xùn)練的大語言模型生成的隱式向量,稱為“隱式(軟)用戶偏好”,用來補(bǔ)充表達(dá)難以用少數(shù)關(guān)鍵詞描述的偏好。

同時(shí),他們將目標(biāo)物品也通過大模型轉(zhuǎn)換為顯式關(guān)鍵詞(稱為“目標(biāo)物品關(guān)鍵詞”)作為目標(biāo)項(xiàng)的描述信息。

最終,生成器(例如擴(kuò)散模型或多模態(tài)大語言模型)通過整合和加權(quán)用戶偏好和目標(biāo)項(xiàng)關(guān)鍵詞來生成既反映用戶個(gè)性偏好、又符合目標(biāo)物品的多模態(tài)內(nèi)容,例子中為更具有災(zāi)難、驚悚風(fēng)格的泰坦尼克號(hào)電影海報(bào)。

整個(gè)過程中有三個(gè)關(guān)鍵技術(shù)點(diǎn):關(guān)鍵詞生成、隱式向量生成、用戶偏好和目標(biāo)項(xiàng)的平衡。

下面我們逐一來看。

關(guān)鍵詞生成

首先需要構(gòu)造提示詞指導(dǎo)大模型將用戶偏好提取為關(guān)鍵詞,該提示詞主要包含三個(gè)組成部分:任務(wù)指令p、屬性ai和任務(wù)示例e。

這些組件是針對(duì)每個(gè)場景人工設(shè)計(jì)的。

其中,任務(wù)指令p描述了需要大語言模型執(zhí)行的任務(wù),即“提取用戶偏好”。

屬性a=[a1,a2…]針對(duì)每個(gè)場景進(jìn)行了定制,例如對(duì)于服裝可以是“顏色、材質(zhì)、形狀”,對(duì)于電影可以是“類型、地區(qū)、導(dǎo)演”等等。

在每個(gè)問題中,大語言模型被指派回答與特定屬性相關(guān)的用戶偏好,并將這些答案進(jìn)行組合。

示例e提供了期望的輸出格式和示例關(guān)鍵詞(例如“可愛”、“卡通”等),不僅有助于指導(dǎo)模型的回答,還使其遵循了標(biāo)準(zhǔn)化的輸出格式,從而便于從生成的輸出中提取關(guān)鍵詞。利用這個(gè)提示,可以將模型為屬性ai生成的用戶偏好關(guān)鍵詞kpi表示為:

圖片圖片

接下來,將每個(gè)屬性的輸出組合起來,并消除重復(fù)項(xiàng),得到用戶偏好關(guān)鍵詞kp:

圖片圖片

生成目標(biāo)項(xiàng)目關(guān)鍵詞kt的過程類似,但只有一個(gè)目標(biāo)交互物品ht和相應(yīng)的總結(jié)信息xt,同時(shí)在這種情況下,沒有涉及到對(duì)話,其生成過程可以表示為:

圖片圖片

隱向量生成

利用提取出的用戶偏好關(guān)鍵詞kp和目標(biāo)項(xiàng)關(guān)鍵詞kt,已經(jīng)可以用于后續(xù)多模態(tài)內(nèi)容生成,然而,作為一種離散化形式,自然語言表達(dá)能力有限。

另一方面,利用連續(xù)的隱向量能提供更豐富和精確的表示卻需要大量的訓(xùn)練資源。因此我們采取以關(guān)鍵詞為主,隱向量為輔兩者結(jié)合的方式表征用戶偏好,這些用戶偏好向量有助于解決自然語言與實(shí)際用戶偏好之間的不匹配問題,其訓(xùn)練過程如圖3所示。

圖3 用戶偏好向量訓(xùn)練流程圖3 用戶偏好向量訓(xùn)練流程

在用戶行為與提示詞的基礎(chǔ)上,研究團(tuán)隊(duì)引入P-Tuning V2微調(diào)的偏差校正大模型,在其中使用額外長度為L的多模態(tài)表征M=[m1,m2…mL]來學(xué)習(xí)多模態(tài)生成能力。

這些多模態(tài)表征會(huì)被傳遞給大語言模型,并且它們在向量層中的對(duì)應(yīng)參數(shù)是可訓(xùn)練的。

同時(shí)按照P-Tuning V2的方法,在每個(gè)Transformer層的自注意力機(jī)制中,將S個(gè)可訓(xùn)練的前綴向量t=[t1,t2…tS]前置到向量序列中。偏差校正大模型正向傳播操作的結(jié)果輸出向量可以表示為:

圖片圖片

其中Eprompt和Em表示大語言模型的兩部分輸出,其中多模態(tài)表征的輸出Em被作為偏好隱向量用于后續(xù)多模態(tài)內(nèi)容的生成過程。生成器結(jié)合偏好隱向量、用戶關(guān)鍵詞生成的多模態(tài)內(nèi)容會(huì)與監(jiān)督信號(hào)計(jì)算MSE損失,并反向傳播到偏差校正大模型中的可訓(xùn)練參數(shù)中進(jìn)行訓(xùn)練。

用戶偏好和目標(biāo)項(xiàng)的平衡

在生成推理過程中,需要同時(shí)結(jié)合用戶偏好和目標(biāo)項(xiàng)。

然而,生成器往往具有較大的隨機(jī)性,簡單地組合可能導(dǎo)致對(duì)某一個(gè)條件的過度側(cè)重,而忽略了另一個(gè)條件。為了解決這一問題,研究團(tuán)隊(duì)使用生成內(nèi)容與偏好關(guān)鍵詞之間的相似度來衡量個(gè)性化程度,稱之為“個(gè)性化水平”。

同樣地,生成結(jié)果與目標(biāo)項(xiàng)關(guān)鍵詞的相似度稱為“準(zhǔn)確度”,即目標(biāo)契合指標(biāo)。

通過這兩個(gè)指標(biāo),可以從兩個(gè)角度量化衡量生成效果。

這兩個(gè)指標(biāo)的計(jì)算方式為利用預(yù)訓(xùn)練的多模態(tài)網(wǎng)絡(luò)(如CLIP),將生成結(jié)果M和關(guān)鍵詞kp、kt轉(zhuǎn)換為向量eM、ep、et,計(jì)算它們之間的余弦相似度,作為個(gè)性化水平dp和準(zhǔn)確度dt。

圖片圖片

最后,優(yōu)化目標(biāo)為最大化dp和dt的加權(quán)和:

圖片圖片

超參數(shù)α通常設(shè)置為0.5,可以根據(jù)使用場景和需求進(jìn)行調(diào)整,以實(shí)現(xiàn)不同程度的個(gè)性化。

考慮到當(dāng)前多模態(tài)生成器具有強(qiáng)大的并行生成能力,研究團(tuán)隊(duì)使用多個(gè)預(yù)定義的權(quán)重集合wp、wt進(jìn)行生成,并選擇得分z最高的一個(gè)作為最終生成結(jié)果。

PMG效果如何?

研究團(tuán)隊(duì)通過以下三個(gè)應(yīng)用場景來驗(yàn)證PMG:

  • 在電商應(yīng)用中以服裝圖片生成為例,根據(jù)用戶歷史點(diǎn)擊的產(chǎn)品,生成服裝的個(gè)性化圖像。研究團(tuán)隊(duì)采用了一個(gè)多模態(tài)的時(shí)尚服裝數(shù)據(jù)集POG,用于訓(xùn)練和評(píng)估。
  • 在電影海報(bào)場景,根據(jù)用戶觀影歷史,生成個(gè)性化電影海報(bào)。采用MovieLens數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)估。
  • 在表情生成應(yīng)用中,根據(jù)用戶的對(duì)話和表情使用歷史,生成個(gè)性化表情符號(hào)。

使用Llama2-7B作為基礎(chǔ)的大模型進(jìn)行了實(shí)驗(yàn),生成效果如下圖所示。

在每個(gè)場景中,PMG都能夠生成反映用戶偏好的個(gè)性化內(nèi)容。

它可以為男性和女性生成不同風(fēng)格的服裝圖片:

圖4 服裝場景生成效果圖4 服裝場景生成效果

為喜歡卡通片的觀眾生成卡通版電影海報(bào):

圖5 電影海報(bào)場景生成效果圖5 電影海報(bào)場景生成效果

為喜歡小動(dòng)物的用戶生成小貓表情包:

圖6 表情包場景生成效果圖6 表情包場景生成效果

研究人員使用POG和MovieLens數(shù)據(jù)集對(duì)服裝和電影海報(bào)這兩個(gè)場景進(jìn)行了量化評(píng)估。

評(píng)估方式是通過圖像相似度指標(biāo)LPIPS和SSIM計(jì)算生成結(jié)果與用戶交互歷史以及與目標(biāo)物品圖像之間的相似度,從而衡量其個(gè)性化程度以及與目標(biāo)物品的符合程度。

PMG在這兩個(gè)指標(biāo)上都表現(xiàn)出色,測試結(jié)果如下表:

圖片圖片

此外,研究人員展示了對(duì)偏好隱向量的Case Study分析。

當(dāng)只提供關(guān)鍵詞“鞋子,卡通”時(shí),有一定可能形生成鞋子的卡通風(fēng)格畫。然而,在加入偏好隱向量后,模型始終生成帶有卡通圖案的逼真鞋子。

如下,左圖為僅使用關(guān)鍵詞生成,右圖為同時(shí)使用關(guān)鍵詞和隱向量進(jìn)行生成。

圖7 偏好隱向量的Case Study圖7 偏好隱向量的Case Study

研究團(tuán)隊(duì)通過用戶調(diào)研對(duì)該技術(shù)進(jìn)行了評(píng)估,結(jié)果顯示,PMG生成的內(nèi)容得分遠(yuǎn)高于非個(gè)性化生成內(nèi)容。

最后,團(tuán)隊(duì)表示,個(gè)性化多模態(tài)生成技術(shù)目前處于早期探索階段,近期重量級(jí)的OpenAI與蘋果Siri合作的核心競爭力之一就是通過Siri的用戶數(shù)據(jù)來讓AI生成加入個(gè)性化,個(gè)性化多模態(tài)生成技術(shù)將成為AI的關(guān)鍵熱點(diǎn)趨勢。

我們相信這項(xiàng)技術(shù)將在未來擁有廣闊的應(yīng)用前景和巨大的商業(yè)潛力,很快迎來爆發(fā)式增長。

論文鏈接:https://arxiv.org/abs/2404.08677
代碼鏈接:https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-10-17 08:42:13

ChatGPT定制指令

2025-01-10 10:15:00

AI視覺模型

2014-12-19 10:02:33

華為智慧城市

2024-12-20 15:20:00

模型訓(xùn)練數(shù)據(jù)

2023-12-20 13:50:00

SpringBootJSON序列化

2021-12-28 07:20:44

UA網(wǎng)絡(luò)協(xié)議

2023-06-16 08:00:00

語音助手GPTWhisper

2011-05-07 16:27:04

網(wǎng)頁Web

2017-09-15 10:36:41

大數(shù)據(jù)貧困學(xué)生資助

2011-08-18 18:53:30

win7

2020-06-28 07:00:00

推薦系統(tǒng)智能商務(wù)服務(wù)平臺(tái)

2023-09-25 15:54:28

Canvas國慶

2015-03-06 10:32:49

全新信息云服務(wù)平臺(tái)漢柏歌華

2022-11-01 07:19:45

推薦系統(tǒng)非個(gè)性化

2011-01-14 13:58:23

白盒服務(wù)器

2024-03-25 07:57:10

ChatGPTPromote人工智能

2024-08-15 13:22:17

2018-09-07 18:51:24

APP算法應(yīng)用

2017-05-15 15:56:58

智能制造家居信息化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)