信息流場景下的AIGC實踐
一、個性化的標(biāo)題生成
個性化的標(biāo)題生成,指使用用戶內(nèi)容以及個性化的信息生成針對不同用戶或者不同應(yīng)用場景的標(biāo)題。
主要使用場景有以下三種:
- 推薦場景:在推薦系統(tǒng)中,不同用戶或群體可能對相同內(nèi)容有不同的興趣。因此,在推薦場景下,個性化標(biāo)題生成需要根據(jù)用戶的興趣和喜好為他們生成有針對性的標(biāo)題。這可以提高用戶的閱讀興趣,增加點擊率,從而提升整個推薦系統(tǒng)的效果。
- 搜索場景:在搜索引擎中,基于用戶的搜索查詢(query)生成與其相關(guān)的標(biāo)題是至關(guān)重要的。個性化標(biāo)題生成應(yīng)該能夠捕捉到用戶的搜索意圖,并將其結(jié)合文章內(nèi)容生成符合用戶需求的標(biāo)題。這樣可以幫助用戶快速找到滿足他們需求的信息,提升搜索體驗。
- 創(chuàng)作者平臺:在創(chuàng)作者平臺上,作者通常會有自己獨特的寫作風(fēng)格。個性化標(biāo)題生成需要模仿作者歷史的標(biāo)題創(chuàng)作風(fēng)格,為他們生成風(fēng)格一致的標(biāo)題。這可以幫助作者保持個人品牌形象的連貫性,同時也能讓讀者更容易識別出作者的作品。
主要面臨的問題難點:
- 場景表示:用戶興趣、搜索 query、作者風(fēng)格等等顯式或者隱式的信息如何表示?
- 交互設(shè)計:場景表示獲取之后如何和文章或者標(biāo)題交互生成個性化的標(biāo)題?
1、基于關(guān)鍵詞的標(biāo)題生成
推薦和搜索場景存在大量的關(guān)鍵詞,比如,推薦里的 tag,興趣點和畫像,搜索里的 query 等。模型使用了 Transformer 結(jié)構(gòu),包括 Encoder 和 Decoder 部分。文章嘗試了多種方法將關(guān)鍵詞信息整合到模型中,以實現(xiàn)更好的效果。最簡單的方法是通過在原有的 Multi-head Attention 層上添加一個新的關(guān)鍵詞表示層。另一種方法是先將文章表示與關(guān)鍵詞表示進行交互,關(guān)鍵詞表示作為 query,文章表示作為 key 和 value,再使用 Multi-head Attention 層生成過濾后的文章表示,最后在 Decoder 端進行處理。
實驗結(jié)果表明,在引入關(guān)鍵詞過濾的文章表示后,模型性能得到了顯著提升。通過這種方法,生成的標(biāo)題更貼合用戶興趣,進而提高推薦和搜索的準(zhǔn)確性。
2、基于歷史點擊序列的個性化標(biāo)題生成
為了生成與用戶點擊風(fēng)格更匹配的標(biāo)題,我們提出了一種結(jié)合 transformer encoder 和 LSTM decoder 的方法,并將用戶歷史點擊序列信息融入其中。以下是該方法的詳細(xì)介紹:
輸入數(shù)據(jù)與用戶表示:首先,對每個用戶的歷史點擊序列進行處理。輸入數(shù)據(jù)包括用戶瀏覽過的文章標(biāo)題或者其他相關(guān)特征。通過 user encoder 對這些歷史點擊序列進行編碼,得到一個用戶 embedding,代表用戶的點擊風(fēng)格。
模型架構(gòu):整個模型以基于自注意力機制的 transformer encoder 作為 encoder 端,用于提取輸入文章內(nèi)容的語義和結(jié)構(gòu)信息。而 decoder 端采用長短時記憶網(wǎng)絡(luò)(LSTM),它具有較強的時序建模能力,可以有效地生成流暢、連貫的標(biāo)題。
用戶風(fēng)格指導(dǎo):在標(biāo)題生成過程中,user embedding 可通過如下三種方式指導(dǎo)模型的輸出:
a. 初始化 LSTM hidden state:將 user embedding 作為 LSTM 的初始隱藏狀態(tài)(hidden state)。這意味著在生成標(biāo)題時,模型會從用戶點擊風(fēng)格的角度開始思考。這樣可以使得生成的標(biāo)題更符合用戶的興趣和口味。
b. 參與 attention distribution 計算:在解碼過程中,LSTM需要根據(jù)輸入文章內(nèi)容和當(dāng)前已生成的部分標(biāo)題來預(yù)測下一個詞。為了實現(xiàn)這個目標(biāo),引入 attention 機制可以幫助 LSTM 關(guān)注到更加重要的輸入信息。通過將 user embedding 納入 attention 分布的計算,可以讓模型在生成標(biāo)題時更關(guān)注與用戶點擊風(fēng)格相關(guān)的內(nèi)容。
c. 參加門控網(wǎng)絡(luò)計算:LSTM 中的門控網(wǎng)絡(luò)起到調(diào)節(jié)信息流動的作用。在標(biāo)題生成過程中,通過將 user embedding 與文章內(nèi)容信息相結(jié)合,參與門控網(wǎng)絡(luò)的計算,可以進一步優(yōu)化信息篩選和更新過程。這有助于生成更符合用戶風(fēng)格的標(biāo)題。
實驗效果如下:
3、基于作者風(fēng)格的標(biāo)題生成
為了生成更具吸引力、相關(guān)性和流暢性的標(biāo)題,我們采用了基于 transformer 模型的方法,并將作者的歷史標(biāo)題信息融入其中。
首先,為了構(gòu)建訓(xùn)練數(shù)據(jù)集,我們對每天發(fā)文量特別多的搬運號和發(fā)文量特別少的創(chuàng)作者進行過濾。接著,根據(jù)作者的歷史標(biāo)題,構(gòu)造一個三元組(<文章,歷史標(biāo)題,想要的標(biāo)題>)數(shù)據(jù)集。這些數(shù)據(jù)將作為輸入來訓(xùn)練 transformer 模型。
在 transformer 模型中,encoder 主要負(fù)責(zé)提取輸入文本的語義信息。然而,僅通過計算 n 個歷史標(biāo)題的 embedding 并對其進行平均,很難得到作者風(fēng)格的表征。為解決這個問題,我們引入了對比學(xué)習(xí)的方法。在 batch 內(nèi),同一作者的標(biāo)題兩兩組成正例,不同作者的標(biāo)題兩兩組成負(fù)例。這樣進行訓(xùn)練,可以使模型的表征更傾向于捕捉作者風(fēng)格,而非單純的語義信息。
實驗結(jié)果表明,引入作者風(fēng)格的標(biāo)題生成模型在 Rouge 和 BLEU 評估指標(biāo)上有所提升。與原始模型相比,新模型生成的標(biāo)題具有更高的流暢性、相關(guān)性和吸引力,同時能夠保持與作者風(fēng)格的一致性。這說明,通過利用作者歷史標(biāo)題信息,我們可以成功地生成更符合作者風(fēng)格的標(biāo)題,從而提高用戶體驗。
二、自動封面圖合成
在當(dāng)今信息爆炸的時代,封面圖作為一種視覺傳達(dá)方式,具備強烈的吸引力和可讀性。它在各種場景中都發(fā)揮著至關(guān)重要的作用,如社交媒體、網(wǎng)站、雜志等。然而,要設(shè)計出一個既能夠吸引觀眾注意力又不失實用性的封面圖,并非易事。封面圖的簡單與復(fù)雜之間需要找到一個平衡點,以確保用戶能夠快速地理解其內(nèi)容,并產(chǎn)生濃厚興趣。
過于簡單的封面圖可能導(dǎo)致用戶無法獲取足夠的信息,從而忽略了其背后的價值。而過于復(fù)雜的封面圖可能讓人覺得難以消化,使用戶在面對海量信息中迅速喪失耐心。因此,在設(shè)計封面圖時,應(yīng)該遵循“簡潔明了”的原則,通過適當(dāng)?shù)奈淖趾蛨D片組合來告訴用戶這是一篇什么樣的文章。
為了增加封面圖的吸引力和實用性,建議在封面圖中嵌入標(biāo)題、標(biāo)簽(Tag)等關(guān)鍵信息。這些關(guān)鍵信息能夠讓用戶在第一時間獲得文章的主題,從而激起他們的閱讀興趣。同時,這也有助于提高文章的專業(yè)性和可信度,讓用戶相信它是值得花時間去閱讀的。
總之,封面圖在信息傳遞和用戶吸引方面具有重要意義。設(shè)計師應(yīng)該根據(jù)目標(biāo)受眾和傳播渠道來平衡封面圖的簡單與復(fù)雜程度,精心設(shè)計出既美觀又實用的封面圖。通過在封面圖中嵌入關(guān)鍵信息,如標(biāo)題、標(biāo)簽等,可以提升用戶體驗,進而擴大文章的傳播范圍和影響力。
這里需要注意幾點:
- 封面圖不能含有臺標(biāo),水印,字幕等。
- 封面圖關(guān)鍵信息不能遮擋人臉,重要目標(biāo)等。
- 封面圖上的關(guān)鍵信息需要從標(biāo)題,標(biāo)簽,分類和關(guān)鍵詞等抽取。
首先,通過圖像修復(fù)技術(shù)去除水印、字幕等干擾元素,得到干凈的封面圖。然后,使用 Seq2Seq 模型提取標(biāo)題和標(biāo)簽中的關(guān)鍵信息。接下來,進行目標(biāo)檢測以識別人臉、物品等關(guān)鍵部位,確保在生成的封面圖上不被遮擋。最后,采用自動封面圖合成參考 Layout Generation 方法,將文本信息融合到封面圖中。其具體流程框圖如下:
為了實現(xiàn)高質(zhì)量的封面圖生成,本文介紹了一種采用先進技術(shù)的方法,包括圖像修復(fù)技術(shù)、Seq2Seq 模型、目標(biāo)檢測以及自動封面圖合成參考 Layout Generation 方法。以下是該方法的詳細(xì)步驟:
圖像修復(fù)技術(shù):圖像修復(fù)技術(shù)旨在去除水印、字幕等干擾元素,從而得到干凈的封面圖。這一過程使用 Faster R-CNN,主要有以下幾步:OCR 識別文本框的 proposals。使用 ResNet50 對輸入圖片進行特征提取,得到 F1。通過特征映射,從F1中獲取文本框的特征 F2?;?F2 進行分類,識別是否是文案、臺標(biāo)、字幕?;?inpainting 進行內(nèi)容抹除。通過這種方式,修復(fù)后的圖像能夠保留原始場景的視覺效果,同時消除不必要的元素。
使用 Seq2Seq 模型提取關(guān)鍵信息:Seq2Seq 模型是一種基于深度學(xué)習(xí)的端到端序列生成模型。在此應(yīng)用中,它被用于從標(biāo)題和標(biāo)簽中提取關(guān)鍵信息。Seq2Seq 模型由兩部分組成:編碼器和解碼器。編碼器將輸入文本轉(zhuǎn)換為一個固定大小的向量表示,然后解碼器從該表示生成輸出序列。在這個過程中,模型可以學(xué)會識別并提取與封面圖相關(guān)的關(guān)鍵信息。具體做法如下:使用帶 Pointer 的預(yù)訓(xùn)練 T5 模型作為底座模型。標(biāo)注一批數(shù)據(jù),使用視頻的標(biāo)題、分類和關(guān)鍵詞作為輸入,人工改寫的信息作為結(jié)果。預(yù)測的關(guān)鍵信息可能包含多個片段。
目標(biāo)檢測:目標(biāo)檢測技術(shù)用于識別圖像中的關(guān)鍵部位,如人臉、物品等。這些部位可能在圖像中具有顯著的視覺特征,因此它們在生成封面圖時需要特別關(guān)注。目標(biāo)檢測通常借助深度學(xué)習(xí)技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN),來實現(xiàn)對關(guān)鍵部位的精確識別。這樣,在插入文本信息時,可以確保這些關(guān)鍵部位不被遮擋。目前目標(biāo)檢測模型可以識別人臉、貓、狗、汽車等65個類別。目標(biāo)框位置使用左上和右下兩個點的坐標(biāo)表示。
自動封面圖合成參考 Layout Generation 方法:在前述準(zhǔn)備工作完成后,接下來就是將文本信息融合到封面圖中。為此,采用一種名為 Layout Generation 的方法來自動生成封面圖布局。該方法首先對輸入圖像進行分析,提取其視覺特征和結(jié)構(gòu)信息。然后,根據(jù)這些信息確定最佳的文本插入位置和樣式。最后,將從標(biāo)題和標(biāo)簽中提取到的關(guān)鍵信息插入到相應(yīng)位置,生成最終的封面圖。