一種利用用戶搜索日志進(jìn)行多任務(wù)學(xué)習(xí)的商品標(biāo)題壓縮方法
原創(chuàng)摘要
在淘寶、天貓等電商平臺,商家為了搜索引擎優(yōu)化(SEO),撰寫的商品標(biāo)題通常比較冗余,尤其是在APP端等展示空間有限的場景下,過長的商品標(biāo)題往往不能完全顯示,只能進(jìn)行截斷處理,嚴(yán)重影響用戶體驗。如何將原始商品標(biāo)題壓縮到限定長度內(nèi),而不影響整體成交是一個***挑戰(zhàn)的任務(wù)。以往的標(biāo)題摘要方法往往需要大量的人工預(yù)處理,成本較高,并且未考慮電商場景下對點擊率、轉(zhuǎn)化率等指標(biāo)的特殊需求。
基于此,我們提出一種利用用戶搜索日志進(jìn)行多任務(wù)學(xué)習(xí)的商品標(biāo)題壓縮方法。該方法同時進(jìn)行兩個Sequence-to-Sequence學(xué)習(xí)任務(wù):主任務(wù)基于Pointer Network模型實現(xiàn)從原始標(biāo)題到短標(biāo)題的抽取式摘要生成,輔任務(wù)基于帶有注意力機(jī)制的encoder-decoder模型實現(xiàn)從原始標(biāo)題生成對應(yīng)商品的用戶搜索query。
兩個任務(wù)之間共享編碼網(wǎng)絡(luò)參數(shù),并對兩者的對原始標(biāo)題的注意力分布進(jìn)行聯(lián)合優(yōu)化,使得兩個任務(wù)對于原始標(biāo)題中重要信息的關(guān)注盡可能一致。離線人工評測和在線實驗證明通過多任務(wù)學(xué)習(xí)方法生成的商品短標(biāo)題既保留了原始商品標(biāo)題中的核心信息又能透出用戶搜索query信息,保證成交轉(zhuǎn)化不受影響。
研究背景
商品標(biāo)題是賣家和買家在電商平臺溝通的重要媒介,用戶在搜索入口輸入Query檢索,在搜索結(jié)果頁(SRP)瀏覽商品列表,選擇目標(biāo)商品,最終完成購買。在整條購物成交鏈路中,商品標(biāo)題、商品描述、商品圖片等各種信息共同影響著用戶的購買決策,信息量豐富而不冗長的標(biāo)題能大大提升終端用戶體驗。
根據(jù)第 40 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截止2017年6月,我國手機(jī)網(wǎng)民規(guī)模已經(jīng)達(dá)到 7.24 億,網(wǎng)民使用手機(jī)上網(wǎng)的比例由 2016 年底的 95.1% 提升至 96.3%。越來越多的在線購買行為已經(jīng)從PC端轉(zhuǎn)移到無線端 (APP),并且兩者之間的差距還在進(jìn)一步擴(kuò)大,因此各大電商平臺的資源也在往各自APP端傾斜。PC和APP最明顯的區(qū)別在于顯示屏幕尺寸,通常智能手機(jī)顯示屏在 4.5 到 5.5 寸之間,遠(yuǎn)小于PC的屏幕尺寸,對算法和產(chǎn)品設(shè)計都有新的要求。
當(dāng)前淘系商品標(biāo)題主要由商家負(fù)責(zé)撰寫,為了提高搜索召回和促進(jìn)成交,商家往往會在標(biāo)題中堆砌大量冗余詞,當(dāng)用戶在手機(jī)端進(jìn)行瀏覽的時候,過長的商品標(biāo)題由于屏幕尺寸限制顯示不全,只能做截斷處理,嚴(yán)重影響用戶體驗。
如圖1所示,在SRP頁,商品原始標(biāo)題顯示不完整,只能顯示14個字左右的短標(biāo)題,用戶如果想獲取完整標(biāo)題,還需要進(jìn)一步點擊進(jìn)入商品詳情頁,商品原始標(biāo)題包含近30個字。此外,在個性化推送和推薦場景中,商品短標(biāo)題作為信息主體,對長度也有一定限制,如何使用盡可能短的文本體現(xiàn)商品的核心屬性,引起用戶的點擊和瀏覽興趣,提高轉(zhuǎn)化率,是值得深入研究的問題。
圖1. 用戶搜索「碎花裙長袖女」,搜索結(jié)果頁商品原始標(biāo)題過長無法完整顯示,只有點擊進(jìn)入詳情頁才能看到完整標(biāo)題。
已有方法介紹
文本摘要(壓縮)是自然語言處理中重要研究方向之一。按摘要的生成方式,可以分為抽取式和生成式兩種。顧名思義,抽取式方法生成的摘要句子和詞均從原文中抽取,而生成式方法更為靈活,摘要中的句子和詞并不要求一定從原文中抽取。傳統(tǒng)的抽取式摘要方法大致可以分為貪心方法、基于圖的方法和基于約束的優(yōu)化方法等。
近年來神經(jīng)網(wǎng)絡(luò)的方法也被應(yīng)用到文本摘要領(lǐng)域并取得顯著進(jìn)步,尤其是生成式摘要方法。業(yè)界已有方法都是以壓縮文章長度為優(yōu)化目標(biāo)實現(xiàn)文本的摘要,電商場景下除了文本壓縮率還有其他考量,如何在商品標(biāo)題長度精簡的同時又不影響整體的成交轉(zhuǎn)化率成為一個業(yè)界難題。
方法介紹
如圖2所示,本文提出的多任務(wù)學(xué)習(xí)方法包含兩個Sequence to Sequence任務(wù),主任務(wù)是商品標(biāo)題壓縮,由商品原始標(biāo)題生成短標(biāo)題,采用Pointer Network模型,通過attention機(jī)制選取原始標(biāo)題的關(guān)鍵字輸出;輔助任務(wù)是搜索query生成,由商品原始標(biāo)題生成搜索query,采用帶attention機(jī)制的encoder-decoder模型。兩個任務(wù)共享編碼網(wǎng)絡(luò)參數(shù),并對兩者的對原始標(biāo)題的注意力分布進(jìn)行聯(lián)合優(yōu)化,使得兩個任務(wù)對于原始標(biāo)題中重要信息的關(guān)注盡可能一致。
輔助任務(wù)的引入可以幫助主任務(wù)更好地從原始標(biāo)題中保留更有信息量、更容易吸引用戶點擊的詞。相應(yīng)地,我們?yōu)閮蓚€任務(wù)構(gòu)建訓(xùn)練數(shù)據(jù),主任務(wù)使用的數(shù)據(jù)為女裝類目下的商品原始標(biāo)題和手淘推薦頻道達(dá)人改寫的商品短標(biāo)題,輔助任務(wù)使用的數(shù)據(jù)為女裝類目下的商品原始標(biāo)題和對應(yīng)的引導(dǎo)成交的用戶搜索query。
圖2. 多任務(wù)學(xué)習(xí)框架, 兩個Seq2Seq任務(wù)共享同一個encoder
主要貢獻(xiàn)
- 本文的多任務(wù)學(xué)習(xí)方法進(jìn)行商品標(biāo)題壓縮,生成的商品短標(biāo)題在離線自動評測、人工評測以及在線評測中均超過傳統(tǒng)抽取式摘要方法。
- 端到端的訓(xùn)練方式避免了傳統(tǒng)方法的大量人工預(yù)處理以及特征工程。
- 多任務(wù)學(xué)習(xí)中的Attention分布一致性設(shè)置使得最終生成的商品短標(biāo)題中能透出原始標(biāo)題中重要的詞,尤其是能引導(dǎo)成交的核心詞,對于其他電商場景也有重要意義。
實驗結(jié)果
我們使用了淘寶女裝類目下的商品標(biāo)題數(shù)據(jù)進(jìn)行了實驗,對比了五種不同的文本摘要方法。
***種是baseline方法,根據(jù)目標(biāo)長度直接截斷方法(Trunc.);
第二種是經(jīng)典的整數(shù)線性規(guī)劃方法(ILP),需要對標(biāo)題進(jìn)行分詞、NER、Term Weighting等預(yù)處理;
第三種是基于Pointer Network實驗的encoder-decoder抽取式方法(Ptr-Net);
第四種是多任務(wù)學(xué)習(xí)方法,直接將兩個子任務(wù)的損失函數(shù)相加作為整體損失函數(shù)進(jìn)行優(yōu)化(Vanilla-MTL);
第五種是本文提出的考慮Attention分布一致性的多任務(wù)學(xué)習(xí)方法(Agree-MTL)。
不同方法的自動評價對比
表1. 不同文本摘要方法產(chǎn)生的商品短標(biāo)題自動評測結(jié)果
通過計算生成的短標(biāo)題和參考短標(biāo)題之間的三種ROUGE分作為自動評測結(jié)果,表1對比了不同的文本摘要方法。本文提出的多任務(wù)學(xué)習(xí)方法顯著超過了其他幾種方法。
不同方法的人工評價對比
表2. 不同方法產(chǎn)生的商品短標(biāo)題的人工評測結(jié)果
表2展示了不同方法產(chǎn)生的商品短標(biāo)題人工評測對比。由于電商場景下商品的核心產(chǎn)品詞比較敏感,所以在常見的可讀性(Readability)和信息完整性(Informativeness)指標(biāo)以外,我們還比較了不同方法產(chǎn)生的短標(biāo)題中核心產(chǎn)品詞是否準(zhǔn)確(Accuracy)。從表2結(jié)果看,本文提出的方法在三個指標(biāo)上均超過其他方法。
除了離線的自動評測和人工評測,我們還在真實線上環(huán)境中進(jìn)行了AB測試,相比線上原來的ILP壓縮方法,本文提出的多任務(wù)學(xué)習(xí)方法在CTR和CVR兩個指標(biāo)上分別有2.58%和1.32%的提升。
圖3給出了不同方法產(chǎn)生的商品短標(biāo)題示例。受預(yù)處理結(jié)果影響,直接截斷和ILP兩種baseline方法生成的短標(biāo)題流暢度和可讀性較差,而Ptr-Net和多任務(wù)學(xué)習(xí)屬于Sequence-to-Sequence 方法,生成的短標(biāo)題在可讀性上優(yōu)于兩種baseline。
圖3左側(cè)例子說明,本文方法生成的短標(biāo)題會透出用戶高頻搜索query中出現(xiàn)過的詞(用戶搜索query中多使用英文品牌名而非中文品牌名),更容易促進(jìn)成交。
圖3. 不同方法產(chǎn)生的短標(biāo)題示例
總結(jié)
由于商家SEO過度,C2C電商平臺的商品標(biāo)題通常長度過長且比較冗余且,無法在APP端完整展示。為了解決這個問題,本文使用抽取式摘要方法對過長的商品標(biāo)題進(jìn)行壓縮。(前面這句在前面好像沒有提)傳統(tǒng)的摘要方法僅在保持原標(biāo)題語義的情況下實現(xiàn)標(biāo)題的壓縮,未考慮電商場景下對壓縮后商品點擊率和成交轉(zhuǎn)化率的影響。
電商平臺累積了大量用戶搜索query和商品成交信息,利用這部分?jǐn)?shù)據(jù)我們可以更有針對性地對原始長標(biāo)題進(jìn)行壓縮。因此,我們提出一種多任務(wù)學(xué)習(xí)的標(biāo)題壓縮方法,包含兩個序列學(xué)習(xí)子任務(wù): 其中主任務(wù)是基于Pointer Network模型實現(xiàn)的從原始標(biāo)題到短標(biāo)題的抽取式摘要生成,輔任務(wù)是基于帶有Attention機(jī)制的encoder-decoder模型實現(xiàn)的從原始標(biāo)題生成對應(yīng)商品的用戶搜索query。
兩個任務(wù)之間共享編碼參數(shù),使得兩個子任務(wù)在原始標(biāo)題上的Attention分布盡可能一致,對兩者的注意力分布進(jìn)行聯(lián)合優(yōu)化,進(jìn)行聯(lián)合優(yōu)化,最終使得主任務(wù)生成的短標(biāo)題在保留原始商品標(biāo)題中的核心信息的同時,更傾向于透出能促進(jìn)成交轉(zhuǎn)化的關(guān)鍵詞。
離線人工評測和在線實驗證明使用本文方法在保證不影響成交轉(zhuǎn)化率的前提下,生成的短標(biāo)題在可讀性、信息完整度、核心產(chǎn)品詞準(zhǔn)確率上都超過了傳統(tǒng)摘要方法。
團(tuán)隊:iDST-NLP
作者:王金剛,田俊峰(華東師大),裘龍(Onehome),李生,郎君,司羅,蘭曼(華東師大)