自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

商品標(biāo)題這么長長長長長,阿里工程師如何解決?

企業(yè)動態(tài)
在淘寶這樣的電商app中,用戶與推薦、搜索等系統(tǒng)的交互時(shí)所接受到的信息,主要由商品標(biāo)題、圖片、價(jià)格、銷量以及店鋪名等信息組成。這些信息直接影響著用戶的點(diǎn)擊決策。

商品標(biāo)題是賣家和買家在電商平臺溝通的重要媒介。在淘寶這樣的電商app中,用戶與推薦、搜索等系統(tǒng)的交互時(shí)所接受到的信息,主要由商品標(biāo)題、圖片、價(jià)格、銷量以及店鋪名等信息組成。這些信息直接影響著用戶的點(diǎn)擊決策。而其中,算法能夠主動影響的集中在標(biāo)題與圖片上。本文所述工作,關(guān)注于商品標(biāo)題生成,更具體地來講,是商品的短標(biāo)題的生成。

背景

??

??

??

??

 

圖1. 猜你喜歡推薦結(jié)果展示圖以及商品詳情頁截圖(目前猜你喜歡同時(shí)存在一行以及兩行標(biāo)題情況)。商品原始標(biāo)題往往過長(平均長度30字左右),在結(jié)果頁中無法完整顯示,只能點(diǎn)擊進(jìn)入商品詳情頁才能看到商品完整標(biāo)題。

當(dāng)前淘系商品(C2C)標(biāo)題主要由商家撰寫,而商家為了SEO,往往會在標(biāo)題中堆砌大量冗余詞匯,甚至許多與商品并不直接相關(guān)的詞匯,以提高被搜索召回的概率,以及吸引用戶點(diǎn)擊。這引起兩方面的問題:

  1. 這些標(biāo)題往往過長,以往pc時(shí)代這并不是一個(gè)嚴(yán)重問題。但現(xiàn)在已經(jīng)全面進(jìn)入移動互聯(lián)網(wǎng)時(shí)代,手淘用戶也幾乎都是移動端用戶,這些冗長的商品標(biāo)題由于屏幕尺寸限制,往往顯示不全,只能截?cái)嗵幚?,?yán)重影響用戶體驗(yàn)。如圖1所示,在推薦的展示頁中,標(biāo)題往往顯示不全,影響體驗(yàn)。用戶若想獲取完整標(biāo)題,還需進(jìn)一步點(diǎn)擊進(jìn)入商品詳情頁。
  2. 另一方面,這些原始長標(biāo)題是為了搜索做的SEO,對于推薦的match階段,其實(shí)并無幫助。甚至,其中許多無關(guān)冗余詞匯還會起到噪聲作用,并且也會對用戶的瀏覽決策起到干擾作用。

因此,使用盡可能短的文本體現(xiàn)商品的核心屬性,引起用戶的點(diǎn)擊和瀏覽興趣,提高轉(zhuǎn)化率,是值得深入研究的問題。

問題形式化

??

??

商品短標(biāo)題的生成或者壓縮,可以看作一種特殊的文本摘要任務(wù)。類似于Alexander Rush等人提出的sentence summarization任務(wù)[1,2]。但相比普通的sentence summarization任務(wù),作為特定電商領(lǐng)域且跟用戶消費(fèi)密切相關(guān)的一個(gè)任務(wù),商品短標(biāo)題的生成具有一些更顯式且嚴(yán)格的限制。此工作中,我們主要將其抽象為兩點(diǎn):

  1. 不能引入無關(guān)信息。商品的短標(biāo)題盡量保留原始標(biāo)題中的用詞,避免引入其他信息。一方面這是因?yàn)樵紭?biāo)題中的詞語往往都是賣家為了點(diǎn)擊率等考慮精挑細(xì)選的,已經(jīng)足夠優(yōu)秀;另一方面,引入其他信息雖然能夠帶來更多的變化,但也增加了犯錯(cuò)的可能。如為Nike的鞋子標(biāo)題生成了Adidas關(guān)鍵字,這類事實(shí)性的錯(cuò)誤在wiki style類的文本摘要中經(jīng)常發(fā)生,已引起研究人員的重視[3],但在新聞之類的摘要中,人們往往還能忍受。對于電商平臺來說,這類錯(cuò)誤是不能容忍的。
  2. 需要保留商品的關(guān)鍵信息(如,品牌,品類詞)。商品的短標(biāo)題如果丟失了品牌或者品類詞,一方面對用戶來說非常費(fèi)解,影響體驗(yàn);另一方面也容易引起賣家的不滿投訴。

這兩個(gè)約束,在普通的句子摘要任務(wù)中,同樣也成立,但他們并沒有電商領(lǐng)域中如此嚴(yán)格。

針對這些問題,我們基于Pointer Netowrk [4],提出Multi-Source Pointer Network (MS-Pointer)來顯式建模這兩個(gè)約束,生成商品短標(biāo)題。

首先,對于約束1,我們使用Pointer Network框架將商品短標(biāo)題摘要建模成一個(gè)extractive summarization(抽取式摘要)問題(Pointer Network是一種特殊的Seq2Seq模型結(jié)構(gòu),具體下一小節(jié)介紹)。對于約束2,我們嘗試在原有的標(biāo)題encoder之外,引入關(guān)于商品背景知識信息的另一個(gè)encoder (knowledge encoder),這個(gè)encoder編碼了關(guān)于商品的品牌以及品類詞信息,其作用一方面在于告訴模型商品的品牌和品類詞信息,另一方面在于pointer mechanism可以直接從這個(gè)encoder中提取商品的品牌等信息。

最終,MS-Pointer可以使用data-driven的方式學(xué)習(xí)從這多個(gè)encoder中提取相應(yīng)的信息來生成商品的短標(biāo)題,比如從knowledge encoder中選擇品牌信息,而從title encoder中選擇豐富的描述信息。

這里需要說明兩個(gè)問題。

  1. 對于抽取式摘要,基于刪除的方法(Deletion Based)一樣可以使用。比如Filippova等人[5]便基于seq2seq提出了在decode端輸出原始title每個(gè)詞保留與否的label,這是一個(gè)特殊的seq2seq模型,與普通的seq2seq模型decoder輸入是summarization不同,這個(gè)模型的decoder的輸入還是原始標(biāo)題,輸出并不是生成詞,而是輸入詞保留與否二分類的label。然而,為了讓摘要結(jié)果更加通順易讀,摘要中經(jīng)常存在word reordering現(xiàn)象[6],Deletion Based方法并不能很好地處理這問題。在我們收集的訓(xùn)練數(shù)據(jù)中,就發(fā)現(xiàn)有超過50%的數(shù)據(jù)有word reordering現(xiàn)象。
  2. 另一個(gè)問題在于title中品牌、品類詞信息的處理使用。顯然,我們可以引入NER模型,構(gòu)建一個(gè)end2end的模型,從title中自動識別商品的品牌和品類詞等信息,來完成這個(gè)任務(wù)。但是,首先NER模塊本身就尤其精度限制,會有錯(cuò)誤累積問題,且需要額外的entity標(biāo)注數(shù)據(jù)。另外,許多標(biāo)題中存在多個(gè)品牌,多個(gè)品類詞,這種情況下,正確識別錯(cuò)商品自身的品牌和品類詞信息,對NER模塊來說是個(gè)更大的挑戰(zhàn)。而商品的品牌和品類信息,可以輕易地從數(shù)據(jù)庫中商品meta信息中獲取,直接給模型輸入這些背景知識,顯然是更加簡單直接的選擇。

模型

Pointer Network

??

??

Pointer Network框架圖

與普通的seq2seq從一個(gè)預(yù)先定義好的vocabulary中選擇詞語生成摘要不同,pointer network使用attention機(jī)制,從encoder中選擇詞語來生成摘要。如圖2所示,在decode的每一步t,使用decoder的隱狀態(tài)dtdt去attention encoder的隱狀態(tài)[h1,…,hi,…,hn][h1,…,hi,…,hn],然而以此attention的權(quán)重作為分布,去選擇對應(yīng)位置上的詞來生成摘要。

相比傳統(tǒng)的seq2seq,Pointer Network能夠更好地處理NLP中常遇到的OOV問題。這是因?yàn)樗軌騽討B(tài)地從輸入中選擇單詞,而不是從一個(gè)預(yù)定義好的vocabulary中選擇,這使得它可以生成vocabulary中沒有的單詞。這對于商品短標(biāo)題生成是一個(gè)非常好的特性,因?yàn)樯唐窐?biāo)題中存在大量的型號類的詞語,都可能未出現(xiàn)在訓(xùn)練語料中。當(dāng)然最重要的是,Pointer Network提供了一種extractive地摘要生成建模思路。短標(biāo)題中所有的單詞都是從輸入的原始標(biāo)題中獲取的,這樣可以大大降低普通seq2seq的abstractive摘要那樣出錯(cuò)的概率。但是Pointer Network并沒有機(jī)制保障decoder保留原標(biāo)題中的品牌與品類信息,而這對電商平臺而言是至關(guān)重要的。

Multi-Sources Pointer Network

??

??

使用兩個(gè)encoder的Multi-Sources Pointer Network框架圖

最顯著的區(qū)別在于,MS-Pointer可以從多個(gè)encoders中選擇單詞。在decode的每一步t,首先計(jì)算一個(gè)soft gating weight λ,這個(gè)概率權(quán)衡著decoder從兩個(gè)encoder中選擇單詞的概率。最終生成單詞的概率為兩個(gè)encoder上的attention分布的加權(quán)和。這里為了簡單處理,使用了sigmoid函數(shù),根據(jù)decoder當(dāng)前輸入、狀態(tài)以及encoder的狀態(tài)來計(jì)算選擇不同encoder的概率。更一般地,可以使用softmax函數(shù)來建模大于兩個(gè)encoder的情況。這里λ所起的作用類似于一個(gè)分類器,如根據(jù)當(dāng)前狀態(tài),去選擇是否從background knowledge encoder中選擇品牌信息。

最終,模型的loss可定義為為:

??

??

實(shí)驗(yàn)效果

數(shù)據(jù)集構(gòu)造

??

??

對于本文的模型,我們除了常見的訓(xùn)練seq2seq模型需要的輸入輸出seq pair 樣本,還需要商品的品牌、品類背景知識信息。對于品牌等信息,可以容易地從odps數(shù)據(jù)庫中獲取。對于商品原始標(biāo)題與短標(biāo)題對,我們從手淘有好貨欄目中收集了這樣的數(shù)據(jù)。有好貨是手淘首頁一個(gè)推薦場景,其中包含了大量達(dá)人生產(chǎn)的優(yōu)質(zhì)內(nèi)容數(shù)據(jù)。這其中,就包含了商品的短標(biāo)題。如下圖所示,有好貨中推薦結(jié)果的展示頁面包含了達(dá)人所寫的商品短標(biāo)題。

??

??

但是這些短標(biāo)題并不適合所有都拿來訓(xùn)練模型。其中一部分標(biāo)題類似于創(chuàng)意文案,已經(jīng)與商品本書關(guān)聯(lián)較弱,屬于噪聲數(shù)據(jù)需要去掉;另一部分雖然也是商品短標(biāo)題,但是由達(dá)人重新延伸重寫了,這可以認(rèn)為是abstractive的短標(biāo)題,也需要去除,原因見上文說明,因我們的模型是一個(gè)extractive模型;還有一些雖然是extractive的短標(biāo)題,但是存在品牌缺失類的情況,也需要清除。所以,最終我們嚴(yán)格使用extractive,短標(biāo)題長度(10個(gè)字,推薦頁一行能顯示的長度),以及必須保留品牌信息,來過濾了有好貨的訓(xùn)練數(shù)據(jù)。在第一期論文研究階段,共收集了超過40w訓(xùn)練數(shù)據(jù),統(tǒng)計(jì)信息見下表:

??

??

后期,我們擴(kuò)充了數(shù)據(jù)源,包括有好貨以及從其他信息源手機(jī)的數(shù)據(jù),最終構(gòu)成了一個(gè)超過500萬樣本的訓(xùn)練語料。

數(shù)據(jù)處理

在此工作中,我們盡量減少了對于數(shù)據(jù)的預(yù)處理操作:

  • 大部分標(biāo)點(diǎn)符號均做了保留。許多品牌,型號等信息包含標(biāo)點(diǎn),如Coca-Cola, J.crew.
  • 凡是出現(xiàn)在品牌等關(guān)鍵信息中的數(shù)字,都保留。這是因?yàn)樵S多品牌、型號中會帶有數(shù)據(jù),如 7 for all mankind, 360,PS4等。數(shù)字在NLP中是比較難處理的一類問題,首先數(shù)字是無窮的,難以學(xué)習(xí)可靠的表示,且生成時(shí)候很容易會生成一個(gè)新的錯(cuò)誤的數(shù)字出來。因此凡是每次短標(biāo)題中出現(xiàn)過的數(shù)字,都被過濾掉了。當(dāng)然還有很多50ml、100%這樣的處理細(xì)節(jié),這里不做過細(xì)描述(前面的兩個(gè)case,在此工作中不做切分,作為一個(gè)整體處理)。
  • 不分詞,按字處理。seq2seq很多時(shí)候性能已經(jīng)足夠強(qiáng),可以學(xué)出如何組合出合適的詞語,這樣也可以規(guī)避分詞錯(cuò)誤引起的問題。另外,詞的長度不定,也難以控制生成的短標(biāo)題長度。

數(shù)據(jù)按照80%,10%,10%,以類目層次地隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集以及測試集。

Baseline & 模型設(shè)置

這個(gè)工作中,簡單起見,我們使用了基于LSTM的encoder和decoder,模型以及優(yōu)化超參數(shù)設(shè)置如下:

??

??

baseline包括:

  • Truncation (Trunc.) 阿里、Amazon.com以及eBay等網(wǎng)站線上所使用的方案,直接截?cái)?,保留前n個(gè)詞。
  • TextRank [7] 一種類似于pagerank的關(guān)鍵詞提取算法,可以用于生成摘要。
  • Seq2Seq-Del [5] 如上文介紹,基于seq2seq的deletion based的抽取式摘要算法。
  • LSTM-Del 與Seq2Seq-Del的不同在于直接在encoder的輸出預(yù)測單詞保留與否。
  • Pointer network (Ptr-Net) [4] 見模型部分介紹。
  • Ptr-Concat 將background knowledge與title拼接后,使用Ptr-Net。
  • Vanilla sequence-to-sequence (Seq2Seq-Gen) 傳統(tǒng)的seq2seq普通,abstractive的方法。
  • Pointer-Generator(Ptr-Gen) Ptr-Net與Seq2Seq-Gen的結(jié)合。

評價(jià)標(biāo)準(zhǔn)

跟大多數(shù)文本生成任務(wù)一樣,文本摘要評測一直是一個(gè)困難的任務(wù),常見評測方法包括人工評測和自動評測。對于自動評測方法,我們使用了BLUE、ROUGE和METEOR三個(gè)指標(biāo)。我們使用nlg-eval包計(jì)算 BLEU [8]和METEOR [10];pythonrouge計(jì)算ROUGE F1 [9]。此外,我們也人工評測了模型生成的短標(biāo)題的質(zhì)量。

自動評測

??

??

可以發(fā)現(xiàn)直接截?cái)嗪蚑extRank的結(jié)果最差,因?yàn)檫@兩個(gè)方法都沒有考慮標(biāo)題中單詞的語義信息。同時(shí),基于seq2seq框架的模型均取得了很高的得分,這說明seq2seq這個(gè)框架強(qiáng)大的擬合能力,在這個(gè)簡單任務(wù)上優(yōu)異性能。相比abstractive模型,extractive模型在各項(xiàng)指標(biāo)上表現(xiàn)的更加優(yōu)異。相比Ptr-Net和Ptr-Concat,MS-Pointer在各項(xiàng)指標(biāo)上均有明顯提升。

品牌保留實(shí)驗(yàn)

如前文所述,對于電商領(lǐng)域的商品短標(biāo)題生成,品牌、品類詞這類關(guān)鍵信息的保留是一個(gè)至關(guān)重要的指標(biāo)。但由于品類詞是一個(gè)比較籠統(tǒng)的概念,很多時(shí)候類似于類目,他在商品的標(biāo)題中未必原封不動地出現(xiàn),所以難以自動地評價(jià)。所幸,我們可以很容易地自動化測試模型是否完整地保留下了商品的品牌信息。錯(cuò)誤率結(jié)果如下表:

??

??

容易看出MS-Pointer顯著優(yōu)于其他模型,在測試集上的錯(cuò)誤率降低到了接近千分之一。這里online數(shù)據(jù)集指的是從線上隨機(jī)采樣的140166個(gè)商品標(biāo)題。值得說明的是在線上的online數(shù)據(jù)集中存在大量訓(xùn)練語料中沒有出現(xiàn)過的品牌,當(dāng)輸入標(biāo)題中存在多個(gè)oov單詞時(shí),模型難以從這些相同的oov embedding中選擇出正確的詞。針對這個(gè)問題,我們嘗試在這些oov賦以不同的embedding加以區(qū)分,在此情況下online數(shù)據(jù)集上的錯(cuò)誤率可以降低到0.56%.

人工評測

此外,我們隨機(jī)采樣了300條短標(biāo)題進(jìn)行了人工評測,主要考慮了四個(gè)維度, 核心產(chǎn)品詞識別準(zhǔn)確率Accuracy(0/1),品類詞完整性Comm. (0/1),可讀性 Readability(1~5)以及信息完整性 Info.(1~5),結(jié)果如下:

??

??

人工評測結(jié)果同樣說明了MS-Pointer方法相對其他方法的優(yōu)勢,并且可以發(fā)現(xiàn)與人工寫的短標(biāo)題得分非常相近。

線上實(shí)驗(yàn)

除了前文的離線實(shí)驗(yàn),我們同樣進(jìn)行了線上實(shí)驗(yàn)對比。兩個(gè)分桶的差異只有結(jié)果展示標(biāo)題不同:一個(gè)分桶是線上原油方案截?cái)嗟膬尚袠?biāo)題;另一個(gè)是模型產(chǎn)生的8~10個(gè)字的短標(biāo)題。因此展示標(biāo)題的不同,直接影響用戶點(diǎn)擊與否,因此這里選用CTR作為實(shí)驗(yàn)指標(biāo)。試驗(yàn)持續(xù)了一周時(shí)間,結(jié)果如下圖:

??

??

這里統(tǒng)計(jì)的是分桶內(nèi)部,pv>20以上商品的平均CTR??梢园l(fā)現(xiàn),使用生成的短標(biāo)題可以明顯提升。更進(jìn)一步地分析發(fā)現(xiàn),不同類目下商品的CTR變化非常不一樣。如電子產(chǎn)品類商品的CTR提升甚至可以達(dá)到10%;而女性用戶更加關(guān)注的類目如女裝、化妝品類目CTR提升則較小。這是因?yàn)榕杂脩粼跒g覽這些類目的推薦結(jié)果時(shí),對于修飾形容詞匯(如衣服的款式、材質(zhì),化妝品的功效等)會比較關(guān)注,而10個(gè)字以內(nèi)的短標(biāo)題畢竟有損,往往難以包含所有這些信息。而電子產(chǎn)品這些類目,往往品牌型號加上品類詞就已足夠包含所有信息,過多的冗余信息反而帶來干擾。這也說明個(gè)性化的短標(biāo)題生成以及如何引入CTR指標(biāo),是一個(gè)值得探索的方向。當(dāng)然更加復(fù)雜的knowledge的引入,也是一個(gè)值得探索的方向。

Reference:

[1] Alexander M. Rush, Sumit Chopra, and Jason Weston. 2015. A Neural Attention Model for Abstractive Sentence Summarization. In Proceedings of EMNLP. Association for Computational Linguistics, Lisbon, Portugal, 379–389.

[2] Sumit Chopra, Michael Auli, and Alexander M. Rush. 2016. Abstractive Sentence Summarization with Attentive Recurrent Neural Networks. In Proceedings of NAACL. Association for Computational Linguistics, San Diego, California, 93– 98.

[3] Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get To The Point: Summarization with Pointer-Generator Networks. In Proceedings of ACL. Association for Computational Linguistics, Vancouver, Canada, 1073–1083.

[4] Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. 2015. Pointer Networks. In Proceedings of NIPS, C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett (Eds.). Curran Associates, Inc., 2692–2700.

[5] Katja Filippova, Enrique Alfonseca, Carlos A. Colmenares, Lukasz Kaiser, and Oriol Vinyals. 2015. Sentence Compression by Deletion with LSTMs. In Proceedings of EMNLP. Association for Computational Linguistics, Lisbon, Portugal, 360–368.

[6] Hongyan Jing. 2002. Using Hidden Markov Modeling to Decompose Human-written Summaries. Comput. Linguist. 28, 4 (Dec. 2002), 527–543.

[7] Rada Mihalcea and Paul Tarau. 2004. TextRank: Bringing Order into Texts. In Proceedings of EMNLP 2004. Association for Computational Linguistics, Barcelona, Spain, 404–411.

[8] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL. Association for Computational Linguistics, Philadelphia, Pennsylvania, USA, 311–318. https://doi.org/10.3115/1073083.1073135

[9] Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out: Proceedings of the ACL-04 Workshop.

[10] Satanjeev Banerjee and Alon Lavie. 2005. METEOR: An Automatic Metricfor MT Evaluation with Improved Correlation with Human Judgments. In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Association for Computational Linguistics, Michigan, 65–72.

【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】

??戳這里,看該作者更多好文??

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2021-06-25 09:11:38

updateSQL數(shù)據(jù)庫

2019-04-28 09:17:20

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2023-04-26 01:21:34

工具URL地址

2018-10-10 16:15:01

團(tuán)隊(duì)研發(fā)效率

2015-06-15 11:29:54

OpenStack架構(gòu)開源云平臺運(yùn)維

2013-08-14 09:14:46

2019-08-28 10:23:05

技術(shù)人阿里工程師

2020-09-03 06:35:44

Linux權(quán)限文件

2018-06-28 16:33:58

團(tuán)隊(duì)工程師專家

2021-07-12 12:04:14

芯片

2019-01-27 15:03:52

機(jī)器人下崗智障機(jī)器人

2020-05-13 10:24:54

死循環(huán)shell 查詢

2013-08-12 13:42:00

品牌品牌維護(hù)創(chuàng)業(yè)

2018-11-02 15:53:57

交付阿里工程師團(tuán)隊(duì)

2013-06-07 10:22:17

移動應(yīng)用移動App夜店App

2023-10-13 11:28:42

2021-07-23 08:00:00

深度學(xué)習(xí)框架模型

2015-06-02 11:26:29

產(chǎn)品團(tuán)隊(duì)

2014-11-26 09:25:53

2018-07-20 14:58:16

深度學(xué)習(xí)梯度下降損失函數(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號