自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果

發(fā)布于 2024-5-15 14:49

瀏覽

1收藏

LLM是目前學(xué)術(shù)界研究的熱點(diǎn)，同時(shí)工業(yè)界也在快速探索LLM在業(yè)務(wù)中的落地。本篇文章給大家介紹來(lái)自WWW24的一篇文章，介紹了淘寶電商將LLM用在了搜索場(chǎng)景中的query改寫(xiě)上，精心構(gòu)建的領(lǐng)域特定數(shù)據(jù)集對(duì)LLM進(jìn)行finetue，定義三種不同的優(yōu)化目標(biāo)并使用Preference Rank Optimization損失學(xué)習(xí)候選之間的偏序關(guān)系，極大的解決了長(zhǎng)尾query中的“few-recall”問(wèn)題。

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

論文標(biāo)題：Large Language Model based Long-tail Query Rewriting in Taobao Search

下載地址：??https://arxiv.org/pdf/2311.03758??

1、背景介紹

淘寶電商搜索引擎框架如下圖所示。用戶(hù)輸入搜索詞之后，平臺(tái)先進(jìn)行語(yǔ)義理解，對(duì)用戶(hù)query進(jìn)行改寫(xiě)，之后對(duì)原始詞 + 改寫(xiě)后的詞召回商品，再經(jīng)過(guò)多層排序后對(duì)用戶(hù)展現(xiàn)頭部商品。

query改寫(xiě)的目標(biāo)是，在保持相關(guān)性的同時(shí)，對(duì)原始query進(jìn)行語(yǔ)義擴(kuò)展，可以召回更多相關(guān)商品。例如，有兩個(gè)搜索詞，"DIY blind box"和"Self_building blind box"。這里前者和后者語(yǔ)義相同，但是前者是主流搜索詞，召回結(jié)果有多個(gè)。而后者屬于長(zhǎng)尾搜索詞，難以召回多個(gè)結(jié)果。如果將后者改寫(xiě)為前者，語(yǔ)義保持相同的情況下，召回更多的商品，則在后續(xù)的排序流程中更有概率推薦轉(zhuǎn)化率高的商品，從而提高訂單量 && GMV。

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

已有的query改寫(xiě)工作集中在兩個(gè)方向：

判別模型：從候選詞集合中預(yù)估最優(yōu)的詞。這種方法依賴(lài)于精心構(gòu)造的詞典作為重寫(xiě)的候選集合，否則query改寫(xiě)后語(yǔ)義有可能發(fā)生偏移。

生成模型：使用transformer系的模型，根據(jù)原始query直接生成改寫(xiě)詞，有些方法會(huì)加入強(qiáng)化學(xué)習(xí)和對(duì)比學(xué)習(xí)的思路。但是這種方法受限于模型的參數(shù)量，參數(shù)提升會(huì)提升模型的表達(dá)能力。目前LLM在query改寫(xiě)上有一些工作，但由于對(duì)沒(méi)有使用query改寫(xiě)特定任務(wù)對(duì)大模型進(jìn)行fine-tune，還存在一定的局限性。

2、實(shí)現(xiàn)方法

本文提出了BEQUE框架（a comprehensive framework that Bridges the sEmantic gap for long-tail QUEries），框架包含三個(gè)階段，如下圖所示：

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

第一階段 Multi-instruction Supervised Fine Tuning：使用多領(lǐng)域數(shù)據(jù)集對(duì)LLM進(jìn)行finetune，主要包括Query Rewriting Dataset和輔助數(shù)據(jù)集2個(gè)部分。

Query Rewriting Dataset: 使用基線(xiàn)改寫(xiě)策略，對(duì)原始query取相關(guān)性TOPN的改寫(xiě)query。為了進(jìn)一步優(yōu)化數(shù)據(jù)集相關(guān)性，限制原始query和改寫(xiě)query的相關(guān)性必須大于某一閾值?；€(xiàn)改寫(xiě)策略對(duì)長(zhǎng)尾query效果不佳，即便原始query和改寫(xiě)query語(yǔ)義上具有相關(guān)性，但是召回的商品集合未必相關(guān)。因此使用拒絕負(fù)采樣，query和改寫(xiě)query召回商品后，要求用戶(hù)真實(shí)交互過(guò)的商品數(shù)大于一定閾值，來(lái)保證和query和改寫(xiě)query在召回商品集合上的相關(guān)性：

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

輔助數(shù)據(jù)集：為增強(qiáng)LLM對(duì)長(zhǎng)尾query的理解能力，使用quality classification，product title prediction，Chainof-thought，三個(gè)輔助數(shù)據(jù)集對(duì)LLM進(jìn)行finetune

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

第二階段 offline feedback：設(shè)計(jì)多個(gè)函數(shù)多角度評(píng)估改寫(xiě)query質(zhì)量，包括relevance、increment、hitrate等3個(gè)評(píng)估方法。

relevance：即便原始query和改寫(xiě)query 語(yǔ)義上具有相關(guān)性，但是召回的商品集合未必相關(guān)。因此定義相關(guān)性指標(biāo)來(lái)衡量改寫(xiě)前后召回商品的相關(guān)性。淘寶離線(xiàn)評(píng)估方法用來(lái)評(píng)估query和召回商品標(biāo)題的相關(guān)性，因此定義改寫(xiě)query召回商品和原始query的相關(guān)性如下：

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

increment：query改寫(xiě)可以增加商品召回的數(shù)量，解決“few-recall”的問(wèn)題。因此定義增量指標(biāo)來(lái)衡量query改寫(xiě)后是否增加了召回商品的數(shù)量：

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

hitrate: 定義命中率指標(biāo)，如果搜索場(chǎng)景之外成交過(guò)的某件商品和原始query相關(guān)性大于一定閾值，那query改寫(xiě)后應(yīng)盡量召回該商品：

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

第三階段 object alignment：強(qiáng)制模型學(xué)習(xí)改寫(xiě)query之間pairwise的偏序

使用PRO Loss來(lái)pair wise地學(xué)習(xí)改寫(xiě)query之間的順序：

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

模型的最終Loss為監(jiān)督微調(diào)的loss + PRO loss

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

3、實(shí)驗(yàn)結(jié)果

模型離線(xiàn)效果如下表所示。從上圖可以看到，與多種基線(xiàn)相比，BEQUE與多種基線(xiàn)相比，在多個(gè)測(cè)試集上的rele指標(biāo)略為遜色，在incr/hitrate指標(biāo)上有極大幅度的提升。

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

在線(xiàn)應(yīng)用方面，由于LLM難以滿(mǎn)足在線(xiàn)serving的時(shí)效性需求，無(wú)法直接在線(xiàn)使用。因此對(duì)torso query，離線(xiàn)inference改寫(xiě)后的query，將改寫(xiě)前后的query以key-value graph的形式存儲(chǔ)，確保在線(xiàn)及時(shí)響應(yīng)，覆蓋淘寶主搜27%的PV。原始query和改寫(xiě)query召回的商品取并集進(jìn)入后續(xù)的排序環(huán)節(jié)。14天在線(xiàn)AB實(shí)驗(yàn)中，在GMV && 訂單量 && UV上都取得了正向效果。

LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫(xiě)效果-AI.x社區(qū)

本文轉(zhuǎn)載自??圓圓的算法筆記??，作者： Lumia ????

標(biāo)簽

贊

收藏 1

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

AtomoVideo：AIGC賦能下的電商視頻動(dòng)效生成

jordana ? 3297瀏覽 ? 0回復(fù)
改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果

輕薄滴假象 ? 2243瀏覽 ? 0回復(fù)
LLM4CS：一種利用LLM提升多輪會(huì)話(huà)檢索的效果的方案

arnoldzhw ? 9253瀏覽 ? 0回復(fù)
ERAGent：集成5個(gè)先進(jìn)組件與技術(shù)的增強(qiáng)型RAG Agent，顯著提升3類(lèi)問(wèn)答任務(wù)效果

PaperAgent ? 3486瀏覽 ? 0回復(fù)
QOQA：利用TopK文檔進(jìn)行查詢(xún)改寫(xiě)，平均提升RAG 1.6% 準(zhǔn)確率

大語(yǔ)言模型論文跟蹤 ? 2641瀏覽 ? 0回復(fù)
動(dòng)手實(shí)現(xiàn)GraphRAG，檢索效果大幅提升

小虎哦哦 ? 3177瀏覽 ? 0回復(fù)
GMeLLo：結(jié)合知識(shí)圖譜的 LLM 多跳問(wèn)答技術(shù)，效果顯著提升

大語(yǔ)言模型論文跟蹤 ? 3308瀏覽 ? 0回復(fù)
AI Agent落地電商典型應(yīng)用實(shí)踐

數(shù)字化助推器 ? 2180瀏覽 ? 0回復(fù)
如何破解電商7大挑戰(zhàn)？DMS+AnalyticDB助力企業(yè)智能決策

DataAI知識(shí)分享者 ? 1768瀏覽 ? 0回復(fù)
Text2SQL 新一代解決方案Tool-SQL，基于LLM和Agent智能體實(shí)現(xiàn)，效果提升顯著

AI博物院 ? 4522瀏覽 ? 0回復(fù)
使用MCTS顯著提升LLM在復(fù)雜任務(wù)的推理能力

arnoldzhw ? 5773瀏覽 ? 0回復(fù)
LLM-ESR@NeurIPS 2024: 大語(yǔ)言模型破解推薦系統(tǒng)的長(zhǎng)尾難題

十一月雨_55 ? 2806瀏覽 ? 0回復(fù)
多Agent思想顯著提升小模型工具調(diào)用能力

arnoldzhw ? 2248瀏覽 ? 0回復(fù)
進(jìn)化搜索策略，提高LLM推理深度；學(xué)術(shù)搜索智能體，RL+PPO；LLM回答置信度

AI研究前瞻 ? 1873瀏覽 ? 0回復(fù)
對(duì)話(huà)數(shù)據(jù)合成：清華利用多Agent合成大量醫(yī)療對(duì)話(huà)數(shù)據(jù)顯著提升LLM在醫(yī)療場(chǎng)景效果

arnoldzhw ? 2118瀏覽 ? 0回復(fù)
使用語(yǔ)義模型和場(chǎng)景感知NLP的個(gè)性化搜索優(yōu)化以改進(jìn)搜索結(jié)果

51CTO內(nèi)容精選 ? 2596瀏覽 ? 0回復(fù)
LLM合集：微軟發(fā)布基于過(guò)程的自獎(jiǎng)勵(lì)方法顯著提升數(shù)學(xué)推理性能

AIPaperDaily ? 1324瀏覽 ? 0回復(fù)
CVPR 2025 | 電商退貨率或?qū)⒀鼣兀TON 360突破3D虛擬試衣天花板：無(wú)死角虛擬換裝

angel ? 1691瀏覽 ? 0回復(fù)
電商評(píng)論升級(jí)：AI如何賦能場(chǎng)景應(yīng)用與技術(shù)選擇？

JavaEdge1 ? 333瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ICLR'25 | 基于記憶網(wǎng)絡(luò)和混合Prototype的時(shí)間序列異常檢測(cè)方法 10h前發(fā)布
大模型系列：一文匯總16個(gè)深度語(yǔ)言模型代表工作 2025-04-08 01:03:28發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線(xiàn)！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： ICLR2024杰出論文——Never Train from Scratch！

下一篇：亞馬遜最新時(shí)序大模型：將時(shí)間序列完全轉(zhuǎn)換成文本

社區(qū)精華內(nèi)容

目錄

^{<sub id="orx1f"></sub>}

^{<blockquote id="orx1f"></blockquote>}

^{<blockquote id="orx1f"></blockquote>}

<legend id="orx1f"><track id="orx1f"></track></legend>

<style id="orx1f"></style>