Meta最新研究:利用GenAI洞悉用戶(hù)意圖
Meta——Facebook、Instagram、WhatsApp、Threads等公司的母公司——運(yùn)營(yíng)著世界上最大的推薦系統(tǒng)之一。
在最近發(fā)布的兩篇論文中,Meta的研究人員揭示了如何利用生成模型來(lái)更好地理解和響應(yīng)用戶(hù)意圖。
通過(guò)將推薦視為一個(gè)生成問(wèn)題,可以采用新的方法來(lái)解決它,這些方法在內(nèi)容上更豐富,效率也高于傳統(tǒng)方法。這種方法對(duì)于任何需要檢索文檔、產(chǎn)品或其他類(lèi)型對(duì)象的應(yīng)用程序來(lái)說(shuō),都具有重要的應(yīng)用價(jià)值。
Dense檢索 vs 生成式檢索
創(chuàng)建推薦系統(tǒng)的標(biāo)準(zhǔn)方法是計(jì)算、存儲(chǔ)和檢索文檔的密集表示(Dense Retrieval)。例如,為了向用戶(hù)推薦項(xiàng)目,應(yīng)用程序必須訓(xùn)練一個(gè)模型,該模型能夠計(jì)算用戶(hù)請(qǐng)求和大量項(xiàng)目存儲(chǔ)庫(kù)的嵌入表示。
在推理時(shí),推薦系統(tǒng)通過(guò)尋找一個(gè)或多個(gè)與用戶(hù)嵌入表示相似的項(xiàng)目嵌入表示,來(lái)嘗試?yán)斫庥脩?hù)的意圖。隨著項(xiàng)目數(shù)量的增長(zhǎng),這種方法需要越來(lái)越多的存儲(chǔ)和計(jì)算能力,因?yàn)槊總€(gè)項(xiàng)目的嵌入表示都必須存儲(chǔ)起來(lái),并且每次推薦操作都需要將用戶(hù)嵌入表示與整個(gè)項(xiàng)目存儲(chǔ)庫(kù)進(jìn)行比較。
生成式檢索(Generative Retrieval)是一種更新的方法,它嘗試通過(guò)簡(jiǎn)單地預(yù)測(cè)用戶(hù)交互序列中的下一個(gè)項(xiàng)目,而不是通過(guò)搜索數(shù)據(jù)庫(kù)來(lái)理解和推薦用戶(hù)意圖。
其工作原理如下:
使生成式檢索發(fā)揮作用的關(guān)鍵是計(jì)算“語(yǔ)義ID”(SIDs),其中包含每個(gè)項(xiàng)目的上下文信息。像TIGER這樣的生成式檢索系統(tǒng)分為兩個(gè)階段工作。首先,訓(xùn)練一個(gè)編碼器模型,根據(jù)每個(gè)項(xiàng)目的描述和屬性為其創(chuàng)建一個(gè)唯一的嵌入值。這些嵌入值成為SIDs,并與項(xiàng)目一起存儲(chǔ)。
在第二階段,訓(xùn)練一個(gè)變換器模型來(lái)預(yù)測(cè)輸入序列中的下一個(gè)SID。輸入SID列表表示用戶(hù)與過(guò)去項(xiàng)目的交互,模型的預(yù)測(cè)是要推薦的項(xiàng)目的SID。生成式檢索減少了存儲(chǔ)和跨單個(gè)項(xiàng)目嵌入表示進(jìn)行搜索的需求。因此,隨著項(xiàng)目列表的增長(zhǎng),其推理和存儲(chǔ)成本保持不變。它還增強(qiáng)了捕獲數(shù)據(jù)中更深層語(yǔ)義關(guān)系的能力,并提供了生成模型的其他好處,如調(diào)整“溫度”以調(diào)整推薦的多樣性。
高級(jí)生成式檢索
盡管生成式檢索的存儲(chǔ)和推理成本較低,但它也存在一些局限性。例如,它傾向于過(guò)擬合訓(xùn)練期間見(jiàn)過(guò)的項(xiàng)目,這意味著它在處理模型訓(xùn)練后添加到目錄中的項(xiàng)目時(shí)會(huì)遇到困難。在推薦系統(tǒng)中,這通常被稱(chēng)為“冷啟動(dòng)問(wèn)題”,即涉及新用戶(hù)和新項(xiàng)目,它們沒(méi)有交互歷史。
為了解決這些短板,Meta開(kāi)發(fā)了一種名為L(zhǎng)IGER的混合推薦系統(tǒng),該系統(tǒng)結(jié)合了生成式檢索的計(jì)算和存儲(chǔ)效率,以及Dense檢索的穩(wěn)健嵌入質(zhì)量和排名能力。
在訓(xùn)練期間,LIGER使用相似度得分和下一個(gè)標(biāo)記目標(biāo)來(lái)改進(jìn)模型的推薦。在推理時(shí),LIGER基于生成機(jī)制選擇幾個(gè)候選項(xiàng)目,并用一些冷啟動(dòng)項(xiàng)目進(jìn)行補(bǔ)充,然后根據(jù)生成候選項(xiàng)目的嵌入表示對(duì)這些項(xiàng)目進(jìn)行排名。
研究人員指出,“Dense檢索和生成式檢索方法的融合對(duì)推進(jìn)推薦系統(tǒng)具有巨大潛力”,并且隨著模型的發(fā)展,“它們將越來(lái)越適用于實(shí)際應(yīng)用,實(shí)現(xiàn)更個(gè)性化和響應(yīng)迅速的用戶(hù)體驗(yàn)”。
在另一篇論文中,研究人員介紹了一種新穎的多模態(tài)生成式檢索方法,名為多模態(tài)偏好辨識(shí)器(Mender),這是一種能夠使生成模型從用戶(hù)與不同項(xiàng)目的交互中捕捉隱含偏好的技術(shù)。Mender基于基于SIDs的生成式檢索方法構(gòu)建,并添加了一些組件,這些組件可以用用戶(hù)偏好豐富推薦。
Mender使用大型語(yǔ)言模型(LLM)將用戶(hù)交互轉(zhuǎn)化為特定偏好。例如,如果用戶(hù)在評(píng)論中贊揚(yáng)或抱怨了某個(gè)特定項(xiàng)目,模型將將其總結(jié)為對(duì)該產(chǎn)品類(lèi)別的偏好。
主要推薦模型在預(yù)測(cè)輸入序列中的下一個(gè)語(yǔ)義ID時(shí),被訓(xùn)練為同時(shí)以用戶(hù)交互序列和用戶(hù)偏好為條件。這使推薦模型具備泛化能力、能夠進(jìn)行上下文學(xué)習(xí),并適應(yīng)用戶(hù)偏好,而無(wú)需對(duì)這些偏好進(jìn)行顯式訓(xùn)練。
“我們的貢獻(xiàn)為新一代生成式檢索模型鋪平了道路,這些模型能夠利用有機(jī)數(shù)據(jù)通過(guò)文本用戶(hù)偏好來(lái)引導(dǎo)推薦,”研究人員寫(xiě)道。
對(duì)企業(yè)應(yīng)用的影響
生成式檢索系統(tǒng)所提供的效率對(duì)企業(yè)應(yīng)用具有重要影響。這些進(jìn)步轉(zhuǎn)化為即時(shí)的實(shí)際效益,包括降低基礎(chǔ)設(shè)施成本和加快推理速度。該技術(shù)無(wú)論目錄大小如何都能保持恒定的存儲(chǔ)和推理成本,這對(duì)成長(zhǎng)中的企業(yè)來(lái)說(shuō)尤其有價(jià)值。
這些好處橫跨各行業(yè),從電子商務(wù)到企業(yè)搜索。生成式檢索仍處于早期階段,我們可以期待隨著其成熟,將涌現(xiàn)出更多的應(yīng)用和框架。