自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2020年,這個(gè)算法團(tuán)隊(duì)都干了啥?

開(kāi)發(fā) 開(kāi)發(fā)工具 算法
我個(gè)人有寫年度總結(jié)的習(xí)慣,2020年我的工作職責(zé)有所變化,從垂直方向的廣告算法變化到了水平橫向的算法整體,所以這篇總結(jié)是關(guān)于阿里巴巴國(guó)際站(Alibaba.com,簡(jiǎn)稱ICBU)算法團(tuán)隊(duì)的。

 [[383980]]

寫在最前

我個(gè)人有寫年度總結(jié)的習(xí)慣,2020年我的工作職責(zé)有所變化,從垂直方向的廣告算法變化到了水平橫向的算法整體,所以這篇總結(jié)是關(guān)于阿里巴巴國(guó)際站(Alibaba.com,簡(jiǎn)稱ICBU)算法團(tuán)隊(duì)的。本文內(nèi)容主要包括以下幾個(gè)部分:

  • 第一部分,分享我對(duì)算法、電商算法的理解,以及ICBU算法團(tuán)隊(duì)的整體工作。
  • 第二部分,ICBU算法團(tuán)隊(duì)在2020年的一些重要技術(shù)突破。
  • 第三部分,關(guān)于工作中一些開(kāi)放性問(wèn)題的思考。
  • 第四部分,明年的展望。

一 ICBU算法團(tuán)隊(duì)簡(jiǎn)介

當(dāng)年在做廣告算法的時(shí)候,我曾經(jīng)想過(guò)一個(gè)問(wèn)題,“什么是廣告算法工程師”?當(dāng)時(shí)我從廣告、廣告算法、廣告算法工程師這3個(gè)維度,分別闡述了這個(gè)問(wèn)題。而現(xiàn)在,隨著職責(zé)的變化,我問(wèn)自己的問(wèn)題就變成了,“什么是算法工程師?”

1 算法

什么是算法?當(dāng)我們提到《算法導(dǎo)論》這本書的時(shí)候,當(dāng)我們給一個(gè)面試候選人出了一道“算法題”的時(shí)候,當(dāng)我們提到“區(qū)塊鏈算法”的時(shí)候,我們所說(shuō)的算法,可能指的是排序算法、遞歸算法、隨機(jī)算法、加密算法等等。這些“算法”,未必是我們現(xiàn)在“算法工程師”們?nèi)粘9ぷ髦械淖钪饕膬?nèi)容,這其中有一些“算法”,是所有程序員必備的基礎(chǔ)知識(shí);而另外一些“算法”,似乎是算法工程師們所專有的。“算法(Algorithms)”這個(gè)概念太模糊,以至于不會(huì)有一個(gè)清晰的內(nèi)涵和外延。

假如“算法”這個(gè)概念本身不那么清晰,那么“算法工程師”又是如何定義的呢?在國(guó)外,比如硅谷,是沒(méi)有“算法工程師”這樣的概念的,那里有數(shù)據(jù)科學(xué)家(Data Scientist)、應(yīng)用科學(xué)家(Applied Scientist)、AI工程師(AI Engineer)、機(jī)器學(xué)習(xí)工程師(Machine Learning Engineer),唯獨(dú)沒(méi)有“Algorithm Engineer”這樣的職位。

在國(guó)內(nèi)互聯(lián)網(wǎng)公司,最常見(jiàn)的對(duì)于“算法工程師”的定義,有兩種:

  • 工具視角:以“機(jī)器學(xué)習(xí)(或優(yōu)化)”等技術(shù)為日常工作主要工具的工程師,稱為算法工程師。就好比說(shuō),以“錛鑿斧鋸”為日常工作主要工具的工程師,我們稱之為“木匠”一樣,這種定義類似于Machine Learning Engineer。
  • 目的視角:以“優(yōu)化某可量化業(yè)務(wù)指標(biāo)”為日常工作主要目的的工程師,稱為算法工程師。就好比說(shuō),以“制作一個(gè)木質(zhì)家具”為日常工作主要目的的工程師,我們稱之為“木匠”一樣,這種定義類似于“指標(biāo)優(yōu)化工程師”。

兩種定義的視角,無(wú)所謂對(duì)錯(cuò),但是會(huì)塑造出不一樣的算法工程師。“工具視角”下的算法工程師,對(duì)于“工具”的使用熟練程度可能會(huì)比較高,但是可能會(huì)缺少業(yè)務(wù)感和目的感,缺少全?;哪芰鸵庠?而“目的視角”下的算法工程師,與前者相反,有不錯(cuò)的業(yè)務(wù)感和目的感,大多數(shù)有不錯(cuò)的全?;芰鸵庠?,但是對(duì)于“工具”的使用熟練程度未必那么高。

(PS:“目的視角”下的算法工程師的定義,引發(fā)了另外一個(gè)問(wèn)題:假如說(shuō)以“優(yōu)化某可量化業(yè)務(wù)指標(biāo)”為日常工作主要目的的工程師,是算法工程師,那么非算法崗位的其他開(kāi)發(fā)工程師,是否就不關(guān)心或者說(shuō)不能優(yōu)化業(yè)務(wù)指標(biāo)了呢?答案當(dāng)然是否定的,本文就不詳細(xì)展開(kāi)討論了。)

2 電商算法

阿里的算法工程師有很大一部分是服務(wù)于電商業(yè)務(wù)的,說(shuō)說(shuō)我對(duì)于“電商算法”的理解:

我們認(rèn)為,電商算法的主要工作,都圍繞著“分配(Allocation)”二字展開(kāi),要么是“分配”本身,比如對(duì)于外投營(yíng)銷預(yù)算、銷售傭金、廣告主的P4P預(yù)算和運(yùn)營(yíng)紅包的分配、對(duì)于銷售、拍檔和運(yùn)營(yíng)的時(shí)間精力的分配、對(duì)于買家的注意力(商機(jī))的分配;要么就是為了更好地“分配”而做的基建或準(zhǔn)備工作,比如對(duì)電商核心要素的數(shù)據(jù)標(biāo)準(zhǔn)化、對(duì)于視頻和直播等內(nèi)容更深入的理解、對(duì)于分配過(guò)程中作弊行為的識(shí)別和打擊。

根據(jù)資源“分配”過(guò)程本身市場(chǎng)化程度的高低、分配過(guò)程中人為主觀因素的重要程度、被分配資源的規(guī)模量級(jí)、分配所造成的業(yè)務(wù)影響的即時(shí)性、分配對(duì)于實(shí)時(shí)性的要求,演化出了對(duì)算法團(tuán)隊(duì)不同的要求:

  • 從以市場(chǎng)經(jīng)濟(jì)為主體,算法以中立(neutral)身份參與分配過(guò)程的方式到以宏觀調(diào)控為主體,算法主動(dòng)干預(yù)分配過(guò)程的方式。
  • 從組合和最優(yōu)化類的算法問(wèn)題到機(jī)器學(xué)習(xí)類的算法問(wèn)題。
  • 從以模型預(yù)測(cè)精準(zhǔn)度為目標(biāo)的有監(jiān)督學(xué)習(xí)任務(wù)到以長(zhǎng)期和全局的收益(reward)最大化為目標(biāo)的強(qiáng)化學(xué)習(xí)任務(wù)。
  • 從基于強(qiáng)可解釋性要求的樹(shù)模型算法到基于弱可解釋性的深度神經(jīng)網(wǎng)絡(luò)模型算法。
  • 從離線的算法建模工作到提供在線實(shí)時(shí)化的算法產(chǎn)品化的服務(wù)。
  • 從單目標(biāo)優(yōu)化的算法問(wèn)題到多目標(biāo)帶約束優(yōu)化的算法問(wèn)題。

豐富多彩的應(yīng)用場(chǎng)景,孕育了各種各樣的問(wèn)題定義,不同的問(wèn)題定義又催生出了不同的算法方案以及對(duì)于算法同學(xué)能力的不同要求。

效率和公平是衡量“分配”是否是“好分配”的兩個(gè)重要維度,通常來(lái)說(shuō),在分配效率還很低的時(shí)候,算法的關(guān)注點(diǎn)與優(yōu)化的重點(diǎn)都在效率提升方面,對(duì)于“公平”還不會(huì)考慮太多,而一旦效率提升到接近天花板的水平之后,“公平”問(wèn)題開(kāi)始浮出水面,應(yīng)該引起算法更多的重視。如何量化“效率和公平(尤其是公平)”不僅僅是算法問(wèn)題,更涉及到道德倫理、經(jīng)濟(jì)學(xué)、博弈論、數(shù)據(jù)科學(xué)等交叉學(xué)科,可以說(shuō)是電商算法領(lǐng)域最復(fù)雜最核心的問(wèn)題,甚至受到了人民日?qǐng)?bào)[2]的關(guān)注。

3 ICBU算法

先從一張所謂的“算法大圖”開(kāi)始:

ICBU算法團(tuán)隊(duì),隸屬于ICBU技術(shù)部,服務(wù)于ICBU業(yè)務(wù)。它的整體工作,從上面算法大圖的視角來(lái)看,可以分為3大部分:理解(Understanding)、增長(zhǎng)(Growth)和匹配(Matching),它們也分別對(duì)應(yīng)了Market Place的“貨、人、場(chǎng)”三個(gè)部分:

理解(Understanding)

指的是基于計(jì)算機(jī)視覺(jué)(CV)、自然語(yǔ)言處理(NLP)、深度學(xué)習(xí)(Deep Learning)、數(shù)據(jù)標(biāo)準(zhǔn)化(Data Standardization)和知識(shí)圖譜(Knowledge Graph)等基礎(chǔ)算法能力,打造整個(gè)業(yè)務(wù)的數(shù)字化基建底盤,提升我們對(duì)于商品(貨)、內(nèi)容(短視頻和直播)、買賣家、行業(yè)趨勢(shì)、市場(chǎng)供需等方面的理解,提升商品、內(nèi)容和商家的數(shù)字化程度,并基于這些理解去賦能增長(zhǎng)和匹配的環(huán)節(jié),降本增效。

增長(zhǎng)(Growth)

指的是在固定資源成本約束下,通過(guò)算法對(duì)于資源的最優(yōu)化分配,來(lái)實(shí)現(xiàn)電商業(yè)務(wù)核心要素的買賣家(人)最大化增長(zhǎng),根據(jù)所分配資源的不同,可以分成三個(gè)方面:

  • 第一方面(狹義理解的)買家增長(zhǎng),主要是基于組合優(yōu)化、趨勢(shì)發(fā)現(xiàn)(forecasting)、最優(yōu)化(Optimization)、對(duì)抗智能等基礎(chǔ)算法能力,來(lái)最優(yōu)化分配外投的市場(chǎng)預(yù)算,實(shí)現(xiàn)固定預(yù)算的情況下的業(yè)務(wù)價(jià)值(LTV/AB)最大化。
  • 第二方面,賣家增長(zhǎng),主要是基于數(shù)據(jù)驅(qū)動(dòng)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)建模、因果推斷(Casual Inference)等基礎(chǔ)算法能力,來(lái)最優(yōu)化分配銷售和拍檔的時(shí)間與精力,實(shí)現(xiàn)有限銷售和拍檔規(guī)模的情況下,新簽、續(xù)簽的會(huì)員費(fèi)營(yíng)收最大化。
  • 第三方面,智能運(yùn)營(yíng),基于算法賦能,最優(yōu)化分配運(yùn)營(yíng)的精力、買賣家運(yùn)營(yíng)紅包和免服務(wù)費(fèi)等運(yùn)營(yíng)權(quán)益,實(shí)現(xiàn)支付買家數(shù)、訂單數(shù)、GMV和供應(yīng)鏈營(yíng)收的最大化。

匹配(Matching)

指的是在包括搜索、推薦和廣告在內(nèi)的大市場(chǎng),完成買賣家的高效撮合匹配。主要是基于機(jī)器學(xué)習(xí)、最優(yōu)化和E&E等基礎(chǔ)算法能力,在最大化市場(chǎng)長(zhǎng)期和全局的匹配效率,追求有效商機(jī)極大產(chǎn)出(AB/Pay/GMV)的同時(shí),實(shí)現(xiàn)商機(jī)在自然品和廣告品之間的合理分配(商業(yè)化問(wèn)題)、商機(jī)在首次商機(jī)和往復(fù)商機(jī)之間的合理分配(貪心問(wèn)題)、商機(jī)在頭部商家和尾部商家之間的合理分配(馬太問(wèn)題)、商機(jī)在新品和爆品之間的合理分配(新品成長(zhǎng)問(wèn)題)、商機(jī)在RTS品和詢盤品之間的合理分配(雙賽道問(wèn)題)、商機(jī)在CGS和GGS商家之間的合理分配(GGS問(wèn)題)、商機(jī)在各個(gè)行業(yè)之間的合理分配(行業(yè)化問(wèn)題)、算法需要回答如何定義和度量(Define & Measure)上述7個(gè)“合理”,它們之間的關(guān)系,以及如何優(yōu)化它們。

如上圖所示,理解、增長(zhǎng)和匹配,形成了一個(gè):理解->增長(zhǎng)->匹配->增長(zhǎng)……的飛輪,帶動(dòng)整個(gè)ICBU業(yè)務(wù)的數(shù)字智能化的進(jìn)程。

二 2020年ICBU算法工作總結(jié)

接下來(lái)分別向大家分享一下“理解”、“增長(zhǎng)”和“匹配”三個(gè)領(lǐng)域的重要技術(shù)成果(以下內(nèi)容引用自ICBU算法團(tuán)隊(duì)相關(guān)文章)。

1 理解(Understanding)

場(chǎng)景底料挖掘

Alibaba.com國(guó)際站中,場(chǎng)景導(dǎo)購(gòu)在首頁(yè)中占據(jù)著非常重要的地位,但長(zhǎng)期起來(lái)并沒(méi)有體系化的場(chǎng)景生成方案,基本依靠人工經(jīng)驗(yàn)來(lái)完成場(chǎng)景的構(gòu)建,而且B類采購(gòu)的專業(yè)性、跨境貿(mào)易的文化多樣性、國(guó)際環(huán)境的不確定性更為有效的導(dǎo)購(gòu)場(chǎng)景設(shè)置了天然的障礙。因此我們針對(duì)B類采購(gòu)的需求,構(gòu)建了B類場(chǎng)景生成方案,包含了2大特色:

  1. 基于cpv的細(xì)分市場(chǎng)生成。
  2. 模擬用戶組合采購(gòu)的事件場(chǎng)景生成。

在網(wǎng)站App首頁(yè)、搜索推薦、云主題等場(chǎng)景應(yīng)用,在過(guò)去一年里,算法對(duì)場(chǎng)景內(nèi)容的豐富和優(yōu)化,為網(wǎng)站帶來(lái)了AB和支付買家數(shù)提升的業(yè)務(wù)價(jià)值。

智能發(fā)品

ICBU作為承接全球B類買家尋源的重要電商平臺(tái)之一,一直致力于幫助來(lái)自國(guó)內(nèi)的供應(yīng)商(CGS)和海外供應(yīng)商(GGS)發(fā)布優(yōu)質(zhì)的商品信息。商品表達(dá)的豐富度和確定性一直是影響買家詢盤,交易轉(zhuǎn)化的重要因素。為了解決很多商家缺乏運(yùn)營(yíng)能力、表達(dá)能力弱、重要屬性不填或者濫填、不知道該怎么填寫合理的商品標(biāo)題等問(wèn)題,算法建立標(biāo)題屬性自動(dòng)生成工具,其中提出了兩大創(chuàng)新點(diǎn):

  1. finetuning預(yù)訓(xùn)練文本生成模型BART,構(gòu)建了文本生成模型。
  2. 結(jié)合ICBU流量特性,將生成語(yǔ)料更符合B類電商檢索和閱讀。

項(xiàng)目上線實(shí)驗(yàn)效果為,在商品信息豐富度上整體約提升6%,算法推薦標(biāo)題內(nèi)容采納率CGS約32%,GGS約42%,實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)通過(guò)智能發(fā)布的商品在曝光效果提高約40%。

電商場(chǎng)景下的細(xì)粒度圖像分類

商品圖像是商品信息展示最重要的組成部分之一,網(wǎng)站圖像質(zhì)量經(jīng)過(guò)商品信息治理后已有很大提升,但仍缺乏對(duì)圖像內(nèi)容的識(shí)別和理解能力。同時(shí),B類商品標(biāo)準(zhǔn)化需要結(jié)合圖像標(biāo)簽?zāi)芰M(jìn)行商品信息擴(kuò)展和校驗(yàn),輸出商品結(jié)構(gòu)化表達(dá)。我們針對(duì)網(wǎng)站需求構(gòu)建的圖像標(biāo)簽服務(wù)具有以下特色:

細(xì)粒度圖像分類模型。為提高對(duì)相似商品識(shí)別的區(qū)分能力,提出一種基于主體分割和圖關(guān)系網(wǎng)絡(luò)的圖像標(biāo)簽識(shí)別方法,擴(kuò)大圖像標(biāo)簽的精準(zhǔn)度和召回率。

沉淀了B類特色圖像標(biāo)簽體系,基于CPV品類體系抽象出外觀有顯著區(qū)分度的品類以及屬性作為圖像標(biāo)簽輸出能力,標(biāo)簽體系已覆蓋交易TOP15行業(yè),數(shù)千個(gè)品類標(biāo)簽。

該項(xiàng)目會(huì)應(yīng)用于搜索相關(guān)性提升和商品內(nèi)容理解,沉淀的技術(shù)創(chuàng)新《Object Decoupling with Graph Correlation for Fine-Grained Image Classification》已投稿于ICME2021會(huì)議。

視頻檢測(cè)、分析、創(chuàng)意

在視頻創(chuàng)意外投承接項(xiàng)目中,我們基于對(duì)視頻智能創(chuàng)作流程的理解,設(shè)計(jì)出了一套基于優(yōu)質(zhì)視頻進(jìn)行視頻合成的方法,提出視頻智能裁切等創(chuàng)新點(diǎn),解決了視頻智能多尺寸、視頻素材優(yōu)選、視頻創(chuàng)意美化的難題,克服了目前網(wǎng)站視頻素材質(zhì)量參差不齊、海外平臺(tái)本地化的挑戰(zhàn)。該項(xiàng)目上線后,共生成視頻創(chuàng)意若干個(gè),為ICBU業(yè)務(wù)節(jié)省了若干的創(chuàng)意成本;該項(xiàng)目在取得業(yè)務(wù)價(jià)值的同時(shí),所沉淀的技術(shù)創(chuàng)新能力也得到了業(yè)界的認(rèn)可,該技術(shù)目前已經(jīng)應(yīng)用開(kāi)源。

2 增長(zhǎng)(Growth)

外投預(yù)算分配

在智能預(yù)算分配1.0項(xiàng)目中,我們基于站內(nèi)外付費(fèi)流量數(shù)據(jù)的深刻洞察,提出了基于分層強(qiáng)化學(xué)習(xí)的智能預(yù)算分配方案,包含了3大創(chuàng)新點(diǎn):

  1. 設(shè)計(jì)了預(yù)估器-求解器架構(gòu)求解整體預(yù)算分配問(wèn)題。
  2. 使用站內(nèi)外渠道/國(guó)家等特征對(duì)付費(fèi)渠道進(jìn)行回歸預(yù)估,構(gòu)建模型學(xué)習(xí)環(huán)境。
  3. 設(shè)計(jì)了基于分層強(qiáng)化學(xué)習(xí)的算法求解器,高效求解預(yù)算分配問(wèn)題。

通過(guò)分層強(qiáng)化學(xué)習(xí)等創(chuàng)新設(shè)計(jì),有效克服了預(yù)算分配與強(qiáng)化學(xué)習(xí)領(lǐng)域中的稀疏獎(jiǎng)賞與延遲獎(jiǎng)賞問(wèn)題,增加求解精度與效率。項(xiàng)目上線后,為付費(fèi)PPC渠道cpab降低10.3%,該項(xiàng)目還形成了核心創(chuàng)新方案《基于自注意力機(jī)制的強(qiáng)化學(xué)習(xí)預(yù)算分配解決方案》和《基于分布式神經(jīng)進(jìn)化算法的多目標(biāo)預(yù)算分配模型優(yōu)化方案》。

horae精排

在horae 1.0項(xiàng)目中,我們基于對(duì)付費(fèi)流量特性的深刻洞察,在付費(fèi)流量場(chǎng)景從0開(kāi)始搭建整套召回+排序體系,提出3大創(chuàng)新點(diǎn):

  1. 基于站外曝光品的用戶行為采集。
  2. 充分使用站外渠道/國(guó)家特征。
  3. 基于核心屬性的交叉特征構(gòu)建。

對(duì)付費(fèi)流量進(jìn)行單獨(dú)建模,解決了付費(fèi)流量與站內(nèi)流量在分布上存在巨大差異的領(lǐng)域難題。同時(shí)克服了付費(fèi)流量樣本較少的問(wèn)題,context特征大量采用站外特征,而商品特征大量采用全站統(tǒng)計(jì)特征,充分利用站內(nèi)數(shù)據(jù)進(jìn)行輔助學(xué)習(xí)。項(xiàng)目上線后,為ICBU展示廣告業(yè)務(wù)帶來(lái)了App端AB rate提升13.6%,Wap端AB rate 提升3%。

供需匹配構(gòu)建

在先知(紅藍(lán)海)項(xiàng)目中,我們基于對(duì)買賣家數(shù)據(jù)的深刻洞察,設(shè)計(jì)出了用來(lái)度量人貨匹配和供給選擇的量化指標(biāo),提出了藍(lán)海度、競(jìng)爭(zhēng)力、豐富度三維指數(shù), 帶來(lái)了從銷售驅(qū)動(dòng)的供給升級(jí)為基于行業(yè)路徑和買家需求的定招培育新引擎。該項(xiàng)目上線后,平均簽單周期縮短8%,發(fā)MC15提升44%,品效是大盤2倍之多。該項(xiàng)目在取得業(yè)務(wù)價(jià)值的同時(shí),也取得了技術(shù)創(chuàng)新,各指數(shù)綜合了站內(nèi)數(shù)百特征的同時(shí),結(jié)合利用基于時(shí)序TRMF預(yù)測(cè)的未來(lái)趨勢(shì)和周期性走勢(shì)。

買家意愿訂單確認(rèn)

在Stellar項(xiàng)目中,我們基于賣家待確認(rèn)PO單數(shù)量較大導(dǎo)致訂單無(wú)法及時(shí)確認(rèn),影響O-P轉(zhuǎn)化的業(yè)務(wù)痛點(diǎn),提出基于買家質(zhì)量、賣家接單偏好及訂單質(zhì)量等維度,基于樹(shù)模型實(shí)時(shí)預(yù)測(cè)優(yōu)質(zhì)PO單,并解決了數(shù)據(jù)質(zhì)量提升、樣本不均衡、id特征及長(zhǎng)尾類別特征等技術(shù)難題,緩解了O-P鏈路環(huán)節(jié)中賣家確認(rèn)率低的業(yè)務(wù)難題。該項(xiàng)目上線后,PO單確認(rèn)率提升7pt,O-P轉(zhuǎn)化+1.2%。

TAO商家智能運(yùn)營(yíng)

在TAO拉新項(xiàng)目中,我們發(fā)現(xiàn)在供應(yīng)鏈運(yùn)營(yíng)場(chǎng)景,拍檔的人力是有限的,但是客戶規(guī)模不斷在增長(zhǎng),如何在有限的人力情況下提升拍檔的人效,我們提出通過(guò)大數(shù)據(jù)的學(xué)習(xí)及模型可解釋能力,預(yù)測(cè)潛客分層及千人千面診斷&Action,為拍檔提供傻瓜式的行動(dòng)指引,項(xiàng)目中使用SHAP、子模型等可解釋技術(shù)方案,并將算法解釋轉(zhuǎn)換為可執(zhí)行的Action。該項(xiàng)目上線后,為ICBU業(yè)務(wù)帶來(lái)了,TAO拉新轉(zhuǎn)化率+8.46%,累計(jì)貢獻(xiàn)GMV提升的業(yè)務(wù)價(jià)值。

物流費(fèi)用精準(zhǔn)預(yù)測(cè)

在尼斯湖雙十二買家物流五折項(xiàng)目中,我們發(fā)現(xiàn)傳統(tǒng)的營(yíng)銷運(yùn)營(yíng)是廣撒網(wǎng)式的做法,由于與自然轉(zhuǎn)化客群有較大的交集會(huì)造成較多的預(yù)算浪費(fèi),因此我們首先通過(guò)對(duì)具備采購(gòu)需求嚴(yán)肅買家支付卡點(diǎn)的分析洞察,進(jìn)而提出在營(yíng)銷預(yù)算有限的情況下,通過(guò)算法精準(zhǔn)預(yù)測(cè)物流費(fèi)用敏感的支付增量人群的創(chuàng)新點(diǎn)。該項(xiàng)目上線后,為ICBU業(yè)務(wù)帶來(lái)了月均支付增量買家數(shù)提升,和ROI提升的業(yè)務(wù)價(jià)值。

3 匹配(Matching)

動(dòng)態(tài)網(wǎng)絡(luò)表征學(xué)習(xí)

在DyHAN(動(dòng)態(tài)圖向量檢索)項(xiàng)目中,我們發(fā)現(xiàn)買家在尋源過(guò)程中在不斷嘗試尋找更有效的供應(yīng)商,導(dǎo)致買賣家形成的關(guān)系圖隨著時(shí)間推移在不斷演進(jìn)。而之前基于靜態(tài)圖的模型無(wú)法捕捉這種變化,因此我們提出了基于動(dòng)態(tài)圖的表征學(xué)習(xí)方法,解決了電商表征建模領(lǐng)域節(jié)點(diǎn)信息不斷演進(jìn)帶來(lái)的問(wèn)題。該項(xiàng)目在ICBU商品詳情頁(yè)跨店推薦上線后,核心的詢盤轉(zhuǎn)化率提升3.54%,創(chuàng)建訂單轉(zhuǎn)化率提升14.23%;該項(xiàng)目在取得業(yè)務(wù)價(jià)值的同時(shí),所沉淀的技術(shù)創(chuàng)新也得到了業(yè)界認(rèn)可,沉淀的《Dynamic Heterogeneous Graph Embedding using Hierarchical Attentions》和《Modeling Dynamic Heterogeneous Network for Link Prediction using Hierarchical Attention with Temporal RNN》論文,分別被ECIR2020和ECML-PKDD2020會(huì)議收錄 。

深度多興趣網(wǎng)絡(luò)

在DMIN(深度多興趣排序建模)項(xiàng)目中,我們基于ICBU買家特點(diǎn),發(fā)現(xiàn)部分零售商和采購(gòu)商,其采購(gòu)商品往往橫跨多個(gè)類目,且在多個(gè)類目的偏好程度隨時(shí)間出現(xiàn)變化。我們基于DIN模型,提出多層次的多興趣抽取網(wǎng)絡(luò)模型,提升了模型動(dòng)態(tài)建模買家多興趣的精準(zhǔn)性。該項(xiàng)目在ICBU推送推薦場(chǎng)景上線后,曝光點(diǎn)擊率提升10.4%,買家訂單轉(zhuǎn)化率提升13%;該項(xiàng)目在取得業(yè)務(wù)價(jià)值的同時(shí),所沉淀的技術(shù)創(chuàng)新也得到了業(yè)界認(rèn)可,沉淀的《Deep Multi-Interest Network for Click-through Rate Prediction》論文,被CIKM’20會(huì)議收錄。

向量召回

跨境B類搜索場(chǎng)景下用戶搜索詞更加多樣化、表達(dá)更加專業(yè)化,基于傳統(tǒng)的關(guān)鍵字召回技術(shù)零少問(wèn)題很嚴(yán)重,搜索長(zhǎng)尾流量占比將近30%。從2018年開(kāi)始,ICBU搜索就開(kāi)始著手探索向量召回技術(shù),用空間向量距離來(lái)進(jìn)行相似度估計(jì),從語(yǔ)義層面進(jìn)行最相關(guān)(距離最近)產(chǎn)品的召回。今年ICBU搜索首次嘗試?yán)肂ERT模型結(jié)構(gòu),自研FashionBERT做到更細(xì)粒度的多模態(tài)匹配,目前已經(jīng)基本解決ICBU搜索的零少問(wèn)題。

在項(xiàng)目中,我們將商品圖像用于召回,即將Query和item image的對(duì)應(yīng)關(guān)系轉(zhuǎn)化為圖文匹配。我們提出FashionBERT圖文匹配模型,直接將圖像split相同大小的Patch,然后將Patch作為圖像的token,和文本進(jìn)行擬合。同時(shí)增加wordpiece來(lái)解決oov問(wèn)題,query graph attention(GAT)來(lái)增加長(zhǎng)尾Query的泛化能力。我們?cè)陔娚填I(lǐng)域FashionGen數(shù)據(jù)集,對(duì)比了主流圖文匹配技術(shù),F(xiàn)ashionBERT取得非常明顯的提升,目前論文《FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval》已被SIGIR2020 Industry Track接收。

語(yǔ)義搜索

ICBU用戶搜索詞更加多樣化表達(dá)更加專業(yè)化,召回和匹配一直是ICBU網(wǎng)站的搜索優(yōu)化重點(diǎn)。2020年上半年我們完成了語(yǔ)義搜索1.0(向量召回3.0+語(yǔ)義匹配1.0)的升級(jí),基本解決了相關(guān)性零少問(wèn)題和緩解了關(guān)鍵字字面匹配局限問(wèn)題,但是從通過(guò)人工達(dá)標(biāo)分析case,發(fā)現(xiàn)當(dāng)前鏈路依然存在Query理解不足-類目預(yù)測(cè)不準(zhǔn);核心詞提取不準(zhǔn);關(guān)鍵相關(guān)性和語(yǔ)義相關(guān)性融合方式欠佳等三個(gè)問(wèn)題;針對(duì)這些問(wèn)題,我們?nèi)诤先齻€(gè)子項(xiàng)目ICBU NER 1.0,類目預(yù)測(cè)2.0和相關(guān)性2.0(融合優(yōu)化+NER調(diào)檔)。進(jìn)行聯(lián)合優(yōu)化,取得了非常不錯(cuò)的業(yè)務(wù)結(jié)果:高相關(guān)商品曝光占比提升6%,搜索相關(guān)性零少下降8%,點(diǎn)擊提升+0.65%,詢盤提升1.44%,支付轉(zhuǎn)化提升6.30%。

類目預(yù)測(cè)

對(duì)于ICBU而言,類目預(yù)測(cè)算法的應(yīng)用場(chǎng)景非常廣泛。在搜索系統(tǒng)中,類目預(yù)測(cè)結(jié)果是商品相關(guān)性的重要判定標(biāo)準(zhǔn),會(huì)直接影響搜索結(jié)果的召回和排序。對(duì)于搜索廣告而言,類目預(yù)測(cè)也直接影響買家體驗(yàn)和廣告主效果。因此我們針對(duì)ICBU類目預(yù)測(cè)算法中存在的核心問(wèn)題進(jìn)行了重點(diǎn)優(yōu)化:

  • 文本語(yǔ)義分類模型由fasttext升級(jí)到了BERT。
  • 借助ICBU在NER技術(shù)上的沉淀,通過(guò)Query中關(guān)鍵NER屬性詞組召回相應(yīng)類目。

類目預(yù)測(cè)算法優(yōu)化取得了不錯(cuò)的效果:

  • 離線評(píng)測(cè)指標(biāo):0檔位TOP1類目準(zhǔn)確率+5%, 0檔位整體類目準(zhǔn)確率+2.4%,0檔位類目召回提升了12.0%。
  • 打包語(yǔ)義搜索項(xiàng)目整體,搜索業(yè)務(wù)指標(biāo)影響:PC端 L-D +0.65%,L-AB +1.44%,L-P +6.30% ;APP端 L-D +0.69%,L-AB +1.93%,L-P +1.96%。
  • 對(duì)于廣告業(yè)務(wù)指標(biāo)影響:預(yù)算分桶下pv2f +2%,rpm+1%,badcase降低3.4%。

跨語(yǔ)言向量召回

我們利用全新的跨語(yǔ)言向量召回技術(shù),跨越Query翻譯的障礙,極大豐富搜索召回結(jié)果,促進(jìn)轉(zhuǎn)化效率的提升。該創(chuàng)新技術(shù)通過(guò)基于大規(guī)模平行數(shù)據(jù)的跨語(yǔ)言預(yù)訓(xùn)練模型EcomLM,解決不同語(yǔ)言難以映射到同一語(yǔ)義空間的難題。結(jié)合商業(yè)表征以及用戶行為信息的間接交互模型,克服了傳統(tǒng)雙塔模型信息隔離的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,通過(guò)跨語(yǔ)言向量召回,搜索零少結(jié)果率下降至1%以下,V1.0版本多語(yǔ)言整體L-AB +1.34%,L-P +4.2%。此外,我們?cè)谡Z(yǔ)種識(shí)別、Query翻譯、多語(yǔ)言語(yǔ)義相關(guān)性模型等模塊也有一定的技術(shù)積累,旨在打造一套完整的跨語(yǔ)言搜索解決方案。

結(jié)構(gòu)化理解

ICBU作為國(guó)際B類跨境貿(mào)易的戰(zhàn)場(chǎng),在當(dāng)前網(wǎng)站的關(guān)鍵詞相關(guān)性部分仍存在這個(gè)一些問(wèn)題,例如匹配準(zhǔn)度不夠、中心詞提取錯(cuò)誤、類目預(yù)測(cè)準(zhǔn)確率低。以中心詞提取模塊為例,在關(guān)鍵詞匹配的錯(cuò)誤中,中心詞提取錯(cuò)誤占了40%,不僅如此,中心詞提取也缺乏提取Query或title中關(guān)鍵屬性的能力,例如用戶搜索商品時(shí)指定的顏色、規(guī)格等,這些都是中心詞提取模塊所欠缺的,因此從國(guó)際站搜索的角度來(lái)看,迫切需要NER工具來(lái)提升目前的關(guān)鍵詞匹配準(zhǔn)確行。

首先,我們通過(guò)與達(dá)摩院多語(yǔ)言NLP基礎(chǔ)團(tuán)隊(duì)的合作將NER直接用于搜索匹配中,通過(guò)NER來(lái)對(duì)Query與商品之間實(shí)現(xiàn)屬性匹配,基于NER模型的屬性匹配,不僅解決了中心詞提取模塊準(zhǔn)確率低的問(wèn)題,同時(shí)也能夠通過(guò)對(duì)其Query與offfer中的相同屬性,從而給予用戶更加精準(zhǔn)的搜索體驗(yàn)。另一方面,NER也賦能ICBU中的其他業(yè)務(wù),如類目預(yù)測(cè)等、新屬性發(fā)現(xiàn)、CPV屬性擴(kuò)充等,在新的季度,我們也會(huì)將NER搜索算法的各個(gè)方面,如深度語(yǔ)義匹配,個(gè)性化召回等。

三 一些思考

1 數(shù)據(jù)與算法

對(duì)于業(yè)務(wù)技術(shù)團(tuán)隊(duì)而言,數(shù)據(jù),可以從兩個(gè)方面去理解它:

  • 數(shù)據(jù)科學(xué)(業(yè)務(wù)指標(biāo)和因果推斷)——用來(lái)回答“算法要去向何方以及如何判斷算法做的事情是否成功”的一個(gè)可量化的標(biāo)準(zhǔn)。
  • 數(shù)據(jù)資產(chǎn)——買賣家的行為和整個(gè)業(yè)務(wù)連路上沉淀下的所有數(shù)據(jù)資產(chǎn)。

數(shù)據(jù)資產(chǎn)和算法的關(guān)系可以理解為:數(shù)據(jù)資產(chǎn)是燃料,算法是引擎,引擎的輸出取決于燃料的質(zhì)量和數(shù)量?;蛘哒f(shuō),數(shù)據(jù)資產(chǎn)是底層的基礎(chǔ),算法是上層的應(yīng)用,算法離開(kāi)了數(shù)據(jù)資產(chǎn)的養(yǎng)分,就是無(wú)源之水無(wú)本之木。

數(shù)據(jù)科學(xué)和算法的關(guān)系可以理解為:數(shù)據(jù)科學(xué)是確定方向和目標(biāo)、定義問(wèn)題、指路明燈,是立靶子。而算法做的事情是在定了方向和目標(biāo)之后,如何高效率地去標(biāo)準(zhǔn)靶子,去高效率地追逐目標(biāo)。

結(jié)合這兩個(gè)角度來(lái)看,算法和數(shù)據(jù),密不可分,數(shù)據(jù)科學(xué)為算法定義了問(wèn)題和目標(biāo)方向,而數(shù)據(jù)資產(chǎn)又為算法提供了燃料,供算法充分挖掘并使得算法有機(jī)會(huì)去逼近數(shù)據(jù)科學(xué)指定的目標(biāo),并高效地解決數(shù)據(jù)科學(xué)所提出的問(wèn)題。

2 目標(biāo)的重要性

前面剛剛說(shuō)到了“數(shù)據(jù)科學(xué)為算法定義了問(wèn)題和目標(biāo)方向”,下面我聊聊“目標(biāo)”這個(gè)話題,我拿一個(gè)真實(shí)的故事舉個(gè)例子:《印尼懸賞除鼠患遭質(zhì)疑:有人為領(lǐng)獎(jiǎng)會(huì)養(yǎng)老鼠》[1]。

上面真實(shí)故事里面,初衷是好的,以O(shè)KR來(lái)舉例的話,O(目標(biāo))可能是“創(chuàng)建衛(wèi)生城市,消滅鼠患”。KR的話,有可能是:“通過(guò)科學(xué)滅鼠的方式,(消滅1000w只老鼠)收集到1000w條的老鼠尾巴。”

消滅鼠患,當(dāng)然要?dú)⑺览鲜?殺死老鼠越多,鼠患消除的越徹底;而殺死老鼠越多,老鼠尾巴就應(yīng)該會(huì)越多——所以我們拿“老鼠尾巴”的個(gè)數(shù),來(lái)作為一個(gè)可量化指標(biāo)來(lái)度量“消滅鼠患”這個(gè)目標(biāo)完成的怎么樣,似乎是一個(gè)合理的選擇?問(wèn)題在于落地和執(zhí)行,在這個(gè)“老鼠尾巴”這個(gè)量化指標(biāo)的激勵(lì)下,人們?cè)趫?zhí)行時(shí),會(huì)走偏,會(huì)發(fā)生“養(yǎng)老鼠”這樣奇葩的事情。

一個(gè)目標(biāo),對(duì)于一個(gè)業(yè)務(wù)的成敗來(lái)說(shuō),其重要性,無(wú)論多么強(qiáng)調(diào)都不為過(guò)。

3 對(duì)于未來(lái)AB的優(yōu)化

我們B類跨境外貿(mào)在大市場(chǎng)(搜索推薦)算法領(lǐng)域的特點(diǎn)是什么?傳統(tǒng)偏C類電商的搜索推薦場(chǎng)景下,買家的轉(zhuǎn)化行為周期比較短,這個(gè)轉(zhuǎn)化的目標(biāo)是一個(gè)離散的目標(biāo):可以是強(qiáng)轉(zhuǎn)化(成交),也可以是弱轉(zhuǎn)化(加購(gòu)、收藏、關(guān)注),但無(wú)論是強(qiáng)弱轉(zhuǎn)化目標(biāo),算法建模的目標(biāo)的都是一個(gè)離散的、脈沖式的單點(diǎn)的短期轉(zhuǎn)化行為的概率,算法優(yōu)化的目標(biāo)也同樣是這個(gè)離散的、脈沖式的單點(diǎn)的短期轉(zhuǎn)化行為的數(shù)學(xué)期望的最大化。

而我們B類的跨境貿(mào)易電商場(chǎng)景下,一個(gè)B類買家的轉(zhuǎn)化行為周期很長(zhǎng),這個(gè)轉(zhuǎn)化的目標(biāo),不應(yīng)該是一個(gè)離散的目標(biāo)——比如當(dāng)天是否會(huì)發(fā)生AB行為,而應(yīng)該是一個(gè)連續(xù)化的目標(biāo):一個(gè)買家在未來(lái)的每一天里會(huì)發(fā)生AB的行為的概率,我們需要對(duì)這個(gè)AB在他整個(gè)生意周期當(dāng)中,會(huì)留存在ICBU的概率進(jìn)行連續(xù)化地建模和連續(xù)化地優(yōu)化。如果說(shuō)C類電商搜索推薦場(chǎng)景下,C類買家的整個(gè)轉(zhuǎn)化行為周期比較短,因此建模和優(yōu)化的目標(biāo)本身應(yīng)該也比較短的,是一個(gè)突兀的脈沖點(diǎn)的話,那么我們B類電商搜索推薦建模和優(yōu)化的目標(biāo)應(yīng)該是一段持續(xù)穩(wěn)健上升的曲線。也許是我們B類跨境貿(mào)易算法需要優(yōu)化和建模的重要特點(diǎn),值得我們思考。

當(dāng)下的優(yōu)化

簡(jiǎn)單的說(shuō),當(dāng)下的優(yōu)化,算法的目標(biāo)是去最大化每一次曝光機(jī)會(huì)轉(zhuǎn)化為一個(gè)AB行為的概率,因此算法真正需要去建模的,就是下面這個(gè)概率:

對(duì)于當(dāng)下優(yōu)化的反思與拆解

我們對(duì)當(dāng)下的搜索推薦的算法優(yōu)化的反思主要來(lái)自兩個(gè)方面:

    (原目標(biāo))   (算法標(biāo))
優(yōu)化粒度 用戶粒度(AB) 行為粒度(AB行為)
優(yōu)化范圍 所有AB(首次+往復(fù)) 首次AB

讓我們?cè)僮屑?xì)回顧一下我們真正想要的 (原目標(biāo)),并對(duì)它進(jìn)行一個(gè)細(xì)致的拆解:

 

四 展望

接下來(lái),我們的幾個(gè)重點(diǎn)包括:智能化運(yùn)營(yíng)&買賣家增長(zhǎng)之間的更多聯(lián)動(dòng)、內(nèi)容化、搜推大市場(chǎng)的優(yōu)化目標(biāo)新定義、E&E馬太問(wèn)題&在監(jiān)管之下的調(diào)控等。接下來(lái)的一年,將是算法團(tuán)隊(duì)再起飛的一年,算法團(tuán)隊(duì)將更聚焦、做更少的事(但需要更多的人),每做一件事都做深做透,不求每件事都成功,但求每件事都有收獲,無(wú)論是業(yè)務(wù)上的、技術(shù)上的,還是經(jīng)驗(yàn)教訓(xùn)上的,并爭(zhēng)取交出算法團(tuán)隊(duì)自身的代表作。

 

責(zé)任編輯:武曉燕 來(lái)源: 51CTO專欄
相關(guān)推薦

2021-11-04 12:42:55

RocketMQ啟動(dòng)消費(fèi)

2018-07-11 05:56:19

2015-07-07 17:21:46

2014-09-05 10:02:55

微軟

2020-01-09 13:31:50

AI 數(shù)據(jù)人工智能

2021-03-08 08:03:44

注解Spring配置

2021-01-03 10:37:50

前端開(kāi)發(fā)技術(shù)

2015-03-02 10:35:25

百度專利經(jīng)費(fèi)

2022-09-30 15:05:34

前端錯(cuò)誤工具

2020-04-07 16:21:38

疫情科技企業(yè)

2023-03-24 12:34:56

2018-10-23 17:08:11

CIOIT人才

2020-05-13 18:10:47

個(gè)人隱私App移動(dòng)應(yīng)用

2023-04-04 14:26:25

2022-11-30 20:30:18

2022-06-27 07:23:20

React?并發(fā)

2021-01-19 15:12:16

AI

2015-04-02 10:37:48

互聯(lián)網(wǎng)愚人節(jié)

2016-11-24 23:32:32

技術(shù)面試團(tuán)隊(duì)協(xié)作解決問(wèn)題

2019-10-15 10:03:43

人工智能機(jī)器學(xué)習(xí)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)