自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為電商而生的知識(shí)圖譜,如何感應(yīng)用戶需求?

開發(fā) 開發(fā)工具 知識(shí)圖譜
本文從需求分析和體系化構(gòu)建的角度出發(fā),闡述在電商這一特殊領(lǐng)域的知識(shí)圖譜構(gòu)建過(guò)程中,形成的一整套概念體系,還有在此過(guò)程中,通過(guò)算法、工程、產(chǎn)品、運(yùn)營(yíng)和外包團(tuán)隊(duì)投入大量精力,通過(guò)不斷磨合逐漸完善的平臺(tái)架構(gòu)和審核流程。

[[243140]]

1、背景

電商認(rèn)知圖譜從17年6月啟動(dòng)以來(lái),通過(guò)不斷從實(shí)踐到體系化的摸索,逐漸形成了一套較為完善的電商數(shù)據(jù)認(rèn)知體系。

在當(dāng)前集團(tuán)不斷拓展業(yè)務(wù)邊界的背景下,數(shù)據(jù)互聯(lián)的需求越來(lái)越強(qiáng)烈,因?yàn)檫@是跨領(lǐng)域的搜索發(fā)現(xiàn)、導(dǎo)購(gòu)和交互的基礎(chǔ),也是真正能讓用戶“逛起來(lái)”要具備的基礎(chǔ)條件。但在此之前,我們需要對(duì)當(dāng)前的問題做一個(gè)分析。

1.1問題

更復(fù)雜的數(shù)據(jù)應(yīng)用場(chǎng)景不僅是傳統(tǒng)的電商,現(xiàn)在我們面臨的是新零售、多語(yǔ)言、線上線下結(jié)合的復(fù)雜購(gòu)物場(chǎng)景,所用到的數(shù)據(jù)也往往超出了以往的文本范圍,這些數(shù)據(jù)往往都具有一些特點(diǎn):

非結(jié)構(gòu)化互聯(lián)網(wǎng)的大量數(shù)據(jù)都是分散在各個(gè)來(lái)源而且基本是非結(jié)構(gòu)化文本方式來(lái)表示,目前的類目體系從商品管理角度出發(fā),做了長(zhǎng)期而大量的工作,仍然只是覆蓋了大量數(shù)據(jù)的冰山一角,這對(duì)于認(rèn)知真正的用戶需求當(dāng)然是遠(yuǎn)遠(yuǎn)不夠的。

充滿噪聲:不同于傳統(tǒng)的文本分析,目前集團(tuán)內(nèi)的數(shù)據(jù)大部分是query、title、評(píng)論、攻略等,這些數(shù)據(jù)由于用戶習(xí)慣和商家訴求,會(huì)存在非常不同于普通文本的語(yǔ)法結(jié)構(gòu),也會(huì)由于利益原因存在大量噪聲和臟數(shù)據(jù),這也為真正發(fā)現(xiàn)用戶需求并結(jié)構(gòu)化帶來(lái)了極大的困難。

多模態(tài)、多源:隨著集團(tuán)的業(yè)務(wù)擴(kuò)展,目前的搜索推薦不僅容納了商品中的文本信息、大量視頻、圖片也作為內(nèi)容被使用、如何融合各個(gè)來(lái)源的數(shù)據(jù)、如何在關(guān)聯(lián)多模態(tài)數(shù)據(jù)也是數(shù)據(jù)建設(shè)的一個(gè)難點(diǎn)。

數(shù)據(jù)分散,無(wú)法互聯(lián):從目前的商品體系建設(shè)來(lái)說(shuō),各個(gè)部門由于業(yè)務(wù)快速發(fā)展,往往需要維護(hù)自己的一套cpv體系,這也是后期做商品管理和搜索的非常關(guān)鍵的一環(huán),但是由于應(yīng)用場(chǎng)景的行業(yè)屬性不一樣,比如閑魚的"包配飾"由于業(yè)務(wù)場(chǎng)景高頻會(huì)是一個(gè)需要再細(xì)分的類目,但在淘系由于交易搜索低頻,"鞋包配飾"僅僅是二手閑置下的一個(gè)小類目,這造成各個(gè)部門需要費(fèi)力地維護(hù)在自己的cpv體系上的查詢和搜索,每次都要重建自己的類目體系,重新支持存儲(chǔ)查詢,重新關(guān)聯(lián)商品,重新做類目預(yù)測(cè)等。如何建設(shè)一個(gè)比較通用的面向應(yīng)用的概念體系,支持根據(jù)業(yè)務(wù)需求提供查詢服務(wù),已經(jīng)迫在眉睫。

缺少數(shù)據(jù)的深度認(rèn)知:數(shù)據(jù)的深度認(rèn)知不是認(rèn)知商品,而是認(rèn)知用戶需求之間的關(guān)聯(lián),如何能在用戶搜索"葉酸”的時(shí)候認(rèn)知到她有備孕需求,如何能在用戶大量點(diǎn)擊燒烤調(diào)料和工具的時(shí)候認(rèn)知到他需要進(jìn)行野外燒烤,是目前全集團(tuán)都缺少的。

1.2需求分析

通過(guò)如下的背景介紹,我們可以明確到,為了構(gòu)建一個(gè)全局統(tǒng)一的知識(shí)表示和查詢框架,我們需要如下的關(guān)鍵工作。

復(fù)雜場(chǎng)景的數(shù)據(jù)結(jié)構(gòu)化:在復(fù)雜的場(chǎng)景下,我們首先要做的是數(shù)據(jù)清洗,通過(guò)頻次過(guò)濾、規(guī)則和統(tǒng)計(jì)分析把臟數(shù)據(jù)去掉,然后通過(guò)短語(yǔ)挖掘,信息抽取等方法把高可用的數(shù)據(jù)抓取出來(lái),進(jìn)行數(shù)據(jù)的結(jié)構(gòu)化和層次劃分。

分散數(shù)據(jù)的統(tǒng)一表示框架:對(duì)于管理分散數(shù)據(jù),我們首先是需要定義一個(gè)全局的schema表示和存儲(chǔ)方法,然后基于schema進(jìn)行概念數(shù)據(jù)的融合,屬性的挖掘和發(fā)現(xiàn),在數(shù)據(jù)關(guān)聯(lián)上有可能要通過(guò)各種表示學(xué)習(xí)的方法來(lái)完成。

數(shù)據(jù)深度認(rèn)知:深度認(rèn)知包含兩個(gè)方面,一個(gè)是數(shù)據(jù)本身的認(rèn)知,一個(gè)是數(shù)據(jù)關(guān)聯(lián)的認(rèn)知,通過(guò)行為和商品本身的信息我們可以認(rèn)知到用戶購(gòu)買商品的意圖,通過(guò)外部數(shù)據(jù)的輸入和摘要我們會(huì)得到常識(shí)類和商品體系之外的用戶需求的關(guān)聯(lián)。

1.3電商認(rèn)知圖譜

為了解決上面的問題,我們提出了電商認(rèn)知圖譜(E-commerceConceptNet),目標(biāo)是建立電商領(lǐng)域的知識(shí)體系,通過(guò)深度認(rèn)知用戶需求,實(shí)現(xiàn)電商場(chǎng)景下關(guān)聯(lián)人-貨-場(chǎng)的聯(lián)動(dòng),賦能業(yè)務(wù)方和行業(yè)。

1.3.1模塊劃分

從整體劃分上來(lái)說(shuō),認(rèn)知圖譜分為四塊比較重要的工作,通過(guò)將不同類型的concept(user,scene,virtualcategory和item)構(gòu)建為一個(gè)異構(gòu)圖,來(lái)實(shí)現(xiàn)用戶-場(chǎng)景-商品的關(guān)聯(lián):

用戶圖譜構(gòu)建用戶圖譜除了通用的用戶畫像信息(年齡、性別、購(gòu)買力),也會(huì)有“老人”,“小孩”等人群數(shù)據(jù),和用戶的品類屬性偏好數(shù)據(jù)。

1.3.2場(chǎng)景圖譜構(gòu)建

場(chǎng)景可以看做是對(duì)用戶需求的概念化,從現(xiàn)有的query和title中識(shí)別出用戶需求,泛化為一個(gè)通用的場(chǎng)景(sceneconcept),并建立諸如"戶外燒烤","度假穿搭"之類的概念是場(chǎng)景圖譜的主要工作。通過(guò)不斷細(xì)化的場(chǎng)景需求,我們將跨類目和品類,代表了一類用戶需求的概念抽象為購(gòu)物場(chǎng)景(sc)。

挖掘了概念相當(dāng)于我們得到了圖上的節(jié)點(diǎn),在概念挖掘之上,我們又著手建立概念與類目和品類,概念和概念之間的關(guān)系,相當(dāng)于建立了圖上的有向邊,并計(jì)算邊的強(qiáng)度,具體流程如下:

截止目前,我們已經(jīng)產(chǎn)出10w+概念和10倍的品類類目關(guān)聯(lián)。

1.3.3品類細(xì)化

品類細(xì)化的來(lái)源是由于目前的類目體系會(huì)過(guò)粗或者過(guò)細(xì),從構(gòu)建上包括兩個(gè)層面:

品類聚合:比如"連衣裙“從認(rèn)知層面上來(lái)說(shuō)都是一個(gè)品類,但是由于分行業(yè)管理的原因會(huì)同時(shí)存在"女裝”,"男裝"和"童裝"等不同類目中,這時(shí)候就會(huì)存在于兩個(gè)一級(jí)類目下,所以就需要有一個(gè)偏常識(shí)的體系來(lái)維護(hù)對(duì)真正"連衣裙"的認(rèn)知。

品類拆分:品類細(xì)化是源于我們發(fā)現(xiàn)現(xiàn)有的類目體系不足以聚合一類用戶需求,比如有一個(gè)“西藏旅游”的場(chǎng)景,在“紗巾”類目下我們需要更多的細(xì)節(jié),這時(shí)候就需要一個(gè)叫做“防風(fēng)紗巾"的虛擬類目。這個(gè)過(guò)程同樣是存在entity/conceptextraction和relationclassification的,當(dāng)前我們主要針對(duì)類目和品類品類上下位建立關(guān)系。

截止目前,我們已經(jīng)有融合了cpv類目樹,品類類目關(guān)聯(lián),和外網(wǎng)數(shù)據(jù)的pair對(duì)68.9w+對(duì)。

1.3.4商品圖譜構(gòu)建

短語(yǔ)挖掘:商品圖譜端我們需要的是做更多的商品屬性認(rèn)知,我們知道,完善的cpv體系的前提是phrase的認(rèn)知,針對(duì)此我們建立了一個(gè)bootstrap框架下的cpv挖掘閉環(huán),目標(biāo)是能夠長(zhǎng)期有效積累cpv數(shù)據(jù),擴(kuò)大query和商品的認(rèn)知(這也是商品打標(biāo)的數(shù)據(jù)來(lái)源之一)。

舉例來(lái)說(shuō):

截止至目前,我們已經(jīng)完成了pvtop70的類目審核,增加了12W+的cpv對(duì),term能夠全量被識(shí)別的query占比已經(jīng)從30%提升到60%(由于目前采用中粒度分詞進(jìn)行挖掘,前期分析70%已經(jīng)是極限,后續(xù)會(huì)在增加phrasemining流程后持續(xù)擴(kuò)大挖掘覆蓋),目前數(shù)據(jù)已經(jīng)作為類目預(yù)測(cè),智能交互的基礎(chǔ)數(shù)據(jù)每日產(chǎn)出。

商品打標(biāo):商品打標(biāo)是我們得以將知識(shí)和商品建立關(guān)聯(lián)的關(guān)鍵技術(shù),上述三點(diǎn)產(chǎn)生的數(shù)據(jù)***都會(huì)通過(guò)打標(biāo)建立與item的聯(lián)系,在商品打標(biāo)完成后我們就可以實(shí)現(xiàn)從query到商品的整個(gè)語(yǔ)義認(rèn)知閉環(huán)。

預(yù)計(jì)到三月底我們可以實(shí)現(xiàn)***版的商品打標(biāo)。

2、知識(shí)體系

在知識(shí)構(gòu)建的過(guò)程中,我們漸漸發(fā)現(xiàn)需要一套全局統(tǒng)一的schema表示體系,于是我們調(diào)研了wordnet和conceptnet的體系構(gòu)建歷程,逐漸形成了自己的一套概念表示體系,也就是現(xiàn)有的認(rèn)知圖譜的核心(E-commerceConceptNet),它的目標(biāo)是從語(yǔ)義層面去理解電商領(lǐng)域的用戶需求并將其概念化(conceptulization),映射到一個(gè)語(yǔ)義本體(ontology),通過(guò)詞匯層面的關(guān)系逐漸把本體之間的關(guān)系形式化(specific),通過(guò)本體之間的層級(jí)去表示概念之間的層級(jí),通過(guò)概念之間的關(guān)系去抽象實(shí)體類別和關(guān)系。

從數(shù)據(jù)層面上來(lái)看,我們要描述一個(gè)事物(entity),首先需要把它定義為一種類別(instance-of-class)的實(shí)例,這種類別通常又可以通過(guò)一個(gè)概念(concept)來(lái)表示,不同的概念會(huì)有自己不同的屬性(proeprty),一類概念的具有的屬性集合可以稱為概念的schema,有同一類schema的概念一般會(huì)屬于不同的領(lǐng)域(domain),領(lǐng)域內(nèi)有自己的語(yǔ)義本體(ontoloty),通過(guò)本體的層次(比如“英國(guó)"-is-part-of-”英國(guó)"),我們可以形式化概念的層級(jí)和表示。那么由細(xì)到粗的,我們定義了一套電商概念體系的表示方法,通過(guò)不斷細(xì)化ontology和concept,以及他們之間的關(guān)系,來(lái)關(guān)聯(lián)起用戶和商品,甚至外部的實(shí)體。

3、技術(shù)框架

3.1平臺(tái)模塊

總體來(lái)說(shuō),我們是以一個(gè)數(shù)據(jù)服務(wù)中臺(tái)支撐起上面的圖引擎,再通過(guò)阡陌數(shù)據(jù)管理平臺(tái),和圖靈業(yè)務(wù)對(duì)接平臺(tái)來(lái)實(shí)現(xiàn)知識(shí)的生產(chǎn)和使用的。

3.2模塊細(xì)節(jié)

阡陌:數(shù)據(jù)標(biāo)注和展示

阡陌作為電商知識(shí)圖譜的基本平臺(tái),目前集成了所有知識(shí)標(biāo)注和審核流程,并且提供了數(shù)據(jù)查詢和可視化,后期算法的概念挖掘服務(wù)和商品打標(biāo)服務(wù)也會(huì)通過(guò)阡陌對(duì)外提供。

  • 數(shù)據(jù)審核在不斷試錯(cuò)過(guò)程中我們已經(jīng)建立了一套比較完善的從初審到終審的流程,具體見阡陌審核工具。

  • 可視化:除了審核平臺(tái),阡陌還提供了更加具體的數(shù)據(jù)可視化形式,通過(guò)良好的交互方便查詢知識(shí)阡陌可視化

3.3圖靈:業(yè)務(wù)全選和投放

由于目前我們的知識(shí)大部分以卡片形式提供,圖靈提供了一整套經(jīng)由云主題透出的業(yè)務(wù)服務(wù)工具:

概念選擇:

用戶可以通過(guò)全選自己的主題進(jìn)行分渠道投放

3.4圖引擎:數(shù)據(jù)存儲(chǔ)和查詢

從存儲(chǔ)介質(zhì)來(lái)說(shuō),我們使用mysql進(jìn)行靈活標(biāo)注,圖數(shù)據(jù)庫(kù)進(jìn)行全量查詢,odps做持久化數(shù)據(jù)版本管理。

在數(shù)據(jù)錄入到igraph和biggraph之前會(huì)被拆分為點(diǎn)表和邊表導(dǎo)入,在線通過(guò)gremlin進(jìn)行查詢。

在圖數(shù)據(jù)庫(kù)上層我們封裝了一個(gè)圖引擎模塊,提供不同trigger的場(chǎng)景和商品多路多跳召回功能。目前提供user,item_list和query召回,已經(jīng)在喵小秘使用,并且和搜索發(fā)現(xiàn)進(jìn)行聯(lián)調(diào)中,可以使用查詢接口進(jìn)行查詢和測(cè)試。

3.5技術(shù)落地

云主題(認(rèn)知圖譜)目前在云主題已經(jīng)通過(guò)知識(shí)卡片的形式上線近1w個(gè)場(chǎng)景,比較首猜商品來(lái)說(shuō),點(diǎn)擊和發(fā)散性較商品均有大幅提升,現(xiàn)在正在做數(shù)據(jù)發(fā)散性的探索。

錦囊(全量)/底紋(bts)

搜索

穹頂

四、后期規(guī)劃

目前認(rèn)知圖譜剛剛發(fā)展近一年,還有很多工作需要細(xì)化,后續(xù)的工作重點(diǎn)會(huì)放在:

關(guān)系挖掘和本體構(gòu)建

通過(guò)文本增強(qiáng)圖譜和外部數(shù)據(jù)的關(guān)聯(lián)

常識(shí)類推理規(guī)則的挖掘

圖推理的符號(hào)邏輯表示

【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】

戳這里,看該作者更多好文

責(zé)任編輯:武曉燕 來(lái)源: 51CTO專欄
相關(guān)推薦

2024-06-17 07:49:53

2021-01-18 10:50:29

知識(shí)圖譜人工智能深度學(xué)習(xí)

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-01-19 10:52:15

知識(shí)圖譜

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2017-04-13 11:48:05

NLP知識(shí)圖譜

2024-10-08 10:37:12

語(yǔ)言數(shù)據(jù)自然語(yǔ)言

2019-07-17 14:14:28

WOT2019人工智能

2024-06-03 07:28:43

2023-03-17 07:13:43

2023-03-17 06:14:20

2024-02-26 00:00:00

RAG系統(tǒng)圖譜

2021-10-18 11:54:46

2022-08-11 14:11:14

知識(shí)圖譜人工智能

2022-03-01 15:14:36

圖數(shù)據(jù)庫(kù)知識(shí)圖譜

2025-04-18 12:49:58

知識(shí)圖譜大模型人工智能

2019-05-07 10:01:49

Redis軟件開發(fā)

2021-02-01 22:41:05

語(yǔ)義網(wǎng)知識(shí)圖譜

2017-05-04 13:18:18

深度學(xué)習(xí)知識(shí)圖譜
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)