一淘公達(dá):解決個(gè)性化搜索中的時(shí)效性與數(shù)據(jù)碎片化
原創(chuàng)搜索引擎誕生到現(xiàn)在已經(jīng)有幾十年歷史,期間搜索技術(shù)一直在不斷的變化,從最初的目錄索引到關(guān)鍵詞,以及目前正在發(fā)展階段的語音搜索、圖片搜索等等,搜索引擎在不斷進(jìn)化當(dāng)中。如果現(xiàn)在來談?wù)勊阉饕娴南乱粋€(gè)趨勢是什么,那么個(gè)性化搜索引擎無疑是最受關(guān)注的方向,并且將成為搜索引擎的未來。因?yàn)椋?dāng)前的搜索引擎盡管還能給用戶提供一些有用的東西,但是因不同地區(qū)、個(gè)人興趣習(xí)慣、社交關(guān)系等因素去搜索時(shí),得到的搜索結(jié)果卻不盡人意,這是目前搜索引擎需要改進(jìn)的地方。
在阿里巴巴集團(tuán)今年主辦的ADC•阿里技術(shù)嘉年華這一場專屬于<互聯(lián)網(wǎng)工程師>的“技術(shù)盛宴”,倡導(dǎo)<干貨分享>的大會(huì)上,51CTO記者有幸采訪到了一淘的個(gè)性化搜索專家 陳曦(公達(dá))老師,主要針對(duì)目前個(gè)性化搜索中面臨的一些重要的問題采訪,比如SEO與個(gè)性化之間的問題,防止過度個(gè)性化,以及在個(gè)性化搜索中的時(shí)效性與數(shù)據(jù)碎片化對(duì)個(gè)性化搜索的影響。
下面是采訪實(shí)錄:
記者:個(gè)性化搜索這門技術(shù)是怎么起源的?它最新的進(jìn)展是什么樣的情況?
公達(dá):最早做個(gè)性化的應(yīng)該是谷歌,像他們這些通用的搜索引擎,到現(xiàn)在阿里也開始做個(gè)性化,而他們做的效果都不是特別滿意。因?yàn)榈侥壳盀橹箾]有看到特別好的個(gè)性化搜索的產(chǎn)品,我們淘寶做這個(gè)個(gè)性化搜索,其實(shí)有一些自己的優(yōu)勢。因?yàn)槲覀冇懈又覍?shí)的用戶,有更豐富的數(shù)據(jù),所以我們應(yīng)該可以達(dá)到更好的個(gè)性化的效果。我們也是最近這么一兩年來才開始做個(gè)性化的搜索。
記者:那就是說阿里在投入個(gè)性化搜索也就是最近一兩年的事。到現(xiàn)在為止取得了怎么樣的成績?你們是怎么判斷自己的成績?怎么去衡量自己的成果?有沒有覺得不滿意?
公達(dá):我們自己肯定是在個(gè)性化有自己的一些理解,比如說我們希望個(gè)性化搜索能達(dá)到什么樣的效果,我們實(shí)現(xiàn)的時(shí)候,我們肯定會(huì)先按照我們希望的效果來做,等做出來了一個(gè)初步的效果之后,我們會(huì)讓用戶來通過實(shí)際的一些用戶來給我們?cè)u(píng)價(jià),到底我們的效果是不是他們滿意的,我們是通過這樣來評(píng)價(jià)的。
記者:在個(gè)性化搜索系統(tǒng)中,它的難點(diǎn)在于什么地方?它是技術(shù)難點(diǎn)還是產(chǎn)品難點(diǎn)?
公達(dá):它應(yīng)該是兩方面難點(diǎn)都有的,比如說技術(shù)上面的話,最困難的是說我們?cè)趺礃幽軌虬延脩舻膫€(gè)性化、個(gè)性信息描述準(zhǔn)確。比如他的性別,或者是他喜歡的衣服的風(fēng)格等等,我們?cè)趺礃幽軌蚪o他預(yù)測準(zhǔn)。第二個(gè)是預(yù)測準(zhǔn)了之后,他到底是不是喜歡?這個(gè)其實(shí)也是因?yàn)椴煌娜?,他?duì)自己一些購物的特點(diǎn)都是不太一樣,有的人雖然以前喜歡某個(gè)東西,但是突然他的信息又變化了。這種興趣的不確定性,這是最困難的一個(gè)地方。
從產(chǎn)品上面來講,其實(shí)也就是這個(gè)用戶到底能不能夠更加適用個(gè)性化需求的結(jié)果,他會(huì)不會(huì)覺得我們預(yù)測錯(cuò)了,或者怎么樣的話,可能以后就不太會(huì)再用了。我們希望能夠盡量預(yù)測準(zhǔn),那樣他才會(huì)一直用下去。
記者:個(gè)性化搜索技術(shù),在一個(gè)典型的個(gè)性化搜索團(tuán)隊(duì)里面,大家都是什么樣的人員構(gòu)成,都有哪些職責(zé)分工?
公達(dá):首先我們有很多人是在做那些基礎(chǔ)的數(shù)據(jù),比如說可能會(huì)計(jì)算用戶的各種偏好,這是屬于很基礎(chǔ)的數(shù)據(jù)。我們目前會(huì)有一個(gè)很大的團(tuán)隊(duì)來做這件事情。包括用戶的各種數(shù)據(jù),像他的年齡、性別,包括他的職業(yè),一些購物的興趣點(diǎn)之類的事情,我們都有一個(gè)比較大的團(tuán)隊(duì)來計(jì)算。第二個(gè),我們會(huì)有系統(tǒng)方面的一些工作,比如說我們要搭建一個(gè)個(gè)性化的搜索的系統(tǒng),我們有實(shí)時(shí)的個(gè)性化系統(tǒng),我們搜索引擎也會(huì)支持更多個(gè)性化。第三部分,算法方面需要利用用戶的一些個(gè)性化信息,然后給他推出一個(gè)合適的搜索結(jié)果。其實(shí)就是數(shù)字與系統(tǒng)和算法這三部分,是我們個(gè)性化主要的部分。
記者:剛才你談到會(huì)有很大一個(gè)團(tuán)隊(duì)專門在做數(shù)據(jù)的搜集整理,對(duì)于個(gè)性化推薦來講會(huì)不會(huì)有很多用戶覺得侵犯到他們的隱私,你們是怎么看待這個(gè)問題?
公達(dá):目前的話,我們倒是沒有收到明顯的用戶投訴說我們收集到了他的隱私,其實(shí)不太正常的。因?yàn)橛脩舻男袨樵谔詫毶嫌屑o(jì)錄應(yīng)該是一個(gè)很正常的,大家都可以認(rèn)可的事情。比如說你買了什么樣的東西,這個(gè)肯定是需要有紀(jì)錄的,而且自己也能查看的,當(dāng)然淘寶肯定是有數(shù)據(jù)。如果說用戶實(shí)在是不想我們收集的話,我們以后也會(huì)提供這樣的一個(gè)功能,我們可以不對(duì)他做個(gè)性化或者怎么樣,都是可以。
記者:在現(xiàn)在的互聯(lián)網(wǎng)企業(yè),在什么時(shí)候才能需要到一個(gè)個(gè)性化搜索?
公達(dá):那肯定是它的一個(gè)通用的搜索,如果說已經(jīng)做的比較成熟了。對(duì)用戶的數(shù)據(jù)也搜集的足夠多了,如果說他有一個(gè)比較穩(wěn)定的客戶群,這個(gè)時(shí)候他可以考慮給他一些穩(wěn)定的客戶,給他們一些定制的個(gè)性化的結(jié)果。
記者:在實(shí)時(shí)計(jì)算和離線計(jì)算對(duì)于個(gè)性化搜索哪個(gè)占的優(yōu)勢比較多一些?你們應(yīng)用比較多的是哪一個(gè)?
公達(dá):這個(gè)應(yīng)該兩方面都是占的比較多的,因?yàn)殡x線計(jì)算的話,它是對(duì)于那種長期的偏好是比較重要的,實(shí)時(shí)計(jì)算的話對(duì)于當(dāng)前用戶的時(shí)時(shí)的偏好是非常重要的。這方面目前在規(guī)劃里面都是很重要的兩個(gè)方面。
記者:個(gè)性化搜索有一個(gè)行為叫做時(shí)效性,我聽你在演講過程當(dāng)中也有講過這個(gè)問題,你們是怎么去處理這個(gè)問題?
公達(dá):我們首先是用戶默認(rèn)的,或者一個(gè)長期的偏好的模式,比如說三個(gè)月或者六個(gè)月的興趣來算的,他實(shí)時(shí)計(jì)算當(dāng)天的行為就是會(huì)放到時(shí)時(shí)的數(shù)據(jù)里面。這個(gè)實(shí)時(shí)的數(shù)據(jù),當(dāng)它達(dá)到了一定的精確度之后,就會(huì)來修改他長期的偏好,所以它應(yīng)該是一個(gè)互相結(jié)合的過程。
記者:你們?cè)趺慈ヅ懦恍┻^期的行為?比如說比較久的?這些可能在用戶當(dāng)中已經(jīng)并不存在了,或者他們那些行為在過程當(dāng)中也會(huì)改變的等等?
公達(dá):比較久了,那就是從長期模型里面找。長期模型里面我們肯定會(huì)考慮所謂的時(shí)間,越近的行為肯定是越重要的,越遠(yuǎn)的行為越不重要。所以既然發(fā)生的時(shí)間很久了,那么它的重要性就降低了,這樣也會(huì)被新的行為所取代了。
記者:你們一般做這塊的話,都是以最新的一些行為作為標(biāo)準(zhǔn),他以前的一般就不會(huì)考慮。
公達(dá):如果他最近的行為已經(jīng)足夠豐富了,那么他以前的行為肯定不重要了。但如果他最近沒有什么行為,那他很久以前的行為也是有一定的好處的。
#p#
記者:在個(gè)性化搜索當(dāng)中,個(gè)性化定制的功能在一淘中用戶體現(xiàn)的是怎么樣的?有沒有好的反饋?
公達(dá):個(gè)性化定制,目前用戶還是比較多的,因?yàn)橐呀?jīng)上線了一段時(shí)間了,當(dāng)然用的人還是比較多的。這些用的人他會(huì)通過這個(gè)性化定制可以修改他們個(gè)性化的信息。
記者:個(gè)性化搜索,它有數(shù)據(jù)挖掘技術(shù)在里面,而對(duì)于數(shù)據(jù)的來源要求還是挺高的。在這一塊,對(duì)于數(shù)據(jù)的碎片化,你怎么去解決這個(gè)問題?
公達(dá):碎片化其實(shí)就是說這個(gè)數(shù)據(jù)很稀疏,我們是盡量豐富數(shù)據(jù)的,比如說我們可以用三個(gè)月或者六個(gè)月,或者一年的數(shù)據(jù),用的數(shù)據(jù)越多,肯定它的吸收性能也就越好了。我們會(huì)用一類人的一些數(shù)據(jù),比如說對(duì)于用戶來說,我們是給他分一些群體,而不是說每個(gè)用戶都是不一樣,然后再保密。我們會(huì)給他一些比較寬泛的定義,比如說像價(jià)格檔位,我們也可以分五檔,并不是說分十檔,或者二十檔,那可能太稀釋了。
記者:很多時(shí)候大家討論個(gè)性化搜索對(duì)于一個(gè)網(wǎng)站的SEO其實(shí)是有一些影響的,你怎么看待這個(gè)問題?就目前大部分的網(wǎng)站做SEO主要是排名的競爭,很少會(huì)用到個(gè)性化搜索,你怎么看這個(gè)問題?
公達(dá):個(gè)性化搜索的話,其實(shí)是要求他,每一個(gè)賣家能夠給它提出了更高的要求。就是說它需要服務(wù)好每一類人,如果說以前的話他服務(wù)好大眾的人就行了。但是現(xiàn)在如果他想拿到更多的流量,他就需要對(duì)每一類人都服務(wù)的好,這樣他在每一類人的排序上面,可能都會(huì)比較前面。所以對(duì)于個(gè)性格搜索 來說,需要考慮的更多了一點(diǎn)。
記者:在淘寶上,我看到很多賣家,在關(guān)鍵詞上面,他做了很多SEO優(yōu)化,這上面什么關(guān)鍵詞都有。對(duì)于個(gè)性化搜索來說,它有沒有能夠精準(zhǔn)的定位,賣家有沒有什么影響?我是說在搜很多東西的時(shí)候,賣家的關(guān)鍵詞幾乎什么都覆蓋掉了,對(duì)個(gè)性化搜索有什么影響?
公達(dá):如果說體現(xiàn)的關(guān)鍵詞太多,如果說太多的話,而且是一個(gè)不正當(dāng)?shù)?,甚至和寶貝并不符合的關(guān)鍵詞,那可能本身被排起來,他是不利的。因?yàn)槲覀儗?duì)這種亂填的關(guān)鍵詞會(huì)有一定的處罰,如果都是正常地描述一個(gè)寶貝的關(guān)鍵詞,那肯定是不會(huì)有太大影響。即使是個(gè)性化也是都會(huì)考慮的。
記者:你目前在做這一塊的話,能講一些目前的難點(diǎn)嗎?就是比較困難的地方。
公達(dá):困難的地方,我們?cè)趺礃幽軌虬延脩舻呐d趣描述的更準(zhǔn)了。比如說他的購買力、他的性別等等,就是說越準(zhǔn)確的話,用戶的體驗(yàn)就會(huì)越好。如果給他預(yù)測錯(cuò)的話,他的體驗(yàn)就不是很好。甚至是或者會(huì)修改,或者會(huì)關(guān)閉個(gè)性化。如果說越準(zhǔn)確的話,他肯定是越喜歡用。所以我們會(huì)讓用戶的體驗(yàn)更加地好。
記者:在目前的移動(dòng)互聯(lián)網(wǎng)發(fā)展這么快,在移動(dòng)端,用戶對(duì)搜索的需求還是挺高的。一般他想定位一個(gè)產(chǎn)品,搜索一個(gè)產(chǎn)品的話,他兩到三步就能夠精準(zhǔn)地定位到這個(gè)內(nèi)容。一淘的移動(dòng)端在這方面做的如何?
公達(dá):移動(dòng)端的話,目前肯定會(huì)考慮。比如說手機(jī)的類型是iPhone還是Android之類的,或者也會(huì)考慮其他的地方。這些信息的話,肯定是一個(gè)個(gè)性化的重要信息。但是在移動(dòng)上面具體有什么樣的特點(diǎn)?這肯定也是通過模型計(jì)算出來的。因?yàn)橐苿?dòng)上面我們也會(huì)有移動(dòng)方面?zhèn)€性化的模型,上面可能會(huì)體現(xiàn)出移動(dòng)上面不同的特點(diǎn)來。
記者:在個(gè)性化搜索,目前你認(rèn)為它對(duì)一個(gè)傳統(tǒng)搜索,是不是一個(gè)發(fā)展的趨勢?未來能不能代替?zhèn)鹘y(tǒng)搜索?
公達(dá):至少從電子商務(wù)這個(gè)方面來說,我覺得個(gè)性化還是很重要,未來肯定是會(huì)越做越多的。因?yàn)槲覀冏罱K的理想肯定是讓每一個(gè)用戶都能達(dá)到最好的體驗(yàn),肯定是對(duì)每個(gè)用戶的個(gè)性,如果說都能夠滿足的好,肯定他的體驗(yàn)是最好的。