貝殼找房推動圖譜技術(shù)落地,促進地產(chǎn)服務(wù)生態(tài)鏈正循環(huán)
原創(chuàng)【51CTO.com原創(chuàng)稿件】
日前,貝殼找房知識圖譜技術(shù)大會在北京環(huán)球財訊中心召開。知識圖譜作為近年來人工智能領(lǐng)域里一項比較熱門的技術(shù),被廣泛應(yīng)用于智能搜索、智能問答、智能推薦等場景中。本次會議由來自貝殼找房智能搜索團隊的四位專家擔(dān)任主要講師,300多名AI領(lǐng)域開發(fā)者及愛好者受邀參加,和與會嘉賓共同分享圖譜技術(shù)在貝殼落地的實踐經(jīng)驗和應(yīng)用成果。
關(guān)系圖譜在貝殼找房風(fēng)控側(cè)的落地
貝殼找房資深工程師王學(xué)志圍繞關(guān)系圖譜在貝殼風(fēng)控側(cè)的落地,詳細闡述了關(guān)系圖譜在貝殼風(fēng)控體系中的應(yīng)用。王學(xué)志介紹,貝殼的業(yè)務(wù)模式基于ACN經(jīng)紀(jì)人合作網(wǎng)絡(luò)。風(fēng)控與業(yè)務(wù)是強相關(guān)的,因此貝殼的行業(yè)屬性和業(yè)務(wù)模式?jīng)Q定了貝殼的風(fēng)控場景也有其鮮明的特點。
貝殼找房資深工程師王學(xué)志
ACN經(jīng)紀(jì)人合作網(wǎng)絡(luò)是指在遵守房源信息充分共享等規(guī)則前提下,同品牌或跨品牌的經(jīng)紀(jì)人之間以不同的角色共同參與到一筆交易,成交后按照各個角色的分傭比例進行傭金分成的一種合作模式。這一模式實現(xiàn)了跨品牌間房源、客源和經(jīng)紀(jì)人之間的聯(lián)動,同時也導(dǎo)致貝殼的風(fēng)控體系構(gòu)建要考慮如下因素:業(yè)務(wù)分為線上線下,交易鏈條長、環(huán)節(jié)多;同時面臨加盟商風(fēng)險和經(jīng)紀(jì)人風(fēng)險;對經(jīng)紀(jì)人問責(zé)時要提供完整的證據(jù)鏈;業(yè)務(wù)場景多,涵蓋租賃、新房、二手房買賣;交易場景具有低頻、大額、長周期的特點。
王學(xué)志指出,之所以把關(guān)系圖譜應(yīng)用在風(fēng)控中,一是因為關(guān)系圖譜可以呈現(xiàn)點、線、面的風(fēng)險刻畫,非常適合團伙攻擊;二是貝殼從自身實際出發(fā),相較于小b違規(guī),從危害程度來說大B風(fēng)險為優(yōu)先處理的重點。而且大B違規(guī)和復(fù)雜的關(guān)聯(lián)關(guān)系是強相關(guān),適用于關(guān)系圖譜。
據(jù)介紹,整體架構(gòu)上,貝殼關(guān)系圖譜分為四層,包括基礎(chǔ)數(shù)據(jù)、知識構(gòu)建、知識挖掘、業(yè)務(wù)應(yīng)用;技術(shù)選型上,貝殼選擇了Spark Graph X作為圖分析計算引擎,Janus Graph作為圖查詢工具;應(yīng)用場景上,關(guān)系圖譜在貝殼風(fēng)控體系中主要被用于準(zhǔn)入防控、風(fēng)險量化、品質(zhì)管理、風(fēng)險發(fā)現(xiàn)、查案溯源。
王學(xué)志提到,未來關(guān)系圖譜在貝殼風(fēng)控側(cè)的應(yīng)用將主要集中于兩個方面:深造基礎(chǔ)能力,包括知識推理、知識融合、高密子圖挖掘、Graph embedding等等;拓展業(yè)務(wù)應(yīng)用,包括在風(fēng)險治理上推動違規(guī)溯源智能化、違規(guī)模式自動學(xué)習(xí)等等,在用戶增長方面,通過關(guān)系圖譜進行經(jīng)紀(jì)人信用記錄,并據(jù)此進行經(jīng)紀(jì)人to B推薦、to C推薦。
關(guān)系圖譜在貝殼找房的構(gòu)建與應(yīng)用
貝殼找房資深算法工程師周玉馳以“關(guān)系圖譜在貝殼的構(gòu)建與應(yīng)用”為主題,分別就貝殼構(gòu)建關(guān)系圖譜的動因、設(shè)計過程以及應(yīng)用實踐做了深入解讀。
貝殼找房資深算法工程師周玉馳
周玉馳首先提出了一個問題——貝殼為什么要做關(guān)系圖譜。一般來說,房產(chǎn)行業(yè)關(guān)系圖譜的節(jié)點是由經(jīng)紀(jì)人、房、客等構(gòu)成。關(guān)系通常包括瀏覽、關(guān)注、帶看等行為關(guān)系。隨著業(yè)務(wù)的快速發(fā)展,貝殼積累了海量數(shù)據(jù)。面對億級別的行為數(shù)據(jù),用什么方法來挖掘數(shù)據(jù)背后的價值呢?貝殼的答案是關(guān)系圖譜。
周玉馳認(rèn)為,從0到1構(gòu)建關(guān)系圖譜的過程中離不開三個核心:關(guān)系圖譜能做什么;怎么設(shè)計;如何應(yīng)用。他以貝殼關(guān)系圖譜的整體技術(shù)架構(gòu)為切入口進行了集中闡述。
架構(gòu)由下而上分為基礎(chǔ)圖譜、子圖譜、圖譜能力、圖譜應(yīng)用四層。最底層是基礎(chǔ)圖譜,基礎(chǔ)圖譜定義了各種行為關(guān)系?;A(chǔ)圖譜之上又進行了子圖譜建設(shè),子圖譜包括關(guān)系強度、同質(zhì)圖、異質(zhì)圖。其中,關(guān)系強度的量化是建設(shè)過程中的重中之重?;A(chǔ)圖譜與子圖譜共同奠定了關(guān)系圖譜的基石?;A(chǔ)打完后進行了圖譜能力建設(shè),具體包括多度查詢、影響力、Embedding、聚類、相似、關(guān)系預(yù)測這六大能力。最后基于圖譜能力進行了應(yīng)用探索,開發(fā)了房客通、智能客服等應(yīng)用工具。
在關(guān)系圖譜的基礎(chǔ)建設(shè)中,關(guān)系強度的量化是一個非常關(guān)鍵的問題。貝殼在構(gòu)建過程中主要考慮了三個衡量因素:權(quán)重、頻率、時間。周玉馳解釋:“不同關(guān)系類型權(quán)重不同,比如說帶看行為權(quán)重高于瀏覽行為,我們認(rèn)為瀏覽是輕行為;高頻關(guān)系大于低頻關(guān)系;近期關(guān)系大于遠期關(guān)系??傮w來說,基于業(yè)務(wù)理解,再結(jié)合數(shù)據(jù)生產(chǎn),我們定義了不同關(guān)系類型的權(quán)重。同時,我們采用模型化的方式進行計算,將一些行為數(shù)據(jù)和我們的理解進行交叉驗證。”
在關(guān)系圖譜的能力建設(shè)中,周玉馳重點介紹了影響力、Embedding、相似、關(guān)系預(yù)測這四種能力。就節(jié)點影響力來說,貝殼采用的是度中心性方法。通過增加用戶連接數(shù)進而增加用戶轉(zhuǎn)化率對貝殼而言意義重大;在常見的Graph Embedding方法中,貝殼結(jié)合自身發(fā)展實際,對于同質(zhì)網(wǎng)絡(luò)采用了Node2vec,并采用了side info進行優(yōu)化,與此同時,針對異質(zhì)網(wǎng)絡(luò)嘗試了Metapath2vec。能力層面,基于Embedding可以進行相似的計算,例如:相似房源、相似用戶。另外,關(guān)系預(yù)測的實現(xiàn)有兩種路徑,一是基于相似房源或者相似用戶,結(jié)合關(guān)系強度進行推導(dǎo),二是基于異構(gòu)網(wǎng)絡(luò)UserEmbedding和HouseEmbedding預(yù)判房屋與用戶間的關(guān)系。
在關(guān)系圖譜的應(yīng)用探索上,周玉馳主要從多度查詢和向量化兩個角度進行了詳細說明。
貝殼基于多度查詢的兩個應(yīng)用,其一是房客通,一款貝殼內(nèi)部為經(jīng)紀(jì)人和客需求進行連接的產(chǎn)品,其二是挖掘圖譜,以用戶為中心,基于基礎(chǔ)圖譜來找到符合需求的直接相連房源,再通過圖譜能力進行挖掘,或者通過房特征找到相似房源,給用戶推薦與用戶相關(guān)的子圖,以可視化的方式進行展示推薦。
貝殼基于向量化探索的應(yīng)用比較典型的是推薦功能。普遍來說,經(jīng)紀(jì)人為客戶找房子的方式還停留在比較原始的階段,比如搜索微信群或者朋友圈、向門店其他經(jīng)紀(jì)人詢問、房源交流會時的溝通交流等。但貝殼可以通過人、客、房匹配策略算法對經(jīng)紀(jì)人進行助力,一方面為經(jīng)紀(jì)人篩選客戶,推薦合適房源;一方面還可以通過為優(yōu)質(zhì)房源匹配客戶來提升成交率。
分布式圖數(shù)據(jù)庫在貝殼找房的應(yīng)用實踐
貝殼找房搜索平臺負(fù)責(zé)人高攀的演講主題更偏重于關(guān)系圖譜的基礎(chǔ)建設(shè),主要圍繞圖數(shù)據(jù)庫展開。
貝殼找房搜索平臺負(fù)責(zé)人高攀
高攀對圖數(shù)據(jù)庫的定義和應(yīng)用領(lǐng)域進行了簡述:所謂圖數(shù)據(jù)庫,不是存儲圖片的數(shù)據(jù)庫,而是存儲節(jié)點和關(guān)系,以圖結(jié)構(gòu)進行存儲和查詢。其應(yīng)用場景非常廣泛,在社交網(wǎng)絡(luò)、搜索推薦、風(fēng)險管理、業(yè)務(wù)流程、事件關(guān)系等領(lǐng)域都可以用圖數(shù)據(jù)庫來解決。
隨后,高攀解釋了圖數(shù)據(jù)庫平臺對貝殼的必要性。
“貝殼找房目前最大的行業(yè)圖譜量級已經(jīng)達到480億三元組。一個很現(xiàn)實的問題就是,如此海量的數(shù)據(jù)應(yīng)該如何存儲才能支持業(yè)務(wù)的高效查詢?同時我們考慮到是不是可以有一個通用的圖數(shù)據(jù)庫平臺來支撐所有需要使用圖數(shù)據(jù)庫的場景?讓上層做圖譜的同學(xué)可以更專注于策略或算法,而不需要花精力去關(guān)注底層的存儲技術(shù)實現(xiàn),答案顯然是肯定的,我們需要統(tǒng)一的圖數(shù)據(jù)庫平臺。”
在這一需求的驅(qū)動下,貝殼找房開始尋找合適的圖數(shù)據(jù)庫,在考慮到開源、性能、穩(wěn)定性、成熟度、易用性、可擴展性、運維成本等因素后,最終決定在DGraph和JanusGraph間做出選擇。在經(jīng)過架構(gòu)、副本、數(shù)據(jù)一致性、查詢語言、全文檢索、可視化、寫入性能、查詢性能、運維成本等方面的對比后,最終選用了DGraph。貝殼在完成圖數(shù)據(jù)庫集群搭建、數(shù)據(jù)導(dǎo)入后的性能壓測中,也得到了相當(dāng)滿意的結(jié)果:在這480億數(shù)據(jù)中的查詢都可以達到50毫秒以內(nèi),并且并發(fā)可以到15000多QPS。當(dāng)然DGraph也有缺陷和不足:不支持多重邊、一個集群只支持一個圖、大數(shù)據(jù)生態(tài)兼容不夠,總體還有不少可以改進的空間。
高攀提到,下一步貝殼找房在圖數(shù)據(jù)庫建設(shè)上將繼續(xù)對其性能穩(wěn)定性做深入優(yōu)化,包括對其源碼進行改進;其次,推進圖數(shù)據(jù)庫作為搜索中臺基礎(chǔ)引擎,支持各種圖數(shù)據(jù)庫檢索需求;結(jié)合搜索云平臺界面化操作、快速配置接入,簡化其運維成本。當(dāng)分布式圖數(shù)據(jù)庫在貝殼成熟以后,可以統(tǒng)一支持公司內(nèi)各種知識圖譜、風(fēng)險關(guān)系圖譜等,真正做到所有圖譜需求不用再關(guān)注于底層存儲技術(shù),只需要關(guān)注圖譜構(gòu)建或應(yīng)用的策略算法。
行業(yè)圖譜在房產(chǎn)領(lǐng)域的應(yīng)用實踐
貝殼找房行業(yè)圖譜負(fù)責(zé)人孫拔群就行業(yè)圖譜在房產(chǎn)領(lǐng)域的建設(shè)和應(yīng)用這一主題和與會者進行了分享。
貝殼找房行業(yè)圖譜負(fù)責(zé)人孫拔群
孫拔群認(rèn)為,對于一個行業(yè)公司來說,通過內(nèi)部數(shù)據(jù),可以完成自我剖析和定性描述;通過外部數(shù)據(jù),可以明確市場定位和定量描述,了解自身在行業(yè)整體所處的發(fā)展?fàn)顩r;通過融合數(shù)據(jù)進行分析,可以最終達成業(yè)務(wù)目標(biāo),即通過行業(yè)知識圖譜實現(xiàn)自身的戰(zhàn)略規(guī)劃和愿景使命。
孫拔群簡要說明了通過行業(yè)知識圖譜解決問題的思路——首先,制定目標(biāo),推導(dǎo)價值;然后,選擇方案,路徑達成;最后,評價效果,形成循環(huán)。
“我們基于行業(yè)圖譜去測算出我們整體在全國各個城市里面的價值空間。得到價值空間,就有了基本的核心目標(biāo),明年要進行GMV提升,這是基于公司層面的戰(zhàn)略指標(biāo)和定義。具體落實到執(zhí)行,那就要進行目標(biāo)拆解,一方面通過智能問答、知識推理、社區(qū)發(fā)現(xiàn)這些圖譜技術(shù)應(yīng)用來直接促進業(yè)務(wù)目標(biāo)達成,另一方面通過基于行業(yè)知識圖譜建立的行業(yè)情報系統(tǒng),以提效工具、線索增量、大盤決策等工具來推動目標(biāo)實現(xiàn)。最后通過效果評價,形成正向循環(huán)。”
孫拔群對于行業(yè)數(shù)據(jù)的引入、加工和融合做了相關(guān)說明。類型上說,主要的行業(yè)數(shù)據(jù)可以分為五大類:標(biāo)競品,要做到知己知彼;專業(yè)內(nèi)容,包括國家相關(guān)政策和宏觀經(jīng)濟環(huán)境等;上下游,比如開發(fā)商、物業(yè)、建筑商的數(shù)據(jù);環(huán)境周邊,即房源周圍的環(huán)境數(shù)據(jù);用戶群體,不用贅述。由于這些數(shù)據(jù)來源各不相同,結(jié)構(gòu)差異化大,因此引入這些數(shù)據(jù)之后要做數(shù)據(jù)清洗和實體融合,之后就可以著手建立行業(yè)知識圖譜。
孫拔群最后提到了未來一年貝殼找房將在行業(yè)圖譜智能應(yīng)用上研發(fā)的方向。其一,IM助手,為經(jīng)紀(jì)人提效。通過知識圖譜提高經(jīng)紀(jì)人應(yīng)對客戶提問時的反饋速度和準(zhǔn)確率;其二,搜索效果。當(dāng)搜索結(jié)果少的時候,提供一些站外的房源或者是說站外的熱度;其三,AI講房。在海量VR房源數(shù)據(jù)基礎(chǔ)上,結(jié)合AI技術(shù),通過圖像識別、結(jié)構(gòu)處理等算法智能化處理三維空間信息,實現(xiàn)對房屋本身的理解。AI根據(jù)周邊配套、小區(qū)內(nèi)部情況、房屋戶型結(jié)構(gòu)和交易信息等維度,通過TTS(文本轉(zhuǎn)語音)技術(shù),為用戶提供個性化的智能講房服務(wù)。
貝殼自成立以來始終以技術(shù)為驅(qū)動,以消費者為中心,致力于讓房源、客戶、經(jīng)紀(jì)人之間的數(shù)據(jù)互聯(lián)更加智能,打造產(chǎn)業(yè)互聯(lián)網(wǎng)下的“新居住”品質(zhì)服務(wù)生態(tài)。截至2019年9月底,貝殼找房已進駐全國103個城市和地區(qū),連接3.2萬家門店和超過32萬新型經(jīng)紀(jì)人,入駐平臺的新經(jīng)紀(jì)品牌超過226個。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】