鏈家馮揚(yáng):數(shù)據(jù)與機(jī)器學(xué)習(xí)在房產(chǎn)行業(yè)中大放異彩
原創(chuàng)【51CTO.com原創(chuàng)稿件】2017年12月01日-02日,由51CTO主辦的WOTD全球軟件開(kāi)發(fā)技術(shù)峰會(huì)將在深圳中州萬(wàn)豪酒店隆重舉行。本次峰會(huì)以軟件開(kāi)發(fā)為主題,數(shù)十位專(zhuān)家級(jí)嘉賓將帶來(lái)多場(chǎng)精彩的技術(shù)內(nèi)容分享。屆時(shí),鏈家高級(jí)技術(shù)總監(jiān)馮揚(yáng)先生將在深度學(xué)習(xí)與智能應(yīng)用開(kāi)發(fā)分會(huì)場(chǎng)與來(lái)賓分享"基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的經(jīng)紀(jì)人評(píng)估與管理"主題演講,為大家詳細(xì)闡述如何借助機(jī)器學(xué)習(xí)算法的力量,構(gòu)建房產(chǎn)經(jīng)紀(jì)人的評(píng)估體系、經(jīng)紀(jì)人等級(jí)狀態(tài)模型、行為模型等內(nèi)容。51CTO誠(chéng)邀您蒞臨大會(huì),與我們共享技術(shù)帶來(lái)的喜悅。
51CTO記者對(duì)即將參加大會(huì)演講的馮揚(yáng)老師進(jìn)行了專(zhuān)訪,讓我們先睹為快,探聽(tīng)一下他是如何看待深度學(xué)習(xí)與智能應(yīng)用在經(jīng)紀(jì)人評(píng)估與管理中的應(yīng)用的。
房產(chǎn)行業(yè)的屬性呼喚更高效率的人員管理方式
對(duì)于房產(chǎn)行業(yè)而言,經(jīng)紀(jì)人是一家企業(yè)的核心“資產(chǎn)”,經(jīng)紀(jì)人的質(zhì)量高低影響直接到服務(wù)水平和公司業(yè)績(jī),對(duì)于經(jīng)紀(jì)人的管理效率就成了其核心競(jìng)爭(zhēng)力。傳統(tǒng)的多層級(jí)人工管理方式無(wú)論是在客觀性、全面性上都存在效率問(wèn)題。而鏈家的經(jīng)紀(jì)人已經(jīng)達(dá)到15萬(wàn)左右,分布在32個(gè)城市,涵蓋了二手房、新房、租賃、旅居……等業(yè)務(wù),并且隨著業(yè)務(wù)的擴(kuò)大在不斷的增長(zhǎng)中。因此對(duì)于經(jīng)紀(jì)人管理的水平和效率有了極高的要求。
構(gòu)建基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的經(jīng)紀(jì)人管理系統(tǒng),其出發(fā)點(diǎn)是通過(guò)利用大數(shù)據(jù)和算法的能力,輔助管理者進(jìn)行判斷和決策,提升對(duì)房產(chǎn)經(jīng)紀(jì)人的管理水平和效率。它是一個(gè)輔助系統(tǒng),并不直接參與管理的執(zhí)行,而是輸出分析結(jié)果輔助管理者進(jìn)行管理。
經(jīng)紀(jì)人評(píng)估與管理系統(tǒng)基本結(jié)構(gòu)如下圖所示,由下到上依次是數(shù)據(jù)采集、離線分析、預(yù)測(cè)計(jì)算、結(jié)果應(yīng)用。
數(shù)據(jù)采集的目的是盡可能全面地收集關(guān)于經(jīng)紀(jì)人的所有數(shù)據(jù),包括基本信息、職級(jí)、業(yè)績(jī)、作業(yè)行為等等,通過(guò)整理加工成為描述經(jīng)紀(jì)人的特征數(shù)據(jù);離線分析主要是對(duì)經(jīng)紀(jì)人特征數(shù)據(jù)進(jìn)行分析,描述經(jīng)紀(jì)人個(gè)體畫(huà)像、群體特征,以及找到不同經(jīng)紀(jì)人群體之間的典型差異,并通過(guò)引入人工管理經(jīng)驗(yàn)對(duì)不同群體進(jìn)行標(biāo)注;預(yù)測(cè)計(jì)算則是針對(duì)不同判定和預(yù)測(cè)任務(wù),利用機(jī)器學(xué)習(xí)方法構(gòu)建模型,并針對(duì)每個(gè)經(jīng)紀(jì)人個(gè)體進(jìn)行預(yù)測(cè);預(yù)測(cè)的結(jié)果輸出到相應(yīng)的管理系統(tǒng),作為這些管理系統(tǒng)的輸入,輔助對(duì)經(jīng)紀(jì)人進(jìn)行能力培養(yǎng)、違規(guī)行為核驗(yàn)和處理、人事管理、技能培訓(xùn)等等。
三大方面彰顯基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的經(jīng)紀(jì)人評(píng)估與管理系統(tǒng)的優(yōu)勢(shì)
相比于傳統(tǒng)的多層級(jí)人工管理方式,基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的經(jīng)紀(jì)人評(píng)估與管理系統(tǒng)的優(yōu)勢(shì)主要體現(xiàn)在三大方面:
1. 對(duì)于經(jīng)紀(jì)人的刻畫(huà)更加全面和客觀
多層級(jí)人工管理的方式受管理者水平、情感、心理狀態(tài)等因素影響較大。不同層級(jí)上的管理者水平不一,在標(biāo)準(zhǔn)執(zhí)行和狀態(tài)判定上存在比較大的差異。同一個(gè)管理者在不同的情感和不同時(shí)間上的心理狀態(tài)也會(huì)影響到判斷和決策。
而上述劣勢(shì)正好是數(shù)據(jù)和算法能夠彌補(bǔ)的,數(shù)據(jù)和算法對(duì)經(jīng)紀(jì)人刻畫(huà)的標(biāo)準(zhǔn)和能力來(lái)自于客觀數(shù)據(jù),不受情感、時(shí)間、狀態(tài)的影響,機(jī)器學(xué)習(xí)算法能夠?qū)?shù)據(jù)進(jìn)行全面的搜集和分析。
2. 從數(shù)據(jù)出發(fā),能及時(shí)發(fā)現(xiàn)潛在因素
多層級(jí)人工管理最容易受高層級(jí)管理者經(jīng)驗(yàn)的限制,忽略掉一些潛在的因素,尤其面對(duì)新問(wèn)題的時(shí)候更加突出。以反作弊為例,當(dāng)房源信息發(fā)布的方式改變,更利于經(jīng)紀(jì)人查詢(xún)的時(shí)候,哪些線上的行為特征反映了經(jīng)紀(jì)人正在進(jìn)行房源泄露的違規(guī)操作,人工管理就需要相當(dāng)長(zhǎng)的時(shí)間來(lái)進(jìn)行調(diào)研和總結(jié),而往往在這種博弈過(guò)程中,管理者通過(guò)人工掌握信息的速度趕不上行為特征的變化。數(shù)據(jù)和機(jī)器學(xué)習(xí)的方法則可以從數(shù)據(jù)出發(fā),及時(shí)發(fā)現(xiàn)潛在的異常因素,為經(jīng)紀(jì)人的行為管理多了一重保障。
3. 大大提高數(shù)據(jù)處理效率
機(jī)器學(xué)習(xí)的另一個(gè)優(yōu)勢(shì)在于對(duì)數(shù)據(jù)的處理效率。經(jīng)紀(jì)人的日常工作行為會(huì)帶來(lái)很多數(shù)據(jù)的產(chǎn)出,這種數(shù)據(jù)生產(chǎn)量隨著業(yè)務(wù)的擴(kuò)大和人員的增加呈現(xiàn)非線性增長(zhǎng),而管理者的培養(yǎng)成本決定了需要提升管理效率來(lái)應(yīng)對(duì)這種情況。結(jié)合數(shù)據(jù)和機(jī)器學(xué)習(xí)的方式,能節(jié)省大量的人力成本,將重復(fù)性的、規(guī)律總結(jié)性的、有明確判別標(biāo)準(zhǔn)的工作交給機(jī)器來(lái)完成,輔助管理者提升管理效率。
基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的經(jīng)紀(jì)人評(píng)估與管理系統(tǒng)的實(shí)現(xiàn)
從經(jīng)紀(jì)人管理的角度來(lái)講,數(shù)據(jù)和機(jī)器學(xué)習(xí)的方法主要解決兩個(gè)關(guān)鍵問(wèn)題: 一是對(duì)經(jīng)紀(jì)人進(jìn)行刻畫(huà),從群體上建立經(jīng)紀(jì)人模型。二是對(duì)經(jīng)紀(jì)人進(jìn)行預(yù)測(cè),在一定的約束條件下對(duì)經(jīng)紀(jì)人潛在能力、成長(zhǎng)路徑、合規(guī)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。前者是一個(gè)后驗(yàn)問(wèn)題,相當(dāng)于從各個(gè)方面對(duì)經(jīng)紀(jì)人進(jìn)行“量化”的特征表達(dá),數(shù)據(jù)是其量化的依據(jù),通過(guò)數(shù)據(jù)挖掘的方法來(lái)挖掘其中的最大模式和最顯著特征。后者是一個(gè)先驗(yàn)問(wèn)題,是在經(jīng)紀(jì)人特征基礎(chǔ)上針對(duì)相應(yīng)的任務(wù),利用機(jī)器學(xué)習(xí)方法訓(xùn)練預(yù)測(cè)、判別模型,對(duì)新的樣本或未發(fā)生的事情進(jìn)行預(yù)測(cè)。其中,數(shù)據(jù)是基礎(chǔ),機(jī)器學(xué)習(xí)是數(shù)據(jù)加工和目標(biāo)實(shí)現(xiàn)的方法。
基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的經(jīng)紀(jì)人評(píng)估與管理系統(tǒng)的基本原理如下圖所示:
對(duì)經(jīng)紀(jì)人的刻畫(huà)包括了靜態(tài)的屬性特征、狀態(tài)特征、動(dòng)態(tài)行為特征等,這些特征都來(lái)自于人事、財(cái)務(wù)、合同、交易、Link作業(yè)端等一系列的業(yè)務(wù)數(shù)據(jù),對(duì)業(yè)務(wù)數(shù)據(jù)的提取和加工使得我們能夠結(jié)構(gòu)化地去描述每一個(gè)經(jīng)紀(jì)人,形成經(jīng)紀(jì)人的特征數(shù)據(jù)。特征數(shù)據(jù)的構(gòu)建是利用機(jī)器學(xué)習(xí)輔助經(jīng)紀(jì)人管理的基礎(chǔ)。
針對(duì)經(jīng)紀(jì)人個(gè)體數(shù)據(jù)構(gòu)成的特征數(shù)據(jù)集,一方面利用無(wú)監(jiān)督學(xué)習(xí)的方法對(duì)個(gè)體集合進(jìn)行群體劃分,采用統(tǒng)計(jì)學(xué)的方式進(jìn)行差異性分析,結(jié)合人力管理的經(jīng)驗(yàn),構(gòu)建具有顯著特征的經(jīng)紀(jì)人能力模型,形成群體畫(huà)像和能力映射。
另一方面,利用有監(jiān)督學(xué)習(xí)的方式,從狀態(tài)判定(判定經(jīng)紀(jì)人個(gè)體當(dāng)前狀態(tài)所屬等級(jí),并評(píng)估是否優(yōu)于、符合或劣于其實(shí)際等級(jí))、經(jīng)紀(jì)人成長(zhǎng)路徑規(guī)劃(預(yù)測(cè)更適合經(jīng)紀(jì)人個(gè)體發(fā)展的下一步目標(biāo),以及達(dá)到這些目標(biāo)需要在哪些方面提升能力)、經(jīng)紀(jì)人風(fēng)險(xiǎn)預(yù)測(cè)(離職、違規(guī)等風(fēng)險(xiǎn)預(yù)測(cè))等方面來(lái)輔助管理者決策和進(jìn)行對(duì)經(jīng)紀(jì)人的管理。
在應(yīng)用中發(fā)現(xiàn)問(wèn)題、解決問(wèn)題
經(jīng)紀(jì)人能力模型構(gòu)建、經(jīng)紀(jì)人離職風(fēng)險(xiǎn)預(yù)測(cè)、違規(guī)判定及風(fēng)險(xiǎn)預(yù)測(cè)是基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的經(jīng)紀(jì)人評(píng)估與管理系統(tǒng)當(dāng)前的主要應(yīng)用場(chǎng)景。其中,經(jīng)紀(jì)人能力模型構(gòu)建包含經(jīng)紀(jì)人的服務(wù)能力、專(zhuān)業(yè)技能、成長(zhǎng)潛力、創(chuàng)新能力、團(tuán)隊(duì)貢獻(xiàn)能力等五方面能能力模型,覆蓋了10萬(wàn)經(jīng)紀(jì)人和20多個(gè)城市。經(jīng)紀(jì)人離職風(fēng)險(xiǎn)預(yù)測(cè)判定的有離職風(fēng)險(xiǎn)的經(jīng)紀(jì)人中有一半以上會(huì)在一個(gè)月內(nèi)離職(準(zhǔn)確率>50%),有五分之一的經(jīng)紀(jì)人離職前能及時(shí)地被發(fā)現(xiàn)其存在離職風(fēng)險(xiǎn)(召回率>20%)。違規(guī)判定及風(fēng)險(xiǎn)預(yù)測(cè)使經(jīng)紀(jì)人假錄入房源行為判別(模型判別+線下核驗(yàn))的效率比人工策略(策略規(guī)則判別+線下核驗(yàn))提升了4倍,每個(gè)月可以自動(dòng)發(fā)現(xiàn)上百起房源泄露事件(事后,模型判別+人工驗(yàn)證),目前正在進(jìn)行事前風(fēng)險(xiǎn)預(yù)警的研發(fā)。
在應(yīng)用過(guò)程中,最常見(jiàn)的問(wèn)題有兩個(gè):結(jié)果的可解釋性和實(shí)際效果驗(yàn)證。
1. 系統(tǒng)輸出的結(jié)果適用于輔助人力資源對(duì)經(jīng)紀(jì)人進(jìn)行管理,尤其在違規(guī)判定等問(wèn)題上需要解釋結(jié)果產(chǎn)生的原因,而機(jī)器學(xué)習(xí)本身是一個(gè)關(guān)聯(lián)性計(jì)算,其結(jié)果的可解釋性隨著算法模型的復(fù)雜程度的提升而降低。當(dāng)前情況下,鏈家采用的是數(shù)據(jù)鏈路回溯的方式,對(duì)于存在高風(fēng)險(xiǎn)的結(jié)果,反過(guò)來(lái)追溯計(jì)算中的數(shù)據(jù)鏈路,引入人工的方式對(duì)鏈路中可疑的點(diǎn)進(jìn)行排查和判定。
2. 對(duì)于效果驗(yàn)證,離線狀態(tài)下很容易能夠針對(duì)測(cè)試集去驗(yàn)證模型效果,其結(jié)果用于輔助經(jīng)紀(jì)人管理。當(dāng)管理者根據(jù)預(yù)測(cè)結(jié)果介入干預(yù)后,實(shí)際的結(jié)果將可能受到影響(例如存在離職風(fēng)險(xiǎn)的經(jīng)紀(jì)人因?yàn)楣芾碚呓槿牒蠓艞壛穗x職的想法)。當(dāng)前,鏈家采用的應(yīng)對(duì)方式是:在正式上線前不引入管理者的干預(yù),評(píng)估效果,正式上線后則在大時(shí)間尺度上比較其它的相關(guān)指標(biāo)的變化(比如在月的時(shí)間尺度上對(duì)離職率進(jìn)行同比、環(huán)比)以及在不同城市和區(qū)域間進(jìn)行對(duì)比。
基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的方法雖好,但也需生長(zhǎng)的沃土
馮揚(yáng)老師介紹說(shuō),基于數(shù)據(jù)和機(jī)器學(xué)習(xí)的方法的使用條件主要有兩個(gè):一是該行業(yè)的數(shù)據(jù)建設(shè)的程度,二是該行業(yè)各業(yè)務(wù)環(huán)節(jié)上的規(guī)范性程度。歸根結(jié)底都是對(duì)數(shù)據(jù)的要求,前者是對(duì)數(shù)據(jù)量的要求,需要數(shù)據(jù)達(dá)到一定的規(guī)模和對(duì)業(yè)務(wù)的覆蓋程度;后者是對(duì)數(shù)據(jù)質(zhì)的要求,是為了能夠有效進(jìn)行特征量化。
鏈家之所以可以運(yùn)用數(shù)據(jù)和機(jī)器學(xué)習(xí)的方法,一方面是經(jīng)過(guò)多年的信息化,將絕大部分線下的操作、行為、數(shù)據(jù)線上化了,利用線上信息系統(tǒng)采集和管理經(jīng)紀(jì)人的基本信息、行為數(shù)據(jù)、業(yè)績(jī)狀態(tài)、作業(yè)過(guò)程……,相對(duì)全面地收集了關(guān)于經(jīng)紀(jì)人的一切數(shù)據(jù);另一方面房產(chǎn)領(lǐng)域經(jīng)過(guò)多年的發(fā)展和改造,在其中的各個(gè)環(huán)節(jié)形成了相應(yīng)的行業(yè)規(guī)范和基本的評(píng)價(jià)標(biāo)準(zhǔn)。
擁抱互聯(lián)網(wǎng),開(kāi)啟信息化進(jìn)程
最后,馮揚(yáng)老師對(duì)鏈家的信息化進(jìn)程進(jìn)行了簡(jiǎn)單介紹。鏈家從2010年開(kāi)始進(jìn)行信息化和標(biāo)準(zhǔn)化,在初期主要是通過(guò)與第三方公司的戰(zhàn)略合作來(lái)對(duì)房產(chǎn)交易進(jìn)行規(guī)范化改造,將線下信息進(jìn)行采集并進(jìn)行數(shù)字化管理。2014年鏈家網(wǎng)正式成立,通過(guò)互聯(lián)網(wǎng)的方式將經(jīng)紀(jì)人的作業(yè)過(guò)程、房源客源管理、信息服務(wù)等全面線上化,打通了線上信息觸達(dá)、線下經(jīng)紀(jì)人服務(wù)、各業(yè)務(wù)環(huán)節(jié)數(shù)據(jù)采集回收的完整回路。
從2015年底開(kāi)始,鏈家加速房產(chǎn)大數(shù)據(jù)進(jìn)程,首先從房源信息入手,結(jié)合線上錄入、采集、核驗(yàn)、發(fā)布等手段,建立100%真房源庫(kù),并逐漸將分散在各個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進(jìn)行采集、重新組織、管理、構(gòu)建“房(房屋)-客(客戶(hù))-人(經(jīng)紀(jì)人)”為核心的大數(shù)據(jù)網(wǎng)絡(luò)。提升信息在該網(wǎng)絡(luò)中的流轉(zhuǎn)效率。
目前,“鏈家網(wǎng)-數(shù)據(jù)策略部”涵蓋了大數(shù)據(jù)、搜索平臺(tái)、NLP、策略算法等團(tuán)隊(duì),負(fù)責(zé)鏈家房產(chǎn)大數(shù)據(jù)建設(shè),同時(shí)結(jié)合數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等手段,以數(shù)據(jù)產(chǎn)品、策略產(chǎn)品、數(shù)據(jù)及能力輸出的方式服務(wù)于房產(chǎn)交易中的買(mǎi)方、賣(mài)方以及經(jīng)紀(jì)人,同時(shí)依托該大數(shù)據(jù)體系促進(jìn)房產(chǎn)交易行業(yè)的規(guī)范化進(jìn)程。
【講師簡(jiǎn)介】
馮揚(yáng),北京理工大學(xué)信息工程博士,鏈家網(wǎng)數(shù)據(jù)策略部高級(jí)總監(jiān)。曾就職于新浪微博、騰訊、搜狗等互聯(lián)網(wǎng)公司任推薦技術(shù)專(zhuān)家,從事推薦算法研究及推薦系統(tǒng)的研發(fā)工作。研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、推薦系統(tǒng)等,主持并實(shí)施了社交媒體數(shù)據(jù)挖掘,社交網(wǎng)絡(luò)用戶(hù)關(guān)系模型構(gòu)建,微博推薦體系和系統(tǒng)搭建,微博視頻語(yǔ)義分析系統(tǒng)等。2017年加入鏈家網(wǎng),負(fù)責(zé)鏈家網(wǎng)數(shù)據(jù)挖掘、大數(shù)據(jù)產(chǎn)品、策略算法等方面工作。
使用優(yōu)惠碼[2017WOTDSZ],和我一起去WOTD全球軟件開(kāi)發(fā)技術(shù)峰會(huì)。8折優(yōu)惠,僅限72小時(shí)!詳情點(diǎn)擊www.wot.51cto.com
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】