嘉賓 | 楊洋
撰稿 | 黃顯東
8月6日-7日,??AISummit 全球人工智能技術大會??成功舉辦。本屆大會以“驅(qū)動?創(chuàng)新?數(shù)智”為主題,覆蓋“計算機視覺、自然語言處理、算法與模型、推薦系統(tǒng)、機器學習、智慧金融”等技術領域。
在《機器學習性能優(yōu)化之路》專場中,滴滴首席工程師楊洋通過《個性化推薦在數(shù)據(jù)運營中的創(chuàng)新應用》的主題分享,為開發(fā)者分享了機器學習在數(shù)據(jù)運營中的探索應用。
數(shù)據(jù)運營的價值與挑戰(zhàn)
數(shù)據(jù)運營離不開數(shù)據(jù)體系。在理想的數(shù)據(jù)體系全景中,預期的主要看數(shù)方式包括數(shù)據(jù)產(chǎn)品、數(shù)據(jù)服務、數(shù)據(jù)倉庫,以及基礎性的臨時需求。數(shù)據(jù)產(chǎn)品主要用來支持運營等非技術人員的看數(shù)需求;數(shù)據(jù)服務是通過API的方式對接各種各樣的業(yè)務系統(tǒng);數(shù)據(jù)倉庫是通過資產(chǎn)化方式,對有一定技術能力的人員提供SQL的取數(shù)方式。
完整的看數(shù)過程中,數(shù)據(jù)運營是貫穿始終的,一方面可以充當溝通渠道,對內(nèi)指導數(shù)據(jù)建設;另一方面可以告知用戶我們擁有的數(shù)據(jù)內(nèi)容,持續(xù)向用戶進行培訓和宣貫。
在理想的情況下,通過產(chǎn)品化的方式來滿足大多數(shù)的看數(shù)需求,這樣便可以將整體的研發(fā)人力從臨時需求中解救出來,投入到資產(chǎn)化的工作當中,從而持續(xù)提升數(shù)據(jù)指標。
不過,理想和現(xiàn)實總是有差距的。在日常工作中,總會遇到各種各樣的數(shù)據(jù)易用性問題或者數(shù)據(jù)一致性問題。這些問題的背后也是整個數(shù)據(jù)體系的熵增定律,任何體系的架構,它在孤立無外力的情況下,都會隨著時間的推移逐步腐壞。
同時,在產(chǎn)業(yè)互聯(lián)網(wǎng)的發(fā)展階段也為數(shù)據(jù)運營帶來一些新的挑戰(zhàn)。從生產(chǎn)視角上看,多數(shù)業(yè)務場景正處于線上化探索期的產(chǎn)業(yè)互聯(lián)網(wǎng)會導致數(shù)據(jù)迭代頻繁。從消費視角來看,產(chǎn)業(yè)互聯(lián)網(wǎng)的整個組織架構也更復雜多元。這兩個視角都會造成多樣化和個性化的看數(shù)視角。
此外,傳統(tǒng)的數(shù)據(jù)運營推廣和培訓的方式,也面臨時效性差、延續(xù)性差和針對性不足的痛點,這些都會對運營效果產(chǎn)生影響。
個性化推薦的探索落地
那如何基于個性化推薦技術來解決數(shù)據(jù)運營的挑戰(zhàn)和痛點呢?
要解決這些問題,首先要對數(shù)據(jù)運營的目標場景做一個特點分析。典型的數(shù)據(jù)運營場景可以分成三大類:第一類是用戶冷啟動場景,占比大概為20%,例如新人入職、業(yè)務變化、組織調(diào)整等;第二類是內(nèi)容冷啟動場景,占比60%,例如數(shù)據(jù)線上化或者分析功能迭代;然后通過數(shù)據(jù)運營的手段觸達用戶;第三類場景是常態(tài)化的運營場景,通過常態(tài)化的運營手段,持續(xù)提升業(yè)務的數(shù)據(jù)化運營程度,以及實現(xiàn)一些運營經(jīng)驗的復用。
通過目標場景的特點分析,可以得出一些典型的特點。從內(nèi)容方面上來看,數(shù)據(jù)內(nèi)容推薦可以使用OneDate的指標體系,實現(xiàn)更高程度的規(guī)范性和結(jié)構化。從推薦用戶的角度來看,數(shù)據(jù)內(nèi)容推薦可以針對性的獲取企業(yè)內(nèi)部用戶比較規(guī)范完整的組織架構信息。從推薦目標上來看,數(shù)據(jù)內(nèi)容推薦更加關注準確性,同時消費成本也更高。
基于以上分析,可以構建出數(shù)據(jù)內(nèi)容推薦算法的設計思路。對于用戶冷啟動場景可以使用組織架構的熱度信息,構建一個的推薦的策略;對與內(nèi)容冷啟動場景可以基于OneDate+指標血緣的content-based推薦,對內(nèi)容和用戶實現(xiàn)精準的雙向匹配。對于常態(tài)化的推薦可以基于用戶行為策略+業(yè)務階段方向,實現(xiàn)高可控和高可解釋性的推薦策略
有了初步的算法設計思路,可以基于此將一個全周期的數(shù)據(jù)運營系統(tǒng)落地。具體包括三方面:首先根據(jù)算法實現(xiàn)一個具備用戶生命周期策略和推薦策略的數(shù)據(jù)服務推薦引擎;其次是打通觸達渠道,對郵件、辦公軟件等實現(xiàn)智能觸達,并提供手動觸達作為補充;最后是對前面的兩個能力做工具話和產(chǎn)品化的封裝,以服務更多的場景。
機器學習在數(shù)據(jù)運營領域的未來規(guī)劃和展望
未來,機器學習在數(shù)據(jù)運營領域也會有廣闊的發(fā)展空間。短期內(nèi)產(chǎn)生價值的可以基于業(yè)務線、主題等個性化搜索排序,進行數(shù)據(jù)檢索工具的集成,可以更高效地幫助用戶找到數(shù)據(jù)。
基于數(shù)據(jù)推薦反向指導數(shù)據(jù)建設這個發(fā)展方向還需要進一步探索。在數(shù)據(jù)建設的整體決策階段,可以預先使用推薦來預估潛在的用戶量和潛在的訪問量,為數(shù)據(jù)建設提供相對數(shù)據(jù)化的量化參考。此外在內(nèi)容設計和可視化方面,也可以根據(jù)數(shù)據(jù)化的分析來提供更加科學和數(shù)據(jù)化決策指導。