第22期百度技術(shù)沙龍總結(jié):數(shù)據(jù)挖掘的價值
原創(chuàng)【51CTO報道】一群傳統(tǒng)行業(yè)的從業(yè)者們和一群互聯(lián)網(wǎng)人聚在一起,討論的不再是企業(yè)信息化的問題,而是數(shù)據(jù)挖掘的話題。
2012年1月7日下午的百度技術(shù)沙龍將主題定為《海量用戶的數(shù)據(jù)挖掘與行為分析》,兩個主講人分別來自百度與人人網(wǎng),話題分別專注于搜索引擎算法的評估以及社交網(wǎng)絡(luò)推薦算法的評估。
相對于軟件開發(fā)和服務(wù)運維等“傳統(tǒng)”IT技術(shù)而言,數(shù)據(jù)挖掘是一個完全不同的學(xué)科。百度技術(shù)沙龍的兩個分享者的話題,一個偏重于方法論,一個偏重統(tǒng)計學(xué),令當天的不少聽眾感覺有一些理解上的門檻;但數(shù)據(jù)挖掘本身其實是個相當古老的學(xué)科,在科研領(lǐng)域一直是必備技能之一。科研領(lǐng)域之外,數(shù)據(jù)挖掘早期主要應(yīng)用于金融行業(yè)的客戶需求預(yù)測、保險行業(yè)的客戶風(fēng)險分析等情景,因為金融行業(yè)在當時是數(shù)據(jù)積累最為密集、對數(shù)據(jù)需求最高的行業(yè)。
隨著互聯(lián)網(wǎng)服務(wù)規(guī)模的擴大,有心人為了改進服務(wù)、增強競爭力以及其他一些原因而早早開始有意識的跟蹤搜集用戶使用服務(wù)過程中的一些數(shù)據(jù)。在這個過程中,越來越多的泛對象服務(wù)轉(zhuǎn)變成為有針對性的個性化服務(wù)。最容易理解的場景是電子商務(wù):個性化推薦服務(wù)目前已經(jīng)可以媲美很多商場里的導(dǎo)購小姐。網(wǎng)絡(luò)營銷與廣告系統(tǒng)的場景需求與電子商務(wù)的情景類似。傳統(tǒng)行業(yè)方面也有很多潛在的需求,比如醫(yī)療方面,不同個體的病史數(shù)據(jù)對于其下一步治療應(yīng)該采取哪些方案有極為重大的參考意義;傳統(tǒng)的商場,需要評估柜臺貨架如何擺放能夠達到最高的效率;制造業(yè)領(lǐng)域,需要評估怎樣的材料、怎樣的環(huán)境和怎樣的流程能夠更高效的制造質(zhì)量更好的產(chǎn)品。
任何領(lǐng)域的數(shù)據(jù)挖掘都面臨兩大問題:一,你并不完全知道應(yīng)該去收集哪些數(shù)據(jù),而你能夠收集的數(shù)據(jù)終究是有限的;二,你通過數(shù)據(jù)挖掘分析得出了一些結(jié)論,但是這個結(jié)論并不容易證實或證偽。在實驗結(jié)果可靠性高的領(lǐng)域,這個問題相對容易,比如你想知道一個鉛球掉到地上能砸出多大個坑,你多少知道應(yīng)該去測量鉛球的尺寸和質(zhì)量,它下落的高度和角度等參數(shù),并通過實踐來推算;然而在大多數(shù)場景,需要考慮的參數(shù)是很多的,而設(shè)計再精良的實驗也只能給你一個不怎么精確的結(jié)論。
百度網(wǎng)頁搜索部 彭滔
作為搜索引擎,百度的目的是要讓搜索結(jié)果的呈現(xiàn)次序更好。何謂更好?這是設(shè)計任何算法之前必須考慮好的問題。“好”必須變成一個可以量化的指標。來自百度網(wǎng)頁搜索部的彭滔就跟我們介紹了他們的經(jīng)驗。在百度搜索的發(fā)展歷程中,“好”的評估方式大致被分為三個階段。彭滔取了一個query用作例子:“給我一片關(guān)于春天的作文,要長的,快點”。這個例子的目的性很強,評判的主要標準在于解決特定問題。
第一個階段,是由PM來給搜索排序中的第一頁的結(jié)果打分,0分是最差,4分是最好。如果4分結(jié)果靠前,這個算法在這個query上就被定義為一個較好的算法:
第二個階段是第一個階段的多人版,即抽取較多的query,從外包公司請來一大批兼職人員(evaluator)來評分,然后取平均值。對于正確率高的evaluator給予獎勵,即可以認領(lǐng)更多的任務(wù)。
第三個階段徹底改變了“好”的定義:直接在線上環(huán)境進行AB testing,根據(jù)首次點擊的上升/下降情況,以及用戶翻頁的次數(shù)等指標來評估。為了減少隨機性對實驗結(jié)果的影響,還采取了空轉(zhuǎn)、反轉(zhuǎn)等步驟來加固實驗。
究竟百度這樣的評估方法是否給我們帶來了一個越來越好的搜索引擎?相信每個用戶心里,都會對“好的搜索引擎”有不同的定義;而由于每個用戶的query不同,結(jié)論的偏差肯定是有的。最后,彭滔也提出了對個性化搜索的展望,相信這個領(lǐng)域仍有非常大的挖掘空間。
人人網(wǎng)是一個社交網(wǎng)站。本次進行分享的是人人網(wǎng)Social Graph的算法工程師張葉銀,他的目的則是要讓每個用戶主頁那有限的幾十個推薦位上出現(xiàn)盡可能多的讓用戶感興趣的朋友、話題、游戲等內(nèi)容。
社會化網(wǎng)絡(luò)就好比一個社會一般。這個推薦系統(tǒng)就好比在海淀區(qū)這么大一塊地方上方出現(xiàn)一個爪子,這個爪子從什么地方拎起一個人放在我的面前,它要如何知道我會對這個人感興趣?他和我有共同的朋友嗎?他和我有共同的話題嗎?他和我喜歡同一個明星或商品嗎?
張葉銀的分享中,列出了一些通用的量化指標:年齡,學(xué)校,地域,性別;訪問了誰的個人主頁、相冊,給誰分享過信息,給誰留言或評論過……很顯然,這些指標的數(shù)量很多,而且一眼看上去很難評判哪些是更加重要的指標。所以,推薦算法的設(shè)計可以說是一個漫長的試錯過程:
而目前可以依賴的實驗結(jié)果,就是用戶最終在這幾十個推薦位中接受了多少個推薦。
所有這些數(shù)據(jù)挖掘的情景,算法的改良,大多不會是一個突變的過程,很可能只是精確度提升了0.1%甚至更低。然而對于百度和人人網(wǎng)的規(guī)模,0.1%的改良是值得去做的:數(shù)據(jù)的規(guī)模決定了數(shù)據(jù)挖掘的價值。隨著大數(shù)據(jù)時代來臨,數(shù)據(jù)挖掘的價值也將水漲船高,這是一個極好的機會。如果你對數(shù)據(jù)挖掘感興趣,那么建議你打好算法和統(tǒng)計學(xué)的基本功,多多關(guān)注數(shù)據(jù)挖掘的各種需求場景,好趕上這次發(fā)展的大潮。
有關(guān)百度技術(shù)沙龍(官方網(wǎng)站地址):“暢想•交流•爭鳴•聚會”是百度技術(shù)沙龍的宗旨。 百度技術(shù)沙龍是由百度與InfoQ中文站定期組織的線下技術(shù)交流活動。目的是讓中高端技術(shù)人員有一個相對自由的思想交流和交友溝通的平臺。