貝葉斯算法會是破解“App刷票”的良方
近日,沸沸揚揚的360 App刷排名事件及其背后黑色產(chǎn)業(yè)鏈的浮現(xiàn)讓公眾對App Store的公正性引發(fā)質(zhì)疑。盡管蘋果官方已于2月7日針對其應用程序開發(fā)者發(fā)出一份帶有警告意味的聲明,勸告開發(fā)者不要試圖操縱App Store排行榜,并表示將加大審查和處罰力度。但不難看出在App Store現(xiàn)有的應用排名和評分機制下,蘋果很難對刷票者及其帶來的負面影響做到全盤精確掌控。
截至2011年5月,蘋果App Store中共有超過50萬個應用程序,其中中國區(qū)應用程序就高達37萬個,光是iPhone用戶,每天就有約600萬人在App Store中下載應用程序,如此龐大的數(shù)量,不置可否的將產(chǎn)生大量管理工作,如審核、上架、下架等等。因此,蘋果App Store內(nèi)應用程序的排名及評價管理不可能采用人工方式,取而代之的是一套蘋果自有的程序體系。
根據(jù)APP刷排名產(chǎn)業(yè)鏈調(diào)查一文中提供的信息,目前蘋果App Store中刷排行的方式主要是刷下載量,既用假的itunes賬戶下載應用。盡管蘋果從未透露過排名算法,但據(jù)iOS開發(fā)者透露,對App Store中應用排名起決定性作用的就是下載量。
暫且不論算法的科學性,這種排名方式本身有失公允,很簡單的例子就是在我們身邊,餐飲店肯定比加油站多,你不能因為每天吃飯的人比加油的多而將吃飯這種消費行為排在加油前面。當然,受制于App Store首頁的空間限制,蘋果只能籠統(tǒng)地劃分出“付費應用軟件排行”、“免費應用軟件排行”、“暢銷應用軟件金榜”、“員工最愛”等基于少數(shù)幾個先決條件的排名方式。而考慮到首頁的影響力,相信敢把自己產(chǎn)品刷到首頁排名的并不多,這太明顯了,假到自己都不信。因此App Store虛假排名的“重災區(qū)”只會存在于分類導航頁面中。
OK,既然大家同屬一個分類,那么正常且理想狀態(tài)下即靠實力吃飯。但在APP刷排名產(chǎn)業(yè)鏈出現(xiàn)后,憑借下載量+評分的傳統(tǒng)評判方式顯然落伍,因為電腦速度再快也無法判斷數(shù)字背后的主觀意圖。如果蘋果App Store不想大規(guī)模招聘客服,解決的辦法唯有改變電腦的判定思維。
相信喜歡電影的朋友都知道IMDB,它的IMDB評分被譽為是目前電影界相對而言最公正、公平的排名。IMDB所采取的,正是著名地貝葉斯算法,其公式為:加權(quán)平均分(WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C 。在這個公式里,R = 該電影的平均分 ;v = 該電影的總投票數(shù) ;m = 列入排名前250所需要的最少票數(shù)(各階段不同) ;C = 數(shù)據(jù)庫中所有電影的總平均分(隨權(quán)重波動) 。顯而易見,這種算法比那些采用簡單平均分算法更為科學,它既考慮了電影的受眾人數(shù),也考慮了電影的優(yōu)劣。例如一部電影只有10個人看過,這10個人都給它打了10分,而另一部電影有10000人看過,平均分是9分,你覺得哪個好?相信大部分人會選擇后者。這即是貝葉斯算法的依據(jù)。
我們不妨把該公式往App排名中套。將R = 某款App的平均分;v = 某款App的總下載量; m = 列入排名所需要的最少下載量(根據(jù)該分類加權(quán)計算); C = 該分類中所有App的總平均分。如此一來,蘋果只需將排名依據(jù)由下載量說了算變成評分說了算,便能有效降低刷排行行為帶來的不利影響。
不過正所謂道高一尺魔高一丈。除用假iTunes賬戶刷下載量外,一些代刷機構(gòu)還能繞過技術限制(例如每一部手機上的IMEI只能發(fā)布一條評論。但因漏洞存在,代刷機構(gòu)可通過模擬器偽造IMEI),偽造大量虛假用戶評論(評分)。但從根本而言,貝葉斯算法仍是減輕當前App排名不利影響的一道良方。