無所不能的大數(shù)據(jù):預(yù)測本屆世界杯賽事結(jié)果
譯文從今天開始,又一屆世界杯賽事正式拉開帷幕,全世界的球迷與非球迷也將共同享受這段激情燃燒、熱血澎湃的美好時光。清爽的啤酒已斟滿、閃亮的屏幕已就緒,每個人胸懷對國家的熱愛以及也許有些不切實際的期盼關(guān)注著綠茵場上的競逐。目前關(guān)于本屆世界杯的各項統(tǒng)計數(shù)據(jù)已經(jīng)火熱出爐;巴西預(yù)計將迎來全球各地共計370萬名觀眾,由此帶來的經(jīng)濟效應(yīng)高達30.3億美元;專門銷售球星卡等周邊產(chǎn)品的帕尼尼公司預(yù)計單在巴西本土,由貼紙帶來的營收就將高達8910萬英鎊;而在英國,達美樂披薩估計世界杯期間其銷售總額也將達到8400萬英鎊。
不過關(guān)于某個重要話題,相關(guān)統(tǒng)計結(jié)果與數(shù)字似乎較為稀缺,這就是——誰能成為本屆世界杯的***贏家。我們可以估算出有多少球迷會親身趕赴巴西,多少英國人會在電視機前大嚼美好的披薩,又有多少狂熱粉絲收集球星卡;但我們能否利用數(shù)據(jù)來預(yù)測誰會最終奪冠?為了避免有失偏頗,我們將一邊了解懷疑論者的觀點、一邊感受高盛集團等支持者對于數(shù)據(jù)驅(qū)動模型能夠成功預(yù)測世界杯冠軍歸屬的堅定決心。
懷疑論者:不,這不可能
左側(cè)球員為被換上場的弗拉米尼
簡而言之,足球是一項充滿挑戰(zhàn)的運動,我們很難利用分析手段準確預(yù)測其結(jié)果。正如《經(jīng)濟學(xué)家》去年在報道中所言,要在足球領(lǐng)域應(yīng)用“魔球理論”絕非易事。相對于棒球中那些更易衡量的離散事件,足球運動場上的二十二位參與者需要不斷移動并以無窮無盡的方式組合彼此作用。足球天然具有動態(tài)屬性,這就讓判斷哪些因素需要考量并不斷獲取考量結(jié)果變得***挑戰(zhàn)。
盡管難度極高,但這一切并非不可能;我們最近曾報道過同樣充滿動態(tài)要素的籃球運動,目前攝像系統(tǒng)已經(jīng)能夠破解復(fù)雜的數(shù)據(jù)、告知參賽隊伍的教練員籃球以及球員在場上的具體位置——其精確程度甚至達到每個賽季每場比賽中的每一秒鐘。類似的分析方式在足球領(lǐng)域同樣行得通;ProZone以及Opta等企業(yè)已經(jīng)開始追蹤運動場上的一系列指標——包括比賽中運動員的位置、傳球的方式以及進球機會等等。一般來說,每場比賽產(chǎn)生的數(shù)據(jù)事件約有2000個。
不過這些數(shù)據(jù)的相對價值仍然有待觀察。球隊管理者在依靠原始數(shù)據(jù)進行球員選擇時,既有成功的案例、也遇到過失敗的狀況。首先來看成功案例:阿森納隊主教練溫格注意到了弗拉米尼在比賽中出色的全場跑動距離以及優(yōu)秀的臨場表現(xiàn),并最終決定用他取代維埃拉。不過失敗的狀況同樣存在:弗格森通過數(shù)據(jù)認定斯坦姆目前的搶斷次數(shù)已經(jīng)大不如前,并決意將其淘汰出隊。然而后期數(shù)據(jù)顯示,斯坦姆在意大利隊用卓越表現(xiàn)證明了自己的價值。
問題的核心在于,盡管數(shù)據(jù)能夠說明哪些球員在賽場上奔跑速度最快或者跑動距離最長、誰的搶斷次數(shù)最多,但一位優(yōu)秀的足球運動員并不僅僅是幾項數(shù)值的簡單累加。數(shù)據(jù)所反映的是過去,而并不足以證明球員未來的臨場表現(xiàn)仍將延續(xù)目前的綜合指標結(jié)論。
科學(xué)家:是的,我們可以
在對世界杯賽事結(jié)果進行預(yù)測時,高盛集團明智地回避了球員特定屬性這一棘手的分析角度,轉(zhuǎn)而采取更具通行性的辦法。他們觀察各支國家隊在歷屆世界杯上的表現(xiàn)及其目前的Elo(即競賽水平數(shù)值)排名情況,并借此制定出一套預(yù)測模型。他們對自己的方法作出了如下解釋:
每場賽事的結(jié)果預(yù)測都基于一套完整的回歸分析方案,并采用自1960年以來全部正式國際比賽——也就是說不包括友誼賽——結(jié)果作為參考信息。這為我們帶來約14000條預(yù)測指標,用以評估我們所使用的模型計算系數(shù)。在回歸分析當(dāng)中,因變量為每周比賽參賽雙方的進球數(shù)量。根據(jù)文獻對足球比賽進行模型化歸納后,我們假定特定球隊在匹配特定對手時的進球數(shù)量遵循以下泊松分布(一種常見的離散概率分布)。
他們的這套模型發(fā)現(xiàn)巴西隊擁有驚人的對陣勝出率——48.5%。他們預(yù)計巴西將在決賽中以3比1擊敗阿根廷隊,而阿根廷方面的勝率僅為14.1%。巴西隊之所以能夠獲得如此高的評價,其因素可謂多種多樣,其中包括出色的Elo系統(tǒng)排名、在世界杯賽場上相對于其它賽事更為強勁的實際表現(xiàn)以及今年的東道主優(yōu)勢——自1930年以來,全部世界杯比賽中主辦國隊伍拿下大力神杯的比例高達30%。根據(jù)這套模型的推算,今年巴西在自家門前奪取冠軍的機率高達65%;相比之下歐洲各勁旅的日子就不太好過了,歷史記錄顯示他們從未在美洲諸國主辦的世界杯上獲得過最終勝利。
不過這套模型完全依賴于過去的參考指標,顯然無法反映未來可能出現(xiàn)的不確定因素。高盛集團曾經(jīng)利用類似的分析模型以此前的表現(xiàn)為基礎(chǔ)對英國在2012年倫敦奧運會上的表現(xiàn)作出過預(yù)測。他們預(yù)計英國將拿下30枚金牌與總計65枚獎牌,而事實上英國最終奪得29枚金牌與總計65枚獎牌。
史蒂芬•霍金則采取另一種完全不同的分析方式得出了迥異于高盛的預(yù)測結(jié)論,他在考量了大量數(shù)據(jù)后認為英國今年***奪冠潛力。在高盛的計算模型中,英國今年的表現(xiàn)將令人失望、甚至無法從小組賽中出線,看來英國隊***是采信霍金的結(jié)論、以免士氣低落。在進一步建議中,霍金認為英國采取4-3-3陣形最能發(fā)揮自身實力,而比賽時間***選在格林威治標準時間下午三點左右,并盡可能選派光頭或者金發(fā)球員上場(因為這類球員的得分機率更高)。除此之外,他還建議罰任意球或者點球的運動員采取三步以上的助跑距離并用側(cè)腳踢球(這種方式能讓得分機率提高10%),并盡量讓皮球的落點在球門的左上或者右上角(這一區(qū)域的進球成功率高達84%)。不過霍金也承認,這已經(jīng)是數(shù)據(jù)在足球運動中所能給出的全部指導(dǎo)意見了。畢竟在實際罰球當(dāng)中,英格蘭隊的表現(xiàn)一直相當(dāng)糟糕。
說了這么多,大數(shù)據(jù)到底能否幫助我們預(yù)測世界杯的比賽結(jié)果?獲得答案的惟一辦法就是持續(xù)關(guān)注未來的一系列賽事,看看巴西能不能在占盡天時地利的情況下成功登頂。當(dāng)然了,各位也不妨留心一下英格蘭隊能否在其向來令人捉雞的點球大戰(zhàn)中有所突破。