各位球迷 大數據預測世界杯靠譜嗎?
騰訊科技:
目前采用大數據技術預測世界杯的,既有百度這樣的互聯網公司,也有德銀這樣的知名投行。
一、預測確實使用了大量數據
通過采訪百度的相關人士,我們發(fā)現百度預測世界杯的主要數據來源包括:百度搜索數據,球隊基礎數據,球員基礎數據,賠率市場數據。百度大數據通過分析過去5年987支球隊的3.7萬場比賽數據,共涉及29610名球員,112,285,543條相關數據,構建了足球賽事預測模型。
為了驗證模型是否準確,百度用2010年南非世界杯的淘汰賽數據進行了準確性驗證,具體方法是為預測模型輸入2010年世界杯期間的比賽、球隊、球員等相關數據,由預測模型計算出淘汰賽比賽結果,與當時的比賽結果進行對比,結果顯示16場淘汰賽算準了12場,準確率為75%。
德銀則是根據各個球隊的FIFA排名、歷史戰(zhàn)績、球員構成和賭球賠率等因素,建立了量化分析模型,并根據復雜計算得到一份奪冠概率表格。其中巴西名列第一,緊隨其后的是德國、西班牙、法國。然后再根據某些假設,得出最終的冠軍得主。
二、推算邏輯并不完美
德銀推算出的最終的冠軍得主是在概率表的基礎上得出的。具體來說,德銀從奪冠概率表格中挑選出了前10強,這10強依據奪冠的概率排名分別是巴西、德國、西班牙、法國、阿根廷、意大利、荷蘭、葡萄牙、烏拉圭和英格蘭。德銀認為最終的冠軍只能從這十家選出。
在篩選的過程中,德銀提出了“輪流轉周期”概念,德銀認為過去19屆世界杯當中,有3次是連續(xù)四屆世界杯由不同的四支球隊奪冠,還有2次是連續(xù)兩屆世界杯由不同的兩只球隊奪冠,剩下的3屆即從2002-2010年的三屆世界杯構成了德銀心中又一個四屆不同得主的輪流轉周期的前3/4,德銀由此排除了2014年巴西、意大利和西班牙奪冠的可能性,因為它們是過去三屆世界杯的冠軍得主。
這樣就剩德國、法國、阿根廷、荷蘭、葡萄牙、烏拉圭和英格蘭七只隊伍,然后德銀根據另一個假設:強隊會回來,即奪取過世界杯的強隊,未來必然還會奪取世界杯或至少打入一次決賽。而英格蘭就在1966年奪過一次冠,此后至今從未進過決賽,德銀據此認為英格蘭奪冠可能性大增。
最后,本屆英格蘭隊有6名隊員來自利物浦,而正是在利物浦的球員最多的1966年,英格蘭獲得了歷史上唯一一次世界杯冠軍。同時德銀報告的主筆人承認自己是利物浦隊的鐵桿球迷,因此,最后確定英格蘭將獲得世界杯的冠軍。
不難發(fā)現其中的邏輯非常牽強。德銀似乎只為了得出一個想要的結果而設置了某個模型或假設,而非根據確定的科學模型來推測最終的結果。有“本末倒置”之嫌。
百度相對來說更加科學一些,起碼推測的因果順序沒有顛倒。但是百度的推測顯然也有漏洞,百度的模型經過自己的驗證之后,準確率也只有75%。而且這個驗證是輸入過去的數字來推測,但是過去準確的未來并不一定準確。
三、“醉翁之意”不在預測本身
用大數據來預測世界杯比用章魚保羅更加可信(起碼從表面上來看是這樣)。不過這種預測活動更像是利用世界杯而進行的營銷活動,目的并不是為了得出某個確定的結論,而是為了吸引網友的參與。
百度的世界杯預測還跟足彩投注活動結合,通過預測出奪冠率這一數字,為用戶購買足球彩票提供參考,更像一場商業(yè)活動。
不過,在世界杯到來的前夕,網友們通過企業(yè)所做的預測得知哪支球隊可以奪冠也是一種娛樂。對于預測結果到底有多大的可信度不必太過認真。