自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟研究院是如何利用數據挖掘預測奧斯卡的?

云計算
微軟亞洲研究院可能得興奮過頭了,實際情況是,David團隊對所有24個獎項都做出了預測,其中19項預測正確,有5項錯誤,出錯的除去最佳導演外,還包括最佳男配角、最佳化妝、最佳紀錄短片和最佳藝術指導這幾個獎項。

奧斯卡獲獎名單甫一公布,興奮的除了影迷們,恐怕還有微軟亞洲研究院。他們的官微稱,微軟研究院的“David Rothschild帶領的團隊通過對入圍影片相關數據分析預測出今年各項奧斯卡大獎的最終歸屬”,“除最佳導演外,其他各項奧斯卡大獎預測全部命中。”

微軟亞洲研究院可能得興奮過頭了,實際情況是,David團隊對所有24個獎項都做出了預測,其中19項預測正確,有5項錯誤,出錯的除去最佳導演外,還包括最佳男配角、最佳化妝、最佳紀錄短片和最佳藝術指導這幾個獎項。

當然,即使這樣,也不得不說他們做出的預測結果準確率已經非常高。David在微軟研究院的博客中介紹了他們是如何通過對數據進行挖掘,建立預測模型來得出這一結果的:

“預測奧斯卡的方法同我預測其他東西的方法一致,包括政治。”David說,”我關注最有效的數據,然后創(chuàng)建一個不受任何特別年份結果干擾的統(tǒng)計模型。所有模型都根據歷史數據進行檢測和校正,確保模型能夠正確預測樣本結果。這些模型能夠預測未來,而不只是驗證過去發(fā)生的結果。”

“我關注四種不同類型的數據:投票數據、預測市場數據和基礎數據和用戶生成數據( user generated data )。

對于大選來說,基礎數據,比如說過去的選舉結果、現任者和經濟指數等,更為重要。在整個預測周期中,會通過基礎數據建立一個基準,當預測市場數據和投票數據所含信息越來越豐富之后,再把重點轉向后者。預測2012年總統(tǒng)大選時,我運用了少量的用戶生成數據,但是Xbox LIVE的數據對于提供大事件的實時分析非常關鍵。

但是奧斯卡的預測缺少投票數據,而且票房回報和電影評分等數據在統(tǒng)計學上并不是那么地有效。所以我更多地把注意力放在預測市場數據上,再加入部分用戶生成數據,這可以幫助我了解電影內部和不同類別之間關聯度,比如《林肯》會贏得多少個項獎項。

只要我關注一個新的領域,我就會去思考對于一項有意義的預測來說,有哪些關鍵的事情:

首先,我會確定什么是最相關的預測。比如說,奧斯卡我會關注24個類別可能的贏家,也會思考某部電影的獲獎總數;

其次,所有的預測會進行實時更新。從研究的角度看,了解從做出預測和最終結果之間所發(fā)生事件的價值很關鍵。對于奧斯卡來說,這些事件就是其他獎項(如金球獎等)的頒獎結果;

最后,我會利用這個領域的歷史數據來建立這個模型,然后不斷更新以確保模型的準確度。我想強調的是,我們做的每件事都是針對獨立領域的,來保證它能擴展到很多問題上。如果這項研究能推演出更有效率的預測模型,能應用到更多領域來解決更多問題,那它對于微軟、對于學術界和這個世界來說都將有很大的價值。”

David和他的團隊開設了PredictWise網站,專門刊登對于各項重大事件的預測結果。他稱,奧斯卡預測的難度非常大,因為它涉及到24個類別(通常只有6個),而且隨著奧斯卡之前其他獎項的不斷頒出,整個結果會不斷地產生變化。

為了解決這個問題,David加大了動態(tài)數據在整個預測模型里的比重。

“實時預測是非常重要的。因為實時預測可以隨時提供最新的預測結果,而動態(tài)數據的挖掘表明整個預測結果正在不斷納入新信息。此外,它可以提供一個更細的追蹤記錄,來展示什么時候/為什么發(fā)生了變化,是哪個部分影響了最后的結果。”

以最佳影片獎的動態(tài)數據為例,大熱門電影《林肯》的勝率就在《逃離德黑蘭》陸續(xù)獲得多個獎項之后迅速滑坡——在奧斯卡提名剛公布的時候,《逃離德黑蘭》僅有8%的可能性獲獎,但是后期的獎項讓它的獲勝率迅速增長到了93%。

除了要考慮時間上的動態(tài)變化,還要注意數據之間的相互影響。David的模型指出,最佳影片獎和最佳改編劇本獎之間有著強烈的相關性,所以《林肯》和《逃離德黑蘭》在這兩個獎項里波動趨向基本一致,只是幅度略有差異。《林肯》最初有70%的可能性獲得最佳改編劇本獎,但在它獲得最佳影片獎的可能性一路走低后,《逃離德黑蘭》的得獎率反超到了57%。

為了更好的實現動態(tài)數據的挖掘,David還和微軟的Office部門一起合作,發(fā)布了一款名為“Oscars Ballot Predictor”的Excel App,可以實時更新預測情況。

 

 

不過,和David更多的是挖掘預測市場數據和基礎數據不同,分析機構BranWatch選擇的是利用社交數據建立自己的預測模型。它從各大社交網絡中找出演員、導演和電影被提及的次數,通過計算所獲得的積極評價數來預測他們獲獎的幾率。而Twitter占到了BrandWatch取樣內容的約40%。

BrandWatch的做法并不新鮮,但是以往的分析數據有一點不同的是,它把專業(yè)人士的評論和普通大眾的評論區(qū)分開來統(tǒng)計,而且只收集積極評價的數量。這里面就涉及到了兩個變量,一是提及次數,還有一個就是背后的態(tài)度。BrandWatch認為,這樣就確??梢赃^濾掉一定的無效數據,比如,大量Helen Hunt在紅地毯上的穿著的評價,就不會作為主要數據納入到統(tǒng)計中。

此外,因利用統(tǒng)計學成功預測去年美國總統(tǒng)大選的Nate Silver,也給出了他自己的預測結果和模型,我們就不再贅述,有興趣的可以點擊他在《紐約時報》的專欄。

責任編輯:王程程 來源: Pingwest
相關推薦

2009-04-21 14:36:44

微軟女性職場

2015-12-18 11:54:20

微軟亞洲研究院圖數據庫

2014-06-19 13:49:41

微軟加密庫JavaScript加

2009-02-24 10:07:58

開發(fā)微軟蓋茨

2009-02-17 11:52:44

2017-02-10 16:44:39

微軟人工智能深度學習

2020-10-19 10:08:03

微軟斜屏技術

2021-03-15 09:20:15

微軟IBM研究院

2021-02-01 09:51:35

IBM中國研究院

2021-06-25 09:47:06

KDD Cup Graphormer

2022-01-24 17:47:10

微軟AIOps智能運維

2022-04-22 11:22:47

達摩院阿里巴巴

2015-08-27 13:36:31

大數據

2013-02-26 10:44:50

奧斯卡大數據微軟

2015-11-11 14:01:26

微軟開源分布式

2022-03-03 10:06:41

Transforme模型機器學習

2011-03-11 13:22:16

2010-12-21 18:24:26

2010-07-21 10:57:25

歐特克中國研究院
點贊
收藏

51CTO技術棧公眾號