當(dāng)NBA球星遇上機(jī)器學(xué)習(xí)……
我喜歡籃球。我喜歡打籃球、看籃球、談籃球。有時(shí)候我會(huì)和朋友們談?wù)撝T如“如果科比和勒布朗單挑誰會(huì)贏”之類的話題。我需要用這次機(jī)器學(xué)習(xí)項(xiàng)目,將我的兩個(gè)愛好,籃球和數(shù)據(jù)科學(xué)有機(jī)地結(jié)合起來。 去年夏天,金州勇士隊(duì)轉(zhuǎn)出連續(xù)斬獲兩屆NBA決賽MVP(最有價(jià)值球員獎(jiǎng))的凱文·杜蘭特,引入德安格洛·拉塞爾。于是體育分析員紛紛開始猜測拉塞爾在勇士隊(duì)的適配程度,如下:
來源:clutchpoints
這也讓我開始思考:德安格洛·拉塞爾將如何適應(yīng)勇士隊(duì)的節(jié)奏?能不能運(yùn)用機(jī)器學(xué)習(xí)將NBA球員分類,并預(yù)測某一球員與指定球隊(duì)的兼容程度?
本項(xiàng)目的研究目的是,確定若干球員的類型,并根據(jù)歷史活動(dòng)或他們對(duì)空間的利用確定他們?cè)谇驁錾习缪莸慕巧?/p>
得分、籃板、助攻、搶斷、蓋帽等數(shù)據(jù)不會(huì)被用作特征,因?yàn)樗鼈円蕾囉诶绯鰣鰰r(shí)間或進(jìn)球數(shù)量等數(shù)據(jù)(這項(xiàng)數(shù)據(jù)也不會(huì)出現(xiàn)在特征中)。將得分、籃板、助攻、搶斷、蓋帽等數(shù)據(jù)作為特征可能會(huì)使最終結(jié)果與這些特征密切相關(guān),這就偏離了本次項(xiàng)目的初衷。我將在下文的研究方法部分詳細(xì)列舉所有的特征。
數(shù)據(jù)
我們來看一看數(shù)據(jù)部分。
數(shù)據(jù)是由Python和Selenium包從stats.nba.com提取加工而成。選取的特征大部分都基于上場頻率。很多打法都包含進(jìn)攻和防守站位。比如說,“進(jìn)攻背身單打率”指該球員背身單打時(shí)在進(jìn)攻位的頻率;“防守背身單打率” 指該球員背身單打時(shí)在防守位的頻率。這些特征的附釋,可以參考此鏈接:https://stats.nba.com/help/glossary/。
樣本數(shù)據(jù):272名球員
初始數(shù)據(jù)集包含531名球員。而后上場時(shí)間少于半個(gè)賽季及1000分鐘的球員被移出樣本數(shù)據(jù)。這樣做的原則是,去除所有出場不穩(wěn)定的球員。以下是完整的球員樣本名單:
球員名單
選取特征:41個(gè)
篩選之前特征總數(shù)超過600。最后選取了描述落位和運(yùn)球的特征。
研究方法和模型選擇
由于本項(xiàng)目屬于無監(jiān)督學(xué)習(xí),它得出的結(jié)果需要進(jìn)一步分析。我在模型和簇?cái)?shù)選擇上有兩個(gè)目標(biāo):
1. 突出簇之間的顯著差異。簇?cái)?shù)太少,每個(gè)簇中樣本太多,不能得出各個(gè)球員間的風(fēng)格差異。
2. 避免簇?cái)?shù)過多。如果每個(gè)球員都是一個(gè)簇,結(jié)果只能表明每一個(gè)人都是獨(dú)立的個(gè)體,這對(duì)研究的幫助很小。
模型選擇: DBSCAN, K-means和Mean Shift
以上三個(gè)模型中,K-Means最有效地實(shí)現(xiàn)了研究目標(biāo)。DBSCAN和Mean Shift生成的結(jié)果都包含多個(gè)僅含一個(gè)球員的簇。
簇的數(shù)量:10個(gè)
我決定將簇的數(shù)量定為5的倍數(shù),因?yàn)榛@球場上有5個(gè)位置。10個(gè)簇切合了我設(shè)想的研究方法。
研究結(jié)果
我用所得結(jié)果計(jì)算了每個(gè)組中所有特征的平均數(shù),并根據(jù)最高和第二高的特征對(duì)每組進(jìn)行了排名。術(shù)語定義如下: 首要特征:所列特征的平均值在一組中是最高的。次要特征:所列特征的平均值在一組中是第二高的。 除此之外,還通過條形圖展現(xiàn)了每組的首要特征,用于與其他球員作對(duì)比。
第一組
史蒂芬·庫里
布拉德利·比爾, 巴迪·希爾德, 史蒂芬·庫里, 埃文·, 特雷沃·阿里扎,凱爾·洛瑞, 喬·英格爾斯, 小奧托·波特, 博格丹·博格達(dá)諾維奇,艾弗里·布拉德利, 小蒂姆·哈達(dá)威, 杰森·塔圖姆, 賈斯蒂斯·溫斯洛, 杰里米·蘭姆,伊托萬·摩爾, 凱文·諾克斯, 凱文·許爾特, 波格丹·波格諾維奇, 加里·哈里斯, 布林·福布斯, 埃里克·戈登, 泰勒·約翰遜, 達(dá)米安·多特森, 托里恩·普林斯, 加里特·坦普爾
首要特征:防守單打投籃率
次要特征:手遞手防守率, 防守繞掩護(hù)投籃率, 防守繞掩護(hù)率, 防守背身單打率, 快攻率, 手遞手進(jìn)攻率, 進(jìn)攻繞掩護(hù)投籃率
防守遠(yuǎn)射頻率
第二組 卡爾·安東尼·唐斯,拉馬庫斯·阿爾德里奇,喬爾·恩比德,賽迪斯·楊,布雷克·格里芬,安東尼·戴維斯,尼克拉·約基奇,朱利葉斯·蘭德爾,尼可拉·武切維奇,德安德烈·艾頓,邁爾斯·特納,艾爾·霍福德,馬克·加索爾,馬爾文·巴格萊三世,小賈倫·杰克遜,賽爾吉·伊巴卡,鮑比·波蒂斯,伊內(nèi)斯·坎特,喬納斯·瓦蘭西尤納斯,羅賓·洛佩茲,馬基夫·莫里斯,戈?duì)柤?middot;吉恩
首要特征:進(jìn)攻背身單打率,背身單打觸球率
次要特征:進(jìn)攻籃板球率調(diào)整
第三組
PJ塔克,德雷蒙德·格林,馬爾文·威廉姆斯,杰·克勞德,布魯克·洛佩茲,達(dá)里奧·薩里奇,德維恩·戴德蒙,杰夫·格林,凱利·奧里尼克,戴維斯·貝爾坦斯,邁克·穆斯卡拉,馬克西·克雷貝爾,賈里德·杜德利,邁克·斯科特,約納斯·杰雷布克,安東尼·托利弗,文斯·卡特
首要特征:接球投籃率, 進(jìn)攻定點(diǎn)投籃率, 無防守投籃率, 防守單打率, 防守背身單打率
次要特征:防守定點(diǎn)投籃率, 傳球數(shù)大于接球數(shù)
接球投籃率
第四組
約什·理查德森,CJ·麥科勒姆,邁克·康利,賈馬爾·穆雷,達(dá)龍·福克斯,特雷·楊,賽迪·奧斯曼,艾弗里德·佩頓,克里斯·鄧恩,丹尼·施羅德,埃里克·布萊德索,馬爾科姆·布羅格登,托馬斯·薩托蘭斯基,帕特里克·貝弗利,小丹尼·史密斯,伊曼紐爾·穆迪埃,弗雷德·范弗里特,里基·盧比奧,謝伊·吉爾吉斯·亞歷山大,達(dá)倫·科里森,雷吉·杰克遜,D.J.奧古斯汀,科里·約瑟夫,德雷克·懷特,萊恩·阿什蒂亞克諾
首要特征: 防守籃板球距離, 進(jìn)攻擋拆執(zhí)行率,拿球平均運(yùn)球數(shù), 勻速進(jìn)攻
次要特征:平均拿球秒數(shù),進(jìn)攻擋拆執(zhí)行率, 進(jìn)攻籃板球距離, 長運(yùn)球投籃率
第五組
勒布朗·詹姆斯
朱·赫勒迪,保羅·喬治,扎可·拉文,托拜厄斯·哈里斯,布蘭登·英格拉姆,吉米·巴特勒,德文·布克,科懷·倫納德,德瑪爾·德羅贊,肯巴·沃克,拉塞爾·威斯布魯克,達(dá)米安·利拉德,安德魯·維金斯,多諾萬·米切爾,凱爾·歐文,凱文·杜蘭特,勒布朗·詹姆斯,詹姆斯·哈登,克里斯·米德爾頓,盧卡·東契奇,科林·塞克斯頓,德安吉洛·拉塞爾,克里斯·保羅,拉簡·隆多,喬丹·卡拉克森
首要特征: 長運(yùn)球投籃率,進(jìn)攻單打率, 進(jìn)攻擋拆執(zhí)行率,觸球平均秒數(shù)
次要特征:觸球平均運(yùn)球數(shù),防守?fù)醪饒?zhí)行頻率。防守籃板球概率調(diào)整,無防守投籃率
第六組
尼古拉斯·巴圖姆,朗佐·鮑爾,米卡爾·布里奇斯,丹尼·格林,小凱利·烏布雷,喬納森·艾薩克,特倫斯·弗格森,杰倫·布朗,多里安·芬尼·史密斯,肯里奇·威廉姆斯,約什·奧肯基,德瑪雷·卡羅爾,德安徳烈·本布里,莫里斯·哈克里斯,安德烈·伊格達(dá)拉,羅季翁斯·庫魯茲,詹姆斯·恩尼斯三世,沙奎爾·哈里森,帕特·康諾頓,羅伊斯·奧尼爾,OG·安娜諾比,托里·克雷格,賈斯汀·杰克遜,布魯斯·布朗,弗蘭克·杰克遜
首要特征: 快攻率,防守背身單打率,防守投籃率
次要特征:防守單打投籃率,進(jìn)攻定點(diǎn)投籃率,無防守投籃率
快攻率
第七組
德安德烈·喬丹,蒙特雷斯·哈雷爾,巴姆·阿德巴約,杰邁克爾·格林,梅森·普拉姆利,米切爾·羅賓遜,扎克·科林斯
首要特征:其他進(jìn)攻戰(zhàn)術(shù)概率,其他進(jìn)攻概率,近對(duì)抗投籃率,防守?fù)醪饒?zhí)行率,防守定點(diǎn)投籃率
次要特征:對(duì)抗投籃率,防守投籃率,肘區(qū)觸球率,進(jìn)攻空切率,進(jìn)攻背身單打率,油漆區(qū)/三秒?yún)^(qū)觸球率,背身單打觸球率
近距離對(duì)抗投籃率
第八組
揚(yáng)尼斯·安特托昆博
凱爾·庫茲瑪,阿隆·戈登,本·西蒙斯,哈里森·巴恩斯,杰拉米·格蘭特,帕斯卡爾·西亞卡姆,揚(yáng)尼斯·安特托昆博,勞里·馬爾卡寧,T.J·沃倫,凱爾·安德森,達(dá)尼羅·加理納利,艾爾·法魯克·阿米奴,賈巴里·帕克,諾阿·馮萊,內(nèi)馬尼亞·別利察,威爾森·錢德勒,邁爾斯·布里奇斯,朗達(dá)·霍里斯·杰弗森,馬里奧·海佐尼亞,詹姆斯·約翰遜,小德里克·瓊斯
首要特征:防守籃板球率改變,防守定點(diǎn)率,防守繞掩護(hù)投籃率
次要特征:防守單打率,防守?fù)醪饒?zhí)行投籃率,防守定點(diǎn)投籃率,進(jìn)攻單打率
防守籃板球概率改變
第九組
克萊·湯普森,JJ·雷迪克,賈斯汀·霍勒迪,喬·哈里斯,雷吉·巴洛克,韋斯利·馬修斯,特倫斯·羅斯,阿倫·克拉布,肯塔維奧斯·考德威爾·波普,蘭德里·沙梅特,維恩·艾靈頓,馬爾科·貝里內(nèi)利,達(dá)柳斯·米勒,蘭斯頓·加洛韋,凱爾·科沃爾,道格·麥克德莫特,托尼·斯內(nèi)爾
首要特征:進(jìn)攻手遞手率,進(jìn)攻繞掩護(hù)投籃率,無防守投籃率,進(jìn)攻籃板球距離,防守手遞手率,防守繞掩護(hù)率
次要特征:勻速進(jìn)攻,接球突投率,防守籃板球距離
無防守投籃率
第十組
史蒂夫·亞當(dāng)斯,克林特·卡佩拉,魯?shù)?middot;戈貝爾,安德烈·德拉蒙德,約翰·科林斯,威利·考利·斯坦,特里斯坦·湯普森,尤素福·努爾基齊,科迪·澤勒,賈瑞特·艾倫,拉里·南斯二世,溫德爾·卡特二世,德曼塔斯·薩博提斯,泰·吉布森,德雷克·費(fèi)沃斯,德懷特·鮑威爾,賈維爾·麥基,哈桑·懷特賽德,托馬斯·布萊恩特,亞歷克斯·萊恩,凱文·魯尼,艾德·戴維斯,伊維察·祖巴茨,雅各布·珀?duì)柼貭枺蔡?middot;日日奇
首要特征:進(jìn)攻擋拆執(zhí)行率,進(jìn)攻空切率,投籃率,進(jìn)攻籃板球概率調(diào)整,傳球數(shù)大于接球數(shù),肘區(qū)觸球率,三秒?yún)^(qū)/油漆區(qū)觸球率
次要特征:近對(duì)抗投籃率,防守背身單打率,進(jìn)攻其他概率,進(jìn)攻戰(zhàn)術(shù)其他概率
三秒?yún)^(qū)/油漆區(qū)觸球率
結(jié)果讓我吃驚。通常來說,我們認(rèn)為像史蒂芬·庫里這樣的全聯(lián)盟的頂尖得分后衛(wèi)會(huì)和其他明星球員并列,但是,這次使用的模型將他分到了第一組,在其中的大部分球員能力值一般。對(duì)比之下,第五組里就包含很多明星球員。作為控球球員,他們的首要特征是:長運(yùn)球投籃率,進(jìn)攻單打率,進(jìn)攻擋拆執(zhí)行率,平均觸球秒數(shù)。
很希望能詳細(xì)討論每一組的數(shù)據(jù)特征,但既然這是一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目,我將在下文轉(zhuǎn)而闡述數(shù)據(jù)可視化問題。
結(jié)果可視化
由于將41個(gè)維度全部可視化的難度很大,我運(yùn)用了主成分分析(PCA)將41個(gè)維度縮減到3個(gè)維度。不熟悉主成分分析的讀者可以參考下文定義: “主成分分析負(fù)責(zé)尋找新的維度系列(或是一套基本觀點(diǎn)系),使得所有的維度呈現(xiàn)正交關(guān)系(即相互線性獨(dú)立),并根據(jù)它們之間的數(shù)據(jù)差額排列。這意味著,主成分分析保留了那些更重要的原則。”
整合K-means輸出和主成分分析降維之后的結(jié)果,生成了Plotly三個(gè)三維集群,截圖如下:
三維圖表
三維空間更容易顯現(xiàn)各個(gè)簇之間的差異,圖表也能直觀地表現(xiàn)K-means是如何將41個(gè)維度分為4個(gè)簇的。
結(jié)論與感想
回到最初的問題:德安格洛·拉塞爾能否和史蒂芬·庫里有效配合?讓我們回到第五組。
勇士隊(duì)轉(zhuǎn)出凱文杜蘭特,轉(zhuǎn)入德安格洛·拉塞爾。這兩個(gè)人都屬于第五組,即控球球員組。
因此,我給勇士隊(duì)主教練史蒂夫·科爾的建議是,讓庫里和拉塞爾同時(shí)上場。當(dāng)然,他肯定預(yù)料到了這一點(diǎn),也無再需讓模型給他出謀劃策。預(yù)計(jì)拉塞爾的控球率將有所提高,而庫里則將更多地扮演無球球員的角色。
我希望在未來逐一分析各組里的球員,并考察每一名球員在組內(nèi)的首要特征和次要特征上表現(xiàn)如何。增加分析性內(nèi)容,思考如何提高不盡人意之處,或如何重新定位球員在球隊(duì)中的角色,將有助于提升球員的表現(xiàn)。