數(shù)據(jù)科學(xué)家的開(kāi)源社區(qū)分析指南
在數(shù)據(jù)分析的黃金時(shí)代,開(kāi)源社區(qū)也不能免俗。大家都熱衷于將一些華麗的數(shù)字放到演示幻燈片上,但如果你掌握了正確的分析方法,這些信息可以為你帶來(lái)更大的價(jià)值。
或許你認(rèn)為作為一名 ??數(shù)據(jù)科學(xué)家??,我會(huì)告訴你數(shù)據(jù)分析和自動(dòng)化能為你的社區(qū)決策提供信息。但實(shí)際上,情況恰恰相反。利用數(shù)據(jù)分析來(lái)構(gòu)建你現(xiàn)有的開(kāi)源社區(qū)知識(shí),吸收其他的知識(shí),并發(fā)現(xiàn)潛在的偏見(jiàn)和沒(méi)有思考過(guò)的觀點(diǎn)。你或許是實(shí)施社區(qū)活動(dòng)的專家,而你那些同事則是代碼方面的專家。當(dāng)你們每個(gè)人都在自己的知識(shí)背景下將信息可視化時(shí),你們都可以從這些信息中受益。
讓我們來(lái)面對(duì)現(xiàn)實(shí)吧。每個(gè)人都有一千零一件事情要做,而且總感覺(jué)一天的時(shí)間永遠(yuǎn)不夠用。如果需要幾個(gè)小時(shí)才能得到你的社區(qū)的答案,你就不可能有足夠的精力去解決這些事情。但是,花時(shí)間創(chuàng)建一個(gè)全面發(fā)展的可視化項(xiàng)目,可以幫助你時(shí)刻掌握你所關(guān)心的社區(qū)的不同方面,這就將你從精疲力盡中解放了出來(lái)。
隨著“數(shù)據(jù)驅(qū)動(dòng)”思維的盛行,圍繞開(kāi)源社區(qū)的信息寶庫(kù)可能是一種祝福,也可能是一種詛咒。下面我將分享一些方法,告訴你如何從數(shù)據(jù)干草堆中挑出有價(jià)值的信息。
你的預(yù)期是什么?
當(dāng)考慮一個(gè)指標(biāo)時(shí),首先要明確你想提供的觀點(diǎn)。以下是幾個(gè)可能涉及的概念:
告知性和影響性的行動(dòng): 你的社區(qū)是否存在某個(gè)領(lǐng)域尚未被理解?你是否已邁出第一步?你是否試圖確定特定方向?你是否正在衡量現(xiàn)有倡議的效果?
暴露需要改進(jìn)的領(lǐng)域和突出優(yōu)勢(shì): 有時(shí)你想宣傳你的社區(qū),突出它的優(yōu)勢(shì),特別是在試圖證明商業(yè)影響或?yàn)轫?xiàng)目宣傳時(shí)。然而,當(dāng)涉及到向社區(qū)內(nèi)部傳遞信息時(shí),你通常需要從一堆指標(biāo)中精準(zhǔn)的找到你們的缺點(diǎn),以此來(lái)幫助你們改進(jìn)。雖然突出優(yōu)點(diǎn)并非不可取,但需要在適當(dāng)?shù)臅r(shí)間和地點(diǎn)。不要把優(yōu)勢(shì)指標(biāo)作為社區(qū)內(nèi)部的拉拉隊(duì),告訴每個(gè)人都有多棒,而是要與外界分享,以獲得認(rèn)可或推廣。
社區(qū)和商業(yè)影響: 數(shù)字和數(shù)據(jù)是許多企業(yè)的語(yǔ)言。但是這可能使得為你的社區(qū)進(jìn)行宣傳并真正展示其價(jià)值變得異常困難。數(shù)據(jù)可以成為用他們的語(yǔ)言說(shuō)話的一種方式,并展示他們想看到的東西,以使你數(shù)據(jù)背后的潛在含義能夠被有效轉(zhuǎn)達(dá)。另一個(gè)角度是對(duì)開(kāi)源的整體影響。你的社區(qū)是如何影響他人和生態(tài)系統(tǒng)的?
這些觀點(diǎn)并非非此即彼,而是相互關(guān)聯(lián)的。適當(dāng)?shù)目蚣軐⒂兄趧?chuàng)造一個(gè)更深思熟慮的衡量標(biāo)準(zhǔn)。
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的工作流程
當(dāng)人們談?wù)撏ㄓ玫臄?shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)工作時(shí),通常會(huì)描述這樣的工作流程。我將重點(diǎn)關(guān)注第一步,即編寫問(wèn)題和度量標(biāo)準(zhǔn),并簡(jiǎn)要提及第二步。從數(shù)據(jù)科學(xué)的角度來(lái)看,這個(gè)演示可以被視為這個(gè)步驟的一個(gè)案例研究。這一步有時(shí)會(huì)被忽視,但你的分析的實(shí)際價(jià)值始于此。你不能一天醒來(lái)就知道要看什么。從理解你想知道什么和你所擁有的數(shù)據(jù)開(kāi)始,逐步實(shí)現(xiàn)更加深度的數(shù)據(jù)分析。
3個(gè)開(kāi)源數(shù)據(jù)分析用例
以下是您在開(kāi)源數(shù)據(jù)分析過(guò)程中可能遇到的三種不同場(chǎng)景。
場(chǎng)景 1:現(xiàn)有數(shù)據(jù)分析
假設(shè)你開(kāi)始進(jìn)行分析,并且已經(jīng)知道你將要研究的內(nèi)容對(duì)你或你的社區(qū)是有用的。那么你該如何提高分析的價(jià)值呢?這里的想法是建立在“傳統(tǒng)”的開(kāi)源社區(qū)分析基礎(chǔ)之上。假設(shè)你的數(shù)據(jù)表明,在項(xiàng)目的整個(gè)生命周期內(nèi),你共有 120 個(gè)貢獻(xiàn)者。這是你可以放在幻燈片上的價(jià)值,但你不能從中做出決策。從僅有一個(gè)數(shù)字到獲得洞見(jiàn),逐步采取措施。例如,你可以從相同的數(shù)據(jù)中將貢獻(xiàn)者分為活躍和流失的貢獻(xiàn)者(那些已經(jīng)有一段時(shí)間沒(méi)有做出貢獻(xiàn)的貢獻(xiàn)者),以獲得更深入的了解。
場(chǎng)景 2:社區(qū)活動(dòng)的影響測(cè)量
目標(biāo)和影響
針對(duì)聚會(huì)、會(huì)議或其他任何社區(qū)外聯(lián)活動(dòng),你如何看待你的影響力和目標(biāo)?這兩個(gè)步驟實(shí)際上互相影響。一旦你確定了活動(dòng)的目標(biāo),就要確定可以用什么來(lái)檢測(cè)效果。這些信息有助于設(shè)定活動(dòng)的目標(biāo)。在活動(dòng)開(kāi)始時(shí),很容易陷入模糊的計(jì)劃而非具體的計(jì)劃的陷阱中。
場(chǎng)景3:形成新的影響分析區(qū)
新的分析區(qū)
當(dāng)你從頭開(kāi)始進(jìn)行數(shù)據(jù)分析時(shí),就會(huì)出現(xiàn)這種情況。前面的例子是這個(gè)工作流程的不同部分。這個(gè)工作流程是一個(gè)不斷發(fā)展的循環(huán);你可以隨時(shí)進(jìn)行改進(jìn)或擴(kuò)展?;谶@個(gè)概念,以下是你應(yīng)該經(jīng)歷的必要步驟。在本文的后面,將會(huì)有三個(gè)不同的例子,展示這種方法在現(xiàn)實(shí)世界中的應(yīng)用。
第一步:分解關(guān)注區(qū)和視角
首先,想象一下魔法 8 球——你可以問(wèn)任何問(wèn)題,搖一搖,就能得到答案的玩具??紤]你的分析領(lǐng)域。如果你能立即得到任何答案,那會(huì)是什么?
接下來(lái),考慮數(shù)據(jù)。從你的魔法 8 球問(wèn)題中,哪些數(shù)據(jù)源可能與問(wèn)題或關(guān)注領(lǐng)域有關(guān)?
在數(shù)據(jù)背景下,哪些問(wèn)題可以回答,讓你更接近你提出的魔法 8 球問(wèn)題?需要注意的是,如果你試圖將所有的數(shù)據(jù)匯集在一起,你必須考慮到所做出的假設(shè)。
第二步:將問(wèn)題轉(zhuǎn)化為指標(biāo)
以下是第一步中每個(gè)子問(wèn)題的處理過(guò)程:
- 選擇所需的具體數(shù)據(jù)點(diǎn)。
- 確定可視化以實(shí)現(xiàn)目標(biāo)分析。
- 假設(shè)這些信息的影響。
接下來(lái),引入社區(qū)提供反饋并觸發(fā)迭代開(kāi)發(fā)過(guò)程。這個(gè)協(xié)作部分可能就是真正的魔力所在。最好的想法通常是在將一個(gè)概念帶給某個(gè)人時(shí)產(chǎn)生的,會(huì)激發(fā)他們的靈感,這是你或他們無(wú)法想象的。
第三步:分析實(shí)踐
這一步是你開(kāi)始處理你所創(chuàng)建的指標(biāo)或可視化的影響。
首先要考慮的是,這個(gè)度量標(biāo)準(zhǔn)是否符合當(dāng)前對(duì)社區(qū)的了解。
- 如果是:是否有假設(shè)得出的結(jié)果?
- 如果不是:你需要進(jìn)一步調(diào)查,是否這是一個(gè)潛在的數(shù)據(jù)或計(jì)算問(wèn)題,或者只是先前被誤解的社區(qū)的一部分。
一旦你確定你的分析足夠穩(wěn)定,可以開(kāi)始在信息上實(shí)施社區(qū)倡議。當(dāng)你正在進(jìn)行分析以確定下一步最佳步驟時(shí),你應(yīng)該確定衡量倡議成功的具體方法。
現(xiàn)在,觀察這些由你的指標(biāo)提供信息的社區(qū)倡議。確定是否可以用你之前建立的成功衡量指標(biāo)觀察到影響。如果沒(méi)有,可以考慮以下幾點(diǎn):
- 你是否在衡量正確的事情?
- 倡議戰(zhàn)略是否需要調(diào)整?
分析區(qū)的例子:新貢獻(xiàn)者
魔法 8 球問(wèn)題是什么?
- 如何分析哪些人為持續(xù)的貢獻(xiàn)者?
我有什么數(shù)據(jù)可以納入分析區(qū)和魔法 8 球問(wèn)題?
- 倉(cāng)庫(kù)存在哪些貢獻(xiàn)者的活動(dòng),包括時(shí)間戳?
現(xiàn)在你有了這些信息和一個(gè)魔法 8 球問(wèn)題,把分析分成幾個(gè)子部分執(zhí)行。這個(gè)想法與上述步驟 2 和 3 相關(guān)。
子問(wèn)題 1: “人們是怎么進(jìn)入這個(gè)項(xiàng)目的”
這個(gè)問(wèn)題的目的是先看看新的貢獻(xiàn)者在做什么。
數(shù)據(jù): GitHub 上的首次貢獻(xiàn)隨時(shí)間推移的數(shù)據(jù)(議題、PR、評(píng)論等)。
每季度首次貢獻(xiàn)圖表
可視化: 按季度劃分的首次貢獻(xiàn)條形圖。
潛在的意義: 在你與其他社區(qū)成員交談后,進(jìn)一步檢查按季度細(xì)分的信息,以及貢獻(xiàn)者是否為重復(fù)貢獻(xiàn)者或僅僅是路過(guò)。你可以看到人們進(jìn)來(lái)的時(shí)候在做什么,以及這是否能告訴你他們是否會(huì)留下來(lái)。
每季度路過(guò)貢獻(xiàn)圖標(biāo)
從這些信息中了解到的可以采取的行動(dòng)。
- 目前的文檔是否能夠幫助到最常見(jiàn)的新手?你能不能更好地幫助和支持新人朋友,這將有助于他們中更多的人留下來(lái)?
- 是否有一個(gè)貢獻(xiàn)領(lǐng)域在整體上并不常見(jiàn),但重復(fù)貢獻(xiàn)者卻集中在這個(gè)區(qū)域?也許 PR 是重復(fù)貢獻(xiàn)者的一個(gè)常見(jiàn)區(qū)域,但大多數(shù)人卻不在這個(gè)區(qū)域工作。
行動(dòng)項(xiàng)目:
- 給 “好的第一個(gè)問(wèn)題” 貼上一致的標(biāo)簽,并將這些問(wèn)題鏈接到貢獻(xiàn)文檔中。
- 在這些問(wèn)題上添加一個(gè) PR 伙伴。
子問(wèn)題 2: “我們的代碼庫(kù)真的依賴于路過(guò)的貢獻(xiàn)者嗎?”
數(shù)據(jù): GitHub 的貢獻(xiàn)數(shù)據(jù)。
貢獻(xiàn)者類型隨時(shí)間變化的圖表
可視化: “貢獻(xiàn)總額:按路過(guò)和重復(fù)貢獻(xiàn)者的貢獻(xiàn)進(jìn)行細(xì)分?!?/p>
根據(jù)這一信息可能采取的行動(dòng)。
- 這個(gè)比例是否達(dá)到了項(xiàng)目的目標(biāo)?很多工作都是由路過(guò)貢獻(xiàn)者完成的嗎?這是否是一種未被充分利用的資源,項(xiàng)目是否沒(méi)有盡到自己的責(zé)任來(lái)吸引他們?
分析:吸取教訓(xùn)
數(shù)字和數(shù)據(jù)分析并不是“事實(shí)”,它們可以支持任何觀點(diǎn)。因此,在處理數(shù)據(jù)時(shí),內(nèi)部懷疑者應(yīng)該非常積極,并進(jìn)行反復(fù)迭代,以帶來(lái)真正的價(jià)值。你不希望你的分析只是一個(gè) “yes man”,因此花點(diǎn)時(shí)間退一步,評(píng)估你所做的假設(shè)。
如果一個(gè)指標(biāo)只是指出了調(diào)查的方向,那也是一個(gè)巨大的勝利。你不可能看清或想到所有的事情,兔子洞可以是一個(gè)好事,對(duì)話的起點(diǎn)可以把你帶到一個(gè)新的地方。
有時(shí),你想測(cè)量的東西恰恰不在那里,但你也許能得到有價(jià)值的細(xì)節(jié)。不要假設(shè)你有所有的拼圖碎片來(lái)獲得你最初問(wèn)題的準(zhǔn)確答案。如果你開(kāi)始強(qiáng)迫一個(gè)答案或解決方案,你會(huì)把自己帶入一條由假設(shè)引領(lǐng)的危險(xiǎn)道路。為分析的方向或目標(biāo)的改變留出空間,可以讓你獲得比最初的想法更好的洞察力。
數(shù)據(jù)只是是一種工具,并不是標(biāo)準(zhǔn)答案,它可以匯集原本無(wú)法獲得的見(jiàn)解和信息。將你想知道的東西分解成可管理的小塊,并在此基礎(chǔ)上進(jìn)行分析,這是最重要的部分。
開(kāi)源數(shù)據(jù)分析是一個(gè)很好的例子,說(shuō)明你必須對(duì)所有的數(shù)據(jù)科學(xué)采取謹(jǐn)慎態(tài)度。
- 主題領(lǐng)域的細(xì)微差別是最重要的。
- 通過(guò)“問(wèn)什么/答什么”的工作過(guò)程經(jīng)常被忽視。
- 知道“問(wèn)什么”可能是最難的部分,當(dāng)你想出一些有洞察力和創(chuàng)新的東西時(shí),這比你選擇的任何工具都要重要。
如果你是一個(gè)沒(méi)有數(shù)據(jù)科學(xué)經(jīng)驗(yàn)的社區(qū)成員,正在尋找開(kāi)始的地方,我希望這些信息能告訴你,你在這個(gè)過(guò)程中是多么重要和寶貴。你帶來(lái)了社區(qū)的洞察力和觀點(diǎn)。如果你是一個(gè)數(shù)據(jù)科學(xué)家或?qū)嵤┲笜?biāo)或可視化的人,你必須傾聽(tīng)你周圍的聲音,即使你也是一個(gè)活躍的社區(qū)成員。關(guān)于數(shù)據(jù)科學(xué)的更多信息列在本文的最后。
總結(jié)
把上面的例子作為建立你自己的開(kāi)源項(xiàng)目的數(shù)據(jù)分析的框架。對(duì)你的結(jié)果有很多問(wèn)題要問(wèn),知道這些問(wèn)題和它們的答案可以把你的項(xiàng)目引向一個(gè)令人興奮和富有成效的方向。