自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解密 Airbnb 的數據科學部門如何構建知識倉庫

大數據
隨著組織的擴張,跨團隊跨時期的知識傳輸成本不斷增長,一個低效、烏合的研究環(huán)境使得這種情況雪上加霜,放慢了分析和決策的速度。因此,一個更加一氣呵成的解決方案可以加快決策落地的速度并且保持公司在知識洪流中立于不敗之地。

頑疾

Airbnb的數據團隊很重要的一個職責就是傳播基于數據的決策方法。我們將數據的獲取民主化,使得每一個Airbnb的成員都可以量化他們基于數據的決策影響力并且借此洞察用戶偏好,提升數據產品的用戶體驗。最近,我們開始解決一個令人頭疼的問題。隨著組織的擴大,如何確保我們如何確保一個洞見有效地通過社交網絡,這在我們內部稱之為知識擴張。

當我們團隊僅由幾個樂于分享和發(fā)現研究技巧的人組成這不是什么難題。但是當我們團隊開始快速擴張時,這個問題一下就被放大了。Jennifer是一位新來的數據科學家,她正在研究如何通過房東拒租的話題和同事開展工作。

這里是我們所看到的:

  1. Jennifer 找到了一堆的PPT、Email、Google Docs 并且詢問團隊其他成員有關這個項目的歷史。
  2. 前人的代碼已經不是最新的了,但 Jennifer 還是從 GitHub 或者原來作者的機器上弄下來代碼。
  3. 在和代碼一頓混戰(zhàn)之后, Jennifer 意識到之前的項目有些許問題,她決定從頭開始擼代碼。
  4. 在浪費大量重復工作之后,Jennifer 又放棄了重頭開始的想法,她感到精疲力盡。
  5. Jennifer 留下了一堆的 PPT、Email、Google Doc, 循環(huán)往復。

基于其他公司的對話,我們發(fā)現這個現象實在太普遍了。隨著組織的擴張,跨團隊跨時期的知識傳輸成本不斷增長,一個低效、烏合的研究環(huán)境使得這種情況雪上加霜,放慢了分析和決策的速度。因此,一個更加一氣呵成的解決方案可以加快決策落地的速度并且保持公司在知識洪流中立于不敗之地。

藥方

隨著我們看到這個問題工作流的不斷發(fā)生,我們意識到我們可以做得更好。作為一個團隊,我們在一起決定了做研究的五個關鍵原則:

  • 可重復性 - 代碼不應該分離,整個查詢、轉化、可視化、文檔撰寫應該一氣呵成,并且保證結果是盡量更新的。
  • 質量 - 沒有經過正確性和準確性審查的研究都不應該被共享。
  • 用戶體驗 - 研究結果應該是讓讀者容易理解的,我們也應該將美感和品牌延伸考慮在內。
  • 可得性 - 任何人都可以發(fā)現、瀏覽并且保持在相關工作話題上的更新。
  • 學習價值 -  與可重復性,其他研究者應該能夠通過工具和技術從其他人的工作中增益自己的能力。

根據這些原則,我們單獨調查了現有的工具來解決這個問題。我們注意到Rmarkdown和 iPython notebook 是一個可重復性研究的一個優(yōu)秀解決方案。 GitHub 提供了一個審查框架,但是對于代碼之外的內容和文檔,比如圖片就沒有什么好的解決方案。 可得性通常是基于文件夾的形式的,但是類似Quora這樣的其他站點內在對標簽和話題又有特殊的審查機制。

綜上,我們將這些想法集成到一個系統里面。我們的解決方案整合了貢獻和審查的工作,用一個工具來呈現和傳播知識。我們內部稱之為"知識倉庫"。

 

這里的核心其實是一個我們提交工作成果的 Git 倉庫。我們在 Jupyter 筆記、Rmarkdown 文件或者純 markdown都會發(fā)布在這里,所有的文件(包括查詢文件和腳本)都會被提交。每個文件都從一個很小的結構化元數據開始,包括作者、標簽以及TLDR,再用一個Pyhon腳本驗證內容并用Markdown格式轉化為純文本。我們使用 GitHub 從審查流程中拉取請求系統。最后,用一個 Flask的 web-app 來渲染Repo的內容作為一個按時間、話題、內容排序的內部博客。

這些工具集的最頂層,我們有一個流程 專注于確保所有研究是高質量和高可用的。和工程代碼不同,低質量的研究是不會產生指標下降或崩潰日志的。相反,低質量的研究表現為知識的環(huán)境嘈雜,而團隊只能信任他們自己創(chuàng)建的研究。

為了避免這種現象的發(fā)生,我們將流程封裝在工具里面,結合了工程上的代碼評審和學術上的同行評議方法,保證我們的研究結果以一個startup的速度在推進。在代碼評審的環(huán)節(jié),我們檢查代碼的正確性、最佳實踐和工具。在同行評議上,我們檢查方法論的改進、現有工作的關聯性以及準確的解釋性聲明。我們通常不指望一個研究是面面俱到的,但是也不能草率迭代,這些對他們都是有正確的和透明的限制的。我們能夠駕馭內部的R和Python包并維護品牌調性、整合數據倉庫的函數庫、以及基于GitHub的R和Python筆記的文件處理流程。

圖一 - 一個兩篇文章的總結卡牌的知識流截圖

 

圖二 — 一篇房東同意接待的缺口天數的研究文章示例

這些工作為我們的智囊團提供了強大的功能。

  • 可重復性 — 這個工作從核心的ETL表查詢到轉化、可視化到整理文章都是在一個文件里完成的。通常是 Jupyter 筆記, RMarkdown, 或 markdown 文件。
  • 質量 — 通過學習GitHub來發(fā)表、審查以及版本控制直接推動了我們整個工作流。
  • 高可用 - markdown 將我們的 web-app 隱藏在代碼之后并且我們使用了內部一致的美學風格,對非技術讀者也更加友好。同行評審用評論也能提供反饋和交流并提高了項目的影響力。
  • 可得性 - 元數據的結構非常有利于通篇瀏覽歷史研究。每個文章都有一組tag,并有一個類似于知乎話題的多對一的內置話題機制。用戶可以訂閱話題并且收到新消息提醒。文章可以以書簽收藏、通過讀者瀏覽或者在博客流中訂閱。
  • 學習價值 - 通過之前一系列的工作,現在數據科學家可以分享自己的新方法論、代碼技術并且加快品牌化推廣,讓團隊之外的人可以快速了解自己的領域。

這個知識倉庫囊括了海量的內容。大量的工作都是和某個非嘗試性問題的深挖,但是對實驗結果的檢驗沒有被我們的實驗記者記錄也是很普遍的。此外也有一些純粹關于如何擴展數據分析的文章,包括新方法論的撰寫、工具或包的示例、使用SQL和Spark的教程等等。我們也在知識倉庫上公開數據博客文章,當然也包括這一篇。總的來說,這個原則就是:如果這個東西將來可能對一些人有用就可以發(fā)。

未來

知識倉庫仍然是個在建工程。小團隊正在持續(xù)滿足新需求特性。我們也在公司內部的其他團隊推廣這種方法,比如一些不使用GitHub的量化研究。最后,我們正在測試一個基于Markdown的內建審查編輯應用,這個應用另一個可能的特性是主編對研究議題的管理,我們也正在考慮現有文章的遷移問題。

責任編輯:Ophira 來源: segmentfault
相關推薦

2016-10-27 14:48:36

工程師ETL算法

2016-12-09 11:02:39

大數據

2020-08-30 16:29:12

數據科學團隊數據團隊CIO

2013-07-31 09:20:07

大數據引擎云計算個性化搜索

2020-02-17 11:37:54

大數據數據倉庫技術

2010-04-14 20:57:13

2017-12-01 19:02:33

Airbnb大數據平臺

2018-04-23 13:10:01

2021-10-29 16:18:14

Streamlit Python

2023-08-31 17:10:56

數據倉庫高級互聯網架構架構

2021-03-03 21:24:57

數據倉庫工具

2018-03-20 09:36:57

數據倉庫數據存儲知識

2010-04-02 09:39:50

曙光清華大學醫(yī)學

2020-05-27 11:16:49

數據科學機器學習Python

2022-06-28 09:47:05

數據倉庫

2024-09-25 15:34:21

數據模型數據驅動數字化轉型

2022-10-14 14:20:20

云原生數據倉庫

2016-05-27 08:23:33

數據分析數據科學數據思維

2017-02-28 09:21:56

HadoopHive數據倉庫

2021-05-10 11:33:11

數字化
點贊
收藏

51CTO技術棧公眾號