六個(gè)開(kāi)源數(shù)據(jù)科學(xué)項(xiàng)目
簡(jiǎn)介
我最近參加了一個(gè)開(kāi)放數(shù)據(jù)科學(xué)家職位的面試。正如你所能想象的,有來(lái)自各種背景的候選人——軟件工程、學(xué)習(xí)和開(kāi)發(fā)、金融、市場(chǎng)營(yíng)銷等等。
讓我印象深刻的是,這些人已經(jīng)完成了一系列令人驚嘆的項(xiàng)目。他們本身在數(shù)據(jù)科學(xué)方面并沒(méi)有太多的行業(yè)經(jīng)驗(yàn),但是他們對(duì)學(xué)習(xí)新概念的熱情和好奇心驅(qū)使他們?nèi)チ艘郧皬奈瓷孀氵^(guò)的領(lǐng)域。
一個(gè)共同的特點(diǎn),開(kāi)源數(shù)據(jù)科學(xué)項(xiàng)目。在過(guò)去的幾年里,我一直認(rèn)可開(kāi)源數(shù)據(jù)項(xiàng)目的價(jià)值。相信我,招聘人員和招聘經(jīng)理都很欣賞你在接手一個(gè)以前沒(méi)見(jiàn)過(guò)的項(xiàng)目時(shí)所付出的努力。
該項(xiàng)目可以來(lái)自你當(dāng)前工作的領(lǐng)域,也可以來(lái)自你想要學(xué)習(xí)的領(lǐng)域。
在這里,我在本文中展示了六個(gè)這樣的開(kāi)源數(shù)據(jù)科學(xué)項(xiàng)目。。你將發(fā)現(xiàn)從計(jì)算機(jī)視覺(jué)到自然語(yǔ)言處理(NLP)等各種項(xiàng)目。
開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目
對(duì)計(jì)算機(jī)視覺(jué)專家的需求每年都在穩(wěn)步增長(zhǎng)。它已經(jīng)確立了自己作為行業(yè)領(lǐng)先領(lǐng)域的地位(這對(duì)于任何緊跟最新行業(yè)趨勢(shì)的人來(lái)說(shuō)都是不足為奇的)。作為一名數(shù)據(jù)科學(xué)專業(yè)人士,有很多事情要做,有很多東西要學(xué)。
這里有三個(gè)有用的開(kāi)源計(jì)算機(jī)視覺(jué)項(xiàng)目,你會(huì)喜歡的。
NVIDIA的Few-Shot vid2vid
https://github.com/NVlabs/few-shot-vid2vid
去年我偶然發(fā)現(xiàn)了視頻到視頻(vid2vid)合成的概念,并被它的有效性所震撼。vid2vid本質(zhì)上是將一個(gè)語(yǔ)義輸入視頻轉(zhuǎn)換為一個(gè)超真實(shí)的輸出視頻。從那時(shí)起,這個(gè)想法已經(jīng)有了很大的進(jìn)展。
但是目前這些vid2vid模型有兩個(gè)主要的限制:
- 他們需要大量的訓(xùn)練數(shù)據(jù)
- 這些模型很難推廣到訓(xùn)練數(shù)據(jù)之外
英偉達(dá)viv2vid框架做了有效的進(jìn)步。我們可以用它來(lái)“生成人體運(yùn)動(dòng)姿勢(shì),從邊緣圖合成人物,或者把語(yǔ)義標(biāo)簽地圖變成實(shí)景照片視頻。

這個(gè)GitHub庫(kù)是一個(gè)PyTorch實(shí)現(xiàn),它很少使用vid2vid。你可以在這里查看完整的研究論文(它也在NeurIPS 2019上發(fā)表):https://arxiv.org/abs/1910.12713
這是一段由開(kāi)發(fā)者分享的視頻,展示了幾次拍攝的視頻:https://youtu.be/8AZBuyEuDqc
輕量的面部檢測(cè)器
https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB
這是一個(gè)超輕版本的人臉檢測(cè)模型,一個(gè)非常有用的計(jì)算機(jī)視覺(jué)應(yīng)用。

該面部檢測(cè)模型的大小僅為1MB!我讀了幾次后才相信。
該模型是基于libfacedetection架構(gòu)的邊緣計(jì)算設(shè)備的輕量級(jí)面部檢測(cè)模型。該模型有兩個(gè)版本:
- Version-slim (slightly faster simplification)
- Version-RFB (with the modified RFB module, higher precision)
Gaussian YOLOv3:一種精確、快速的自動(dòng)駕駛目標(biāo)探測(cè)器
https://github.com/jwchoi384/Gaussian_YOLOv3
我是自動(dòng)駕駛汽車的超級(jí)粉絲。但是由于各種原因(建筑、公共政策、社區(qū)的接受度等),進(jìn)展緩慢。因此,看到任何框架或算法為這些自動(dòng)駕駛汽車帶來(lái)更美好的未來(lái),總是令人振奮的。

目標(biāo)檢測(cè)算法是這些自動(dòng)駕駛車輛的核心——我相信你已經(jīng)知道了。而高精度、快速的推理速度是保證安全的關(guān)鍵。這些都已經(jīng)存在了好幾年了,那么這個(gè)項(xiàng)目有什么不同之處呢?
Gaussian YOLOv3架構(gòu)提高了系統(tǒng)的檢測(cè)精度,支持實(shí)時(shí)操作(一個(gè)關(guān)鍵方面)。與傳統(tǒng)的YOLOv3相比,Gaussian YOLOv3分別將KITTI和Berkeley deep drive (BDD)數(shù)據(jù)集的平均精度(mAP)提高了3.09和3.5。
其他開(kāi)源數(shù)據(jù)科學(xué)項(xiàng)目
這篇文章不僅僅局限于計(jì)算機(jī)視覺(jué)!正如我在引言中提到的,我的目標(biāo)是覆蓋數(shù)據(jù)科學(xué)的所有方面。因此,這里有三個(gè)項(xiàng)目,從自然語(yǔ)言處理(NLP)到數(shù)據(jù)可視化!
Google的T5:Text-to-Text Transfer Transformer
https://github.com/google-research/text-to-text-transfer-transformer
谷歌怎么可能每次都被排除在“最新突破”名單之外呢?他們?cè)跈C(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)研究上投入了大量資金,他們的研究結(jié)果反映了這一點(diǎn)。我很高興他們不時(shí)地開(kāi)放他們的項(xiàng)目,我們有很多東西可以向他們學(xué)習(xí)
T5是Text-to-Text Transfer Transformer的簡(jiǎn)稱,它是由遷移學(xué)習(xí)的概念驅(qū)動(dòng)的。在這個(gè)最新的NLP項(xiàng)目中,T5背后的開(kāi)發(fā)人員引入了一個(gè)統(tǒng)一的框架,將每個(gè)語(yǔ)言問(wèn)題轉(zhuǎn)換為文本到文本的格式。

該框架在總結(jié)、問(wèn)題回答、文本分類等任務(wù)的各種基準(zhǔn)測(cè)試上取得了最新的結(jié)果。在這個(gè)GitHub存儲(chǔ)庫(kù)中,他們已經(jīng)開(kāi)源了數(shù)據(jù)集、預(yù)先訓(xùn)練的模型和T5背后的代碼。
正如谷歌的人所說(shuō),“T5可以作為未來(lái)模型開(kāi)發(fā)的庫(kù),它提供了有用的模塊來(lái)向量和微調(diào)(參數(shù)量巨大)文本到文本混合任務(wù)的模型。”
歷史上最大的中國(guó)知識(shí)圖譜
https://github.com/ownthink/KnowledgeGraphData
最近我讀了很多關(guān)于圖的文章。它們是如何工作的,一個(gè)圖的不同組成部分是什么,知識(shí)如何在圖中流動(dòng),這個(gè)概念如何應(yīng)用到數(shù)據(jù)科學(xué)中,等等。我相信你們現(xiàn)在正在問(wèn)這些問(wèn)題。
圖論的某些分支可以應(yīng)用于數(shù)據(jù)科學(xué),如知識(shí)樹(shù)和知識(shí)圖。

從這個(gè)意義上說(shuō),這個(gè)項(xiàng)目是一個(gè)龐然大物。它是歷史上最大的中文知識(shí)地圖,超過(guò)1.4億個(gè)節(jié)點(diǎn)!數(shù)據(jù)集以(實(shí)體,屬性,值),(實(shí)體,關(guān)系,實(shí)體)的形式組織。數(shù)據(jù)為.csv格式。這是一個(gè)出色的開(kāi)源項(xiàng)目,可以展示你的圖方面的技能。
RoughViz – JavaScript中的出色數(shù)據(jù)可視化庫(kù)
https://github.com/jwilber/roughViz
我是數(shù)據(jù)可視化的忠實(shí)擁護(hù)者 -這不是秘密。因此,我總是抓住機(jī)會(huì)在這些文章中加入一個(gè)數(shù)據(jù)可視化庫(kù)或項(xiàng)目。
RoughViz就是這樣一個(gè)JavaScript庫(kù),用于生成手繪草圖或可視化。它基于D3v5、roughjs和handy。

你可以使用以下命令在你的計(jì)算機(jī)上安裝roughViz:
- npm install rough-viz
這個(gè)GitHub存儲(chǔ)庫(kù)包含關(guān)于如何使用roughViz的詳細(xì)示例和代碼。以下是你可以生成的不同圖表:
- 條形圖
- 水平欄
- 圓環(huán)圖
- 折線圖
- 餅狀圖
- 散點(diǎn)圖
結(jié)尾
我很喜歡整理這篇文章。在這個(gè)過(guò)程中,我遇到了一些非常有趣的數(shù)據(jù)科學(xué)項(xiàng)目、庫(kù)和框架。這實(shí)際上是一種很好的方式來(lái)跟上這個(gè)領(lǐng)域的最新發(fā)展。