自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從新冠數(shù)據(jù)集到AutoML庫集,值得學(xué)習(xí)的數(shù)據(jù)科學(xué)項目

大數(shù)據(jù)
像這樣的官方要求之下未知期限的集體休假,確實是極為罕見的。這可能是難得的時機(jī),一個真正深入研究并從事于數(shù)據(jù)科學(xué)項目的機(jī)會。

像這樣的官方要求之下未知期限的集體休假,確實是極為罕見的。這樣的“封鎖”或許讓你崩潰,孤獨感和經(jīng)濟(jì)壓力可能正在襲來。但也不完全是壞事,尤其當(dāng)你計劃提高數(shù)據(jù)科學(xué)組合能力,并想要在危機(jī)后,得到一份可靠且與行業(yè)相關(guān)的簡歷的時候!

這可能是難得的時機(jī),一個真正深入研究并從事于數(shù)據(jù)科學(xué)項目的機(jī)會。你有了大把的時間,并且社區(qū)中不乏也開源數(shù)據(jù)科技項目和想法。從計算機(jī)視覺和自然語言處理項目到python和工程數(shù)據(jù)的想法,每個人都有一個項目。

唯一的問題是——應(yīng)該從哪兒開始?這個問題從來沒有像現(xiàn)在這么有意義,這也是本文想要回答的問題。準(zhǔn)備好了嗎?Let’s go!

1. 冠狀病毒時間序列數(shù)據(jù)

從哪兒開始?不如就從為什么你居然在一個工作日躺在床上說起吧。

新冠病毒正主宰著世界,所有的網(wǎng)站標(biāo)題永遠(yuǎn)是新冠。幸虧全球有很多研究室和組織一直收集有關(guān)新冠肺炎的數(shù)據(jù),并且對我們開放。所以為什么不使用數(shù)據(jù)科學(xué)知識來解決一些問題呢?

[[324360]]

圖源:unsplash

這個GitHub庫(https://github.com/datasets/covid-19)包含時間序列數(shù)據(jù),該數(shù)據(jù)跟蹤了全球受新冠肺炎影響的人數(shù),包括:

  • 新冠肺炎確診病例
  • 痊愈人數(shù)
  • 死于新冠肺炎的人數(shù)

這個項目的作者每天用 CSV格式更新數(shù)據(jù)集,你今天就可以下載下來然后開始分析。

你還可以看看另一個GitHub庫,其中包含針對美國新冠病毒病例的數(shù)據(jù)集。

(https://github.com/nytimes/covid-19-data)

2. 谷歌的多區(qū)無線電導(dǎo)航系統(tǒng)

這是谷歌研發(fā)團(tuán)隊開發(fā)的另一個開源項目,谷歌研發(fā)團(tuán)隊是這樣定義ELECTRA的:

“ELECTRA是一種用于自監(jiān)督語言表征的學(xué)習(xí)方法。它可以用于使用較少的計算量來預(yù)訓(xùn)練transformer網(wǎng)絡(luò)。訓(xùn)練ELECTRA模型區(qū)分‘真’令牌和由另一個神經(jīng)網(wǎng)絡(luò)系統(tǒng)生成的‘偽’令牌。”

ELECTRA令筆者印象深刻的是,即使在單個GPU上也可以實現(xiàn)精準(zhǔn)操作。ELECTRA在大型數(shù)據(jù)集上達(dá)到了完全不同的水平,并在SQuAD 2.0基準(zhǔn)測試中達(dá)到了最佳的性能。

你可以通過Google的研究論文進(jìn)一步了解ELECTRA。谷歌團(tuán)隊目前已經(jīng)發(fā)布了三個預(yù)訓(xùn)練模型。

(https://openreview.net/pdf?id=r1xMH1BtvB)

從新冠數(shù)據(jù)集到AutoML庫集,值得學(xué)習(xí)的數(shù)據(jù)科學(xué)項目

在開始之前,需要把以下要求的功能安裝在機(jī)器上。

  • Python 3
  • TensorFlow1.15
  • NumPy
  • scikit-learn and SciPy

3. NLP論文摘要

自然語言處理領(lǐng)域在過去三年里已經(jīng)取得了突飛猛進(jìn)般的進(jìn)展。從2017年的Transformer架構(gòu)開始,我們見證了許多突破和有開創(chuàng)性的NLP庫,包括谷歌BERT模型,OpenAI的GPT-2等等。(https://github.com/dair-ai/nlp_paper_summaries)

從新冠數(shù)據(jù)集到AutoML庫集,值得學(xué)習(xí)的數(shù)據(jù)科學(xué)項目

圖源:tencent

這個GitHub庫是為更廣大的數(shù)據(jù)科學(xué)專業(yè)人員總結(jié)的NLP 關(guān)鍵論文集,以下是這個庫中包含的一些主題列表:

  • 對話與互動系統(tǒng)
  • NLP模型的可解釋性和分析
  • 語言以視覺,機(jī)器人等為基礎(chǔ)
  • 問答
  • 資源和評估
  • 語義學(xué)
  • 文本情感分析,文本分析以及論證挖掘
  • 語言建模
  • NLP的機(jī)器學(xué)習(xí)
  • 機(jī)器翻譯
  • 多任務(wù)學(xué)習(xí)
  • NLP應(yīng)用
  • 言語與多模態(tài)
  • 道德規(guī)范與自然語言處理
  • 文本生成
  • 信息提取
  • 文本摘要
  • 語句法:添加標(biāo)簽、分塊、解析

不只是這些,這里只列出來一部分。選擇一篇NLP論文并開始解析,那里提供很多一站式知識服務(wù)。

4. GoogleBrain AutoML

AutoML是為了滿足自動化典型機(jī)器學(xué)習(xí)某些任務(wù)的自動化,幾年前為了節(jié)省時間而開始的一項附帶項目,如今變成了一個成熟的研究領(lǐng)域。

市場中有很多AutoML工具,可以使整個ML管道自動化。對于沒有專門的數(shù)據(jù)科學(xué)團(tuán)隊或負(fù)擔(dān)不起從零開始的雇傭費用的團(tuán)隊而言,AutoML更受歡迎。幾乎每個科技巨頭都在市場上擁有AutoML解決方案,從谷歌的云自動機(jī)器學(xué)習(xí)到百度的EZDL(人工智能模型訓(xùn)練平臺)。

[[324361]]

圖源:towardsdatascience

GoogleBrain團(tuán)隊開發(fā)的數(shù)據(jù)科學(xué)項目包含了和AutoML相關(guān)的模型與庫的列表。GitHub庫從作者6天前開放源碼就已經(jīng)積累了1600顆星。(https://github.com/google/automl)

5. GAN壓縮

2014年,Ian Goodfellow將對抗生成網(wǎng)絡(luò)推向了數(shù)據(jù)科學(xué)領(lǐng)域。此后,這些GAN逐漸演變?yōu)橛杏玫?通常是娛樂性的)應(yīng)用程序,例如生成藝術(shù)品和制作電影。

但是訓(xùn)練GAN模型的一個重要問題是所需的強(qiáng)大計算能力。這就是GAN壓縮的用武之地。GAN壓縮是“壓縮條件GAN的通用方法”。它減少了流行的基于GAN模型的計算,例如pix2pix,CycleGAN等。

從新冠數(shù)據(jù)集到AutoML庫集,值得學(xué)習(xí)的數(shù)據(jù)科學(xué)項目

6. StyleGAN2——最新的GAN

這是一個最新的GAN架構(gòu)。StyleGAN在計算機(jī)視覺社區(qū)中非常受歡迎,StyleGAN2使問題更趨現(xiàn)實。

“ StyleGAN2是生成逼真的圖像的最先進(jìn)架構(gòu)。此外,它還經(jīng)過了明確訓(xùn)練,可以在隱空間中解開方向,從而可以通過改變潛在因素來進(jìn)行有效的圖像處理。”

從新冠數(shù)據(jù)集到AutoML庫集,值得學(xué)習(xí)的數(shù)據(jù)科學(xué)項目

居家隔離的日子可能暫時還無法結(jié)束,但比起上街游行抗議,沉下心來將時間投資于學(xué)習(xí)和未來,或許是一個更好的選擇。

責(zé)任編輯:趙寧寧 來源: 讀芯術(shù)
相關(guān)推薦

2020-04-22 14:58:13

數(shù)據(jù)科學(xué)數(shù)據(jù)數(shù)據(jù)分析

2019-09-10 07:58:01

字符集MySQL數(shù)據(jù)庫

2020-04-09 15:32:20

數(shù)據(jù)科學(xué)AutoML代智能

2019-11-14 15:56:18

開源技術(shù) 軟件

2024-07-11 11:07:41

2023-12-01 16:23:52

大數(shù)據(jù)人工智能

2016-11-25 13:21:09

2021-12-13 09:14:06

清單管理數(shù)據(jù)集

2019-06-19 09:13:29

機(jī)器學(xué)習(xí)中數(shù)據(jù)集深度學(xué)習(xí)

2020-06-10 07:54:11

PythonSQL數(shù)據(jù)科學(xué)

2020-08-12 09:46:46

TensorFlow數(shù)據(jù)機(jī)器學(xué)習(xí)

2010-04-21 09:49:10

Oracle數(shù)據(jù)庫字符

2020-07-15 13:51:48

TensorFlow數(shù)據(jù)機(jī)器學(xué)習(xí)

2019-03-21 16:27:21

數(shù)據(jù)開發(fā)機(jī)器學(xué)習(xí)

2010-04-13 12:23:34

Oracle數(shù)據(jù)庫

2020-04-21 15:42:26

數(shù)據(jù)科學(xué)數(shù)據(jù)集數(shù)據(jù)

2023-08-28 10:42:22

數(shù)據(jù)庫Oracle

2020-06-24 07:53:03

機(jī)器學(xué)習(xí)技術(shù)人工智能

2017-06-03 23:30:32

視覺問答深度學(xué)習(xí)數(shù)據(jù)集

2011-05-18 10:36:21

數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入
點贊
收藏

51CTO技術(shù)棧公眾號