2018年下半年,別錯(cuò)過這些深度學(xué)習(xí)項(xiàng)目!
大數(shù)據(jù)文摘出品
編譯:fuma、倪倪、蔣寶尚
深度學(xué)習(xí)現(xiàn)在是一個(gè)非?;鸨念I(lǐng)域,很難對(duì)其快速的發(fā)展一一記錄。
今年早些時(shí)候,作為嘗試記錄深度學(xué)習(xí)領(lǐng)域進(jìn)展的***步,本文作者Ross Taylor創(chuàng)建了網(wǎng)站Papers With Code。該網(wǎng)站是一個(gè)將深度學(xué)習(xí)研究論文與其實(shí)現(xiàn)代碼相連接的社區(qū)。
Papers With Code:www.paperswithcode.com
這個(gè)網(wǎng)站也使得作者對(duì)深度學(xué)習(xí)領(lǐng)域有了一個(gè)全面的了解?;诖?,通過本文我們可以看到AI的研究趨勢(shì)是什么,社區(qū)正在采用哪些框架,以及哪些技術(shù)正在受到青睞。
***的發(fā)布:BERT,vid2vid和graph_nets
Google AI的BERT論文在10月份引起了深度學(xué)習(xí)界的關(guān)注。本文提出了一種深度雙向編碼器模型,該模型可實(shí)現(xiàn)11種NLP任務(wù)的***進(jìn)性能,包括斯坦福問答(SQUAD)數(shù)據(jù)集。 Google AI開源了他們論文的代碼,這是深度學(xué)習(xí)庫類別中,獲得最多的“星星”的開源代碼。
- 論文下載地址:https://arxiv.org/abs/1810.04805
- 論文代碼:https://github.com/google-research/bert
NVIDIA的一篇關(guān)于視頻到視頻合成的論文,是生成建模的又一個(gè)驚人結(jié)果,生成模型是過去幾年中***的深度學(xué)習(xí)領(lǐng)域之一。該文利用新穎的順序生成器體系結(jié)構(gòu),以及諸如前景和背景先驗(yàn)等許多其他設(shè)計(jì)特征,修復(fù)了時(shí)間不連貫的問題、提高性能。 NVIDIA開源了他們的代碼,歡迎程度位居第二。
- 論文下載地址:https://arxiv.org/abs/1808.06601/
- 代碼地址:https://github.com/NVIDIA/vid2vid/
谷歌DeepMind關(guān)于圖形網(wǎng)絡(luò)的論文在今年年中受到了很多關(guān)注。圖形網(wǎng)絡(luò)是深度學(xué)習(xí)開始嘗試的新型結(jié)構(gòu)化數(shù)據(jù)(大多數(shù)深度學(xué)習(xí)應(yīng)用都是基于向量和序列)。此開源庫的受歡迎程度排列第三。
- 論文下載地址:https://arxiv.org/abs/1806.01261v3
- 代碼:https://github.com/deepmind/graph_nets/
***的社區(qū):DeOldify,BERT和Fast R-CNN
1. DeOldify
DeOldify使用SA-GAN,這是一個(gè)從PG-GAN獲得靈感的架構(gòu),應(yīng)用兩個(gè)時(shí)間尺度的更新規(guī)則。
DeOldify項(xiàng)目非常迷人。作者Jason Antic復(fù)現(xiàn)了許多生成建模領(lǐng)域的論文,包括自注意力GAN,逐步增長(zhǎng)的GAN和兩個(gè)時(shí)間尺度的更新規(guī)則。在撰寫本文時(shí),該項(xiàng)目的代碼在GitHub上有超過4,000顆星。
DeOldify:https://github.com/jantic/DeOldify
2. BERT
基于PyTorch框架而實(shí)現(xiàn)的BERT也非常受歡迎。深度學(xué)習(xí)社區(qū)不斷涌現(xiàn)的代碼往往不是基于Tensorflow就是基于PyTorch,同時(shí)用兩個(gè)框架實(shí)現(xiàn)的需求越來越大,這樣可以方便整個(gè)深度學(xué)習(xí)社區(qū)使用它們。 作者Junseong Kim的工作清楚地說明了這一點(diǎn)。目前,這個(gè)項(xiàng)目的代碼在github上享有超過1,500個(gè)星星。
BERT:https://github.com/codertimo/bert-pytorch
3. Mask R-CNN
***,Waleed Abdulla的基于Keras / TensorFlow實(shí)現(xiàn)Mask R-CNN是GitHub第三個(gè)獲得星數(shù)最多的代碼。在架構(gòu)上,該實(shí)現(xiàn)使用特征金字塔網(wǎng)絡(luò)和ResNet101基礎(chǔ)網(wǎng)絡(luò),并且該庫可用于許多應(yīng)用,例如3D建筑物重建,自動(dòng)駕駛汽車的物體檢測(cè),地圖中的建筑物類型探測(cè)等。該庫在GitHub上有超過8,000顆星。
- 論文下載地址:https://arxiv.org/abs/1703.06870
- 代碼:https://github.com/matterport/Mask_RCNN
最熱門應(yīng)用:NLP和GAN
在前50個(gè)流行的實(shí)現(xiàn)應(yīng)用中,生成模型和自然語言處理(NLP)是兩大最熱門領(lǐng)域。對(duì)生成模型而言,GitHub上的流行實(shí)現(xiàn)包括:vid2vid,DeOldify,CycleGAN和faceswaps。而在NLP中,流行的GitHub庫包括BERT,HanLP,jieba,AllenNLP和fastText。
7篇新論文中1篇有代碼
你的研究沒有代碼,你在社區(qū)上就不會(huì)備受關(guān)注,規(guī)則就是這樣簡(jiǎn)單。以下是作者分析他自己平臺(tái)上的論文代碼復(fù)現(xiàn)情況:
分析基數(shù)是過去5年中60,000多份機(jī)器學(xué)習(xí)論文,在6萬篇論文中,將近12%有代碼實(shí)現(xiàn)。在過去的6個(gè)月中,約15%的新發(fā)表論文(即七分之一的論文)都發(fā)布了實(shí)現(xiàn)代碼。
每隔20分鐘,就有一篇新的機(jī)器學(xué)習(xí)論文
自7月以來,機(jī)器學(xué)習(xí)論文的增長(zhǎng)率一直在每月3.5%左右,以此計(jì)算,每年的增長(zhǎng)率約為50%。這意味著每月大約2,200篇機(jī)器學(xué)習(xí)論文,預(yù)計(jì)明年將有大約30,000篇新的機(jī)器學(xué)習(xí)論文。
在過去3年中,作者網(wǎng)站上的機(jī)器學(xué)習(xí)論文的數(shù)量似乎比摩爾定律的增長(zhǎng)速度更快,這讓你感覺人們相信這將是未來計(jì)算技術(shù)價(jià)值的出處。
框架雙頭壟斷:TensorFlow和PyTorch
雖然PyTorch并不落后,但網(wǎng)站上的大多數(shù)實(shí)現(xiàn)似乎都是基于TensorFlow的。其他的框架(MXNet,Torch和Caffe2)在生態(tài)系統(tǒng)中的存在要小得多。鑒于兩個(gè)框架中都發(fā)生了變化:TensorFlow正朝著即刻執(zhí)行和由Keras激發(fā)靈感的新API方向發(fā)展;PyTorch則希望能夠更輕松地把模型產(chǎn)品化。
相關(guān)報(bào)道:
https://medium.com/atlas-ml/state-of-deep-learning-h2-2018-review-cc3e490f1679
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】