一文看盡2019全年AI技術(shù)突破
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
2019年,整個AI行業(yè)的發(fā)展如何?
- NLP模型不斷刷新成績,谷歌和Facebook你方唱罷我登場;
- GAN在不斷進化,甚至能生成高分辨率難辨真假的人臉;
- 強化學(xué)習(xí)攻破了《星際2》等戰(zhàn)略游戲。
讓人對到來的2020年充滿期待。
最近,Analytics Vidhya發(fā)布了2019年AI技術(shù)回顧報告,總結(jié)了過去一年中,AI在不同技術(shù)領(lǐng)域取得的進展,并展望了2020年的新趨勢。
Analytics Vidhya是一個著名數(shù)據(jù)科學(xué)社區(qū)。其技術(shù)回顧報告由多位機器學(xué)習(xí)業(yè)內(nèi)專家撰寫。
報告認為,在過去的一年中,發(fā)展最為迅猛的是NLP,CV已較為成熟,RL才剛剛起步,明年可能迎來大爆發(fā)。
量子位在報告基礎(chǔ)上,進行了編譯整理及補充。話不多說,一起來逐一盤點2019的那些AI技術(shù)吧:
自然語言處理(NLP):語言模型井噴,部署工具涌現(xiàn)
NLP在2019年實現(xiàn)了巨大的飛躍,該領(lǐng)域這一年取得的突破是無與倫比的。
報告認為,2018年是NLP的分水嶺,2019年本質(zhì)上是在此基礎(chǔ)上進一步發(fā)展,讓該領(lǐng)域突飛猛進。
Transformer統(tǒng)治了NLP
自從2017年的論文Attention is All You Need發(fā)表以來,出現(xiàn)了BERT為代表的NLP模型。之后,Transformer一次又一次地在NLP領(lǐng)域中統(tǒng)治了SOTA結(jié)果。
谷歌的Transformer-XL是另一種基于Transformer的模型,在語言建模方面勝過BERT。隨后是OpenAI的GPT-2模型,它以其生成非常像人類的語言文字而聞名。
2019年下半年,BERT本身出現(xiàn)了許多創(chuàng)新,例如CMU的XLNet,F(xiàn)acebook AI的RoBERTa和mBERT(多語言BERT)。這些模型在RACE、SQuAD等測試榜上不斷刷新成績。
GPT-2則終于釋出完整版,開源15億參數(shù)模型。
GPT-2模型地址:https://openai.com/blog/gpt-2-1-5b-release/
延伸閱讀
BERT重奪多項測試第一名,改進之后性能追上XLNet,現(xiàn)已開源預(yù)訓(xùn)練模型
模仿川普語氣真假難分,康奈爾盲測15億參數(shù)模型:從未如此逼真,最強編故事AI完全體來了
大型預(yù)訓(xùn)練語言模型成常態(tài)
遷移學(xué)習(xí)是2019年NLP領(lǐng)域出現(xiàn)的另一趨勢。我們開始看到多語言模型,這些模型在大型的未標(biāo)記文本語料庫上進行了預(yù)訓(xùn)練,從而使它們能夠?qū)W習(xí)語言本身的潛在細微差別。
GPT-2、Transformer-XL等模型幾乎可以對所有NLP任務(wù)進行微調(diào),并且可以在相對較少的數(shù)據(jù)下很好地運行。
像百度的ERNIE 2.0這樣的模型引入了持續(xù)預(yù)訓(xùn)練的概念,預(yù)訓(xùn)練方法有了很大的進步。在此框架中,可以隨時逐步引入不同的自定義任務(wù)。
新的測試標(biāo)準推出
隨著一系列NLP新模型帶來了巨大性能提升,它們的測試分數(shù)也已經(jīng)達到了上限,分差很小,甚至在GLUE測試中超過了人類的平均水平。
因此這些測試基準已經(jīng)不足以反映NLP模型的發(fā)展水平,也不利于未來的進一步提高。
DeepMind、紐約大學(xué)、華盛頓大學(xué)聯(lián)合Facebook提出了新的測試標(biāo)準SuperGLUE,加入了更難的因果推理任務(wù),對NLP模型提出了新的挑戰(zhàn)。
開始考慮NLP的工程和部署
2019年出現(xiàn)了一大批實用的NLP資源:
斯坦福大學(xué)開源的StanfordNLP庫,HuggingFace的Transformer預(yù)訓(xùn)練模型庫。spaCy利用該庫創(chuàng)建了spacy-transformers,這是一種用于文本處理的工業(yè)級庫。
斯坦福NLP小組表示:“與我們在2019年訓(xùn)練的大型語言模型一樣,我們還將重點放在優(yōu)化這些模型上。”
像BERT,Transformer-XL,GPT-2這些大型模型的問題在于,它們的計算量很大,因此在現(xiàn)實中使用它們幾乎是不切實際的。
HuggingFace的DistilBERT顯示,可以將BERT模型的大小減少40%,同時保留其97%的語言理解能力,并且速度提高60%。
谷歌和豐田研究出了另一種減小BERT模型尺寸的方法ALBERT,它在3個NLP基準測試(GLUE,SQuAD,RACE)上獲得了SOTA的成績。
延伸閱讀
GitHub萬星NLP資源大升級:實現(xiàn)Pytorch和TF深度互操作,集成32個最新預(yù)訓(xùn)練模型
對語音識別的興趣增加
NLP領(lǐng)域在2019年重新燃起了對英偉達NeMo等框架開發(fā)音頻數(shù)據(jù)的興趣,該框架使端到端自動語音識別系統(tǒng)的模型訓(xùn)練變得異常輕松。
除了NeMo之外,英偉達還開源了QuartzNet,QuartzNet 另一個基于Jasper的新的端到端語音識別模型架構(gòu),Jasper是一種小型,高效的語音識別模型。
更關(guān)注多語言模型
在能夠使用多語言數(shù)據(jù)之前,NLP如何真正發(fā)揮作用?
今年,人們對重新探索NLP庫(例如StanfordNLP)的多語言途徑有了新的興趣,這些途徑帶有經(jīng)過預(yù)先訓(xùn)練的模型,可以處理50多種人類語言的文本。您可以想象,這對社區(qū)產(chǎn)生了巨大影響。
然后,成功嘗試通過Facebook AI的XLM mBERT(超過100種語言)和CamemBERT 等項目來創(chuàng)建像BERT這樣的大型語言模型,該項目針對法語進行了微調(diào):
2020年趨勢
以上是2019年NLP領(lǐng)域進展的總結(jié),2020年該領(lǐng)域會有哪些趨勢呢?
身為NLP專家、Kaggle Grandmaster的Sudalai Rajkumar推測了2020年的主要趨勢:
延續(xù)當(dāng)前趨勢,在更大的數(shù)據(jù)集上訓(xùn)練更大的深度學(xué)習(xí)模型;
構(gòu)建更多的生產(chǎn)應(yīng)用程序,較小的NLP模型將對此有所幫助;
手動注釋文本數(shù)據(jù)的成本很高,因此半監(jiān)督標(biāo)記方法可能會變得很重要;
NLP模型的可解釋性,了解模型在進行公正決策時學(xué)到的知識。
NLP領(lǐng)域?qū)W者、ULMFiT的作者之一Sebastian Ruder認為:
不僅會從龐大的數(shù)據(jù)集中學(xué)習(xí),還會看到更多的模型在更少樣本上高效地學(xué)習(xí);
模型越來越強調(diào)稀疏性和效率;
重點關(guān)注多語言的更多數(shù)據(jù)集。
計算機視覺(CV):圖像分割愈發(fā)精細,AI造假愈演愈真
計算機視覺方面,今年CVPR、ICCV等國際頂會接收論文數(shù)量均有大幅增長。下面,就來回顧2019最受矚目的幾種重要算法和實現(xiàn)。
何愷明Mask R-CNN正在被超越
Mask Scoring R-CNN
在COCO圖像實例分割任務(wù)上,Mask Scoring R-CNN超越了何愷明的Mask R-CNN,并因此中選計算機視覺頂會CVPR 2019的口頭報告。
在Mask R-CNN這樣的模型中,實例分類的置信度被當(dāng)作mask的質(zhì)量衡量指標(biāo),但實際上mask的質(zhì)量和分類的質(zhì)量并沒有很強的相關(guān)性。
華中科技大學(xué)的這篇文章針對這個問題進行了研究,他們提出了一種新的打分方法:mask score。
不僅僅直接依靠檢測得到分類得分,Mask Scoring R-CNN模型還單獨學(xué)習(xí)了一個針對mask的得分規(guī)則:MaskloU head。
同時考慮分類得分和蒙版得分,Mask Scoring R-CNN就能更加公正地評估算法質(zhì)量,提高實例分割模型的性能。
研究團隊在COCO數(shù)據(jù)集上進行了實驗,結(jié)果表明Mask Scoring R-CNN在不同的基干網(wǎng)路上,AP提升始終在1.5%左右。
這篇論文被Open Data Science評為2019年第一季度十佳論文之一。
論文一作是地平線實習(xí)生黃釗金,來自華中科技大學(xué)電信學(xué)院副教授王興剛的團隊,王興剛也是這篇論文的作者之一。
SOLO
字節(jié)跳動實習(xí)生王鑫龍?zhí)岢龅膶嵗指钚路椒⊿OLO,作為一種單階段實例分割方法,框架更簡單,但性能同樣超過了Mask R-CNN。
SOLO方法的核心思想是,將實例分割問題重新定義為類別感知預(yù)測問題和實例感知掩碼生成問題。
COCO數(shù)據(jù)集上的實驗結(jié)果表明,SOLO的效果普遍超過此前的單階段實例分割主流方法,在一些指標(biāo)上還超過了增強版Mask R-CNN。
相關(guān)地址
https://arxiv.org/abs/1903.00241v1https://arxiv.org/abs/1912.04488
延伸閱讀
性能超越何愷明Mask R-CNN!華科碩士生開源圖像分割新方法 | CVPR19 Oral
字節(jié)跳動實習(xí)生提出實例分割新方法:性能超過何愷明Mask R-CNN
EfficientNet
EfficientNet是一種模型縮放方法,由谷歌基于AutoML開發(fā),在ImageNet測試中實現(xiàn)了84.1%的準確率,刷新記錄。
雖然準確率只比在其之前的SOTA模型Gpipe提高了0.1%,但模型更小更快,參數(shù)量和FLOPs都大幅減少,效率提升10倍之多。
其作者是來自谷歌大腦的工程師Mingxing Tan和首席科學(xué)家Quoc V. Le。
相關(guān)地址
GitHub:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet
論文:https://arxiv.org/abs/1905.11946
延伸閱讀
谷歌開源縮放模型EfficientNets:ImageNet準確率創(chuàng)紀錄,效率提高10倍
Detectron2
這項超強PyTorch目標(biāo)檢測庫來自Facebook。
比起初代Detectron,它訓(xùn)練比從前更快,功能比從前更全,支持的模型也比從前更豐盛。一度登上GitHub熱榜第一。
實際上,Detectron2是對初代Detectron的完全重寫:初代是在Caffe2里實現(xiàn)的,而為了更快地迭代模型設(shè)計和實驗,Detectron2是在PyTorch里從零開始寫成的。
并且,Detectron2實現(xiàn)了模塊化,用戶可以把自己定制的模塊實現(xiàn),加到一個目標(biāo)檢測系統(tǒng)的任何部分里去。
這意味著許多的新研究,都能用幾百行代碼寫成,并且可以把新實現(xiàn)的部分,跟核心Detectron2庫完全分開。
Detectron2在一代所有可用模型的基礎(chǔ)上(Faster R-CNN,Mask R-CNN,RetinaNet,DensePose),還加入了了Cascade R-NN,Panoptic FPN,以及TensorMask等新模型。
相關(guān)地址
GitHub:https://github.com/facebookresearch/detectron2
延伸閱讀
GitHub趨勢榜第一:超強PyTorch目標(biāo)檢測庫Detectron2,訓(xùn)練更快,支持更多任務(wù)
更強的GAN們
2019年,GAN們依然活躍。
比如同樣來自Google DeepMind的VQ-VAE二代,生成的圖像比BigGAN更加高清逼真,而且更具多樣性:https://arxiv.org/abs/1906.00446
BigBiGAN,不僅能生成質(zhì)量優(yōu)秀的圖像,還在圖像分類任務(wù)上刷新了記錄:https://arxiv.org/abs/1907.02544
以色列理工學(xué)院和谷歌聯(lián)合出品,拿下ICCV2019最佳論文的SinGAN:https://arxiv.org/abs/1905.01164
英偉達的StyleGAN也高能進化成為StyleGAN2,彌補了第一代的各種缺陷:https://arxiv.org/abs/1912.04958
延伸閱讀
史上最佳GAN被超越!生成人臉動物高清大圖真假難辨,DeepMind發(fā)布二代VQ-VAE
刷新ImageNet紀錄,GAN不只會造假!DeepMind用它做圖像分類,秒殺職業(yè)分類AI
ICCV2019最佳論文SinGAN全面解讀,看這一篇就懂了
如果沒有StyleGAN2,真以為初代就是巔峰了:英偉達人臉生成器高能進化,彌補重大缺陷
2020年趨勢
展望2020年,Analytics Vidhya認為,視覺領(lǐng)域的重點,依然會聚焦在GAN上:
styleGAN2等新方法正在生成越來越逼真的面部圖像,檢測DeepFake將變得越來越重要。視覺和(音頻)都將朝向這個方向進行更多研究。
而元學(xué)習(xí)和半監(jiān)督學(xué)習(xí),則是2020年的另一大重點研究方向。
強化學(xué)習(xí)(RL):星際DOTA雙雙告破,可用性更強
2019年,現(xiàn)有的強化方法擴展到了更大的計算資源方面,并取得了一定的進展。
在過去的一年里,強化學(xué)習(xí)解決了一系列過去難以解決的復(fù)雜環(huán)境問題,比如在Dota2和星際2等游戲中戰(zhàn)勝了人類頂尖職業(yè)玩家。
報告指出,盡管這些進展引起了媒體行業(yè)極大的關(guān)注,但是當(dāng)前的方法還是存在著一些問題:
需要大量的訓(xùn)練數(shù)據(jù),只有在有足夠準確和快速的模擬環(huán)境的情況下,才能獲得訓(xùn)練數(shù)據(jù)。許多電子游戲就是這種情況,但大多數(shù)現(xiàn)實世界中的問題卻不是這樣。
由于采用了這種訓(xùn)練模式,因此,大規(guī)模的強化學(xué)習(xí)算法,感覺就像只是在問題空間的過度密集采過度產(chǎn)生的策略 ,而不是讓它學(xué)習(xí)環(huán)境中的潛在因果關(guān)系并智能地進行概括。
同樣,幾乎所有現(xiàn)有的Deep RL方法在對抗性樣本、領(lǐng)域外泛化和單樣本學(xué)習(xí)方面都非常脆弱,目前還沒有好的解決方案。
因此,Deep RL的主要挑戰(zhàn)是逐漸從應(yīng)對確定性的環(huán)境,轉(zhuǎn)向?qū)W⒂诟镜倪M步,例如泛化、轉(zhuǎn)移學(xué)習(xí)和從有限數(shù)據(jù)中學(xué)習(xí)等等。從一些機構(gòu)的研究趨勢中,我們可以看出這一點。
首先OpenAI發(fā)布了一套類似于健身房的新環(huán)境,該環(huán)境使用過程級別生成來測試Deep RL算法的泛化能力。
許多研究人員開始質(zhì)疑并重新評估我們對“智能”的實際定義。我們開始更好地了解神經(jīng)網(wǎng)絡(luò)的未被發(fā)現(xiàn)的弱點,并利用這些知識來建立更好的模型。
延伸閱讀
1-10落敗,5分鐘崩盤!星際2職業(yè)高手史上首次被AI擊潰,AlphaStar一戰(zhàn)成名
碾壓99.8%人類對手,三種族都達宗師級!星際AI登上Nature,技術(shù)首次完整披露
2:0!Dota2世界冠軍OG被OpenAI碾壓,全程人類只推掉兩座外塔
Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終于放出
2020年趨勢
總而言之,2020年的預(yù)測趨勢如下:
從有限的數(shù)據(jù)中學(xué)習(xí)和推廣將成為強化學(xué)習(xí)研究的中心主題;
強化學(xué)習(xí)領(lǐng)域的突破與深度學(xué)習(xí)領(lǐng)域的進步緊密相關(guān);
將有越來越多的研究利用生成模型的力量來增強各種訓(xùn)練過程。
交叉型研究:AI深入多學(xué)科研究
隨著人工智能技術(shù)的發(fā)展,跨學(xué)科研究也成為了今年的熱門。AI的身影,頻現(xiàn)于醫(yī)學(xué)、腦機接口乃至數(shù)學(xué)研究當(dāng)中。
腦機接口
在馬斯克、Facebook紛紛押注的腦機接口領(lǐng)域,深度學(xué)習(xí)正在幫助研究人員解碼大腦所想。
比如加州大學(xué)舊金山分校這項登上Nature的研究:利用深度學(xué)習(xí)直接讀懂大腦,將大腦信號轉(zhuǎn)換成語音。
此前的語音合成腦機接口每分鐘只能生成8個單詞,而這項研究中的新裝置,每分鐘能生成150個單詞,接近人類自然語速。
醫(yī)學(xué)
在醫(yī)學(xué)領(lǐng)域,機器學(xué)習(xí)技術(shù)也不僅僅在醫(yī)療影像識別上發(fā)揮作用。
比如,德國組織工程和再生醫(yī)學(xué)研究所的一項研究,就利用深度學(xué)習(xí)算法DeepMACT,自動檢測和分析了整個小鼠身體中的癌癥轉(zhuǎn)移灶。
基于這項技術(shù),科學(xué)家首次觀察到了單個癌細胞形成的微小轉(zhuǎn)移位點,并且把工作效率提高了300倍以上。
“目前,腫瘤臨床試驗的成功率約為5% 。我們相信DeepMACT技術(shù)可以大大改善臨床前研究的藥物開發(fā)過程。因此,這可能有助于為臨床試驗找到更強大的候選藥物,并有望幫助挽救許多生命。”研究的通訊作者Ali Ertürk表示。
數(shù)學(xué)
雖說數(shù)學(xué)是自然科學(xué)的基礎(chǔ),但在AI不斷的發(fā)展下,也起到了一定“反哺”作用。
Facebook發(fā)表的一項新模型,可以在1秒時間內(nèi),精確求解微分方程、不定積分。
不僅如此,性能還超越了常用的Mathematica和Matlab。
積分方程和微分方程,都可以視作將一個表達式轉(zhuǎn)換為另一個表達式,研究人員認為,這是機器翻譯的一個特殊實例,可以用NLP的方法來解決。
方法主要分為四步:
- 將數(shù)學(xué)表達式以樹的形式表示;
- 引入了seq2seq模型;
- 生成隨機表達式;
- 計算表達式的數(shù)量。
研究人員在一個擁有5000個方程的數(shù)據(jù)集中,對模型求解微積分方程的準確率進行了評估。
結(jié)果表明,對于微分方程,波束搜索解碼能大大提高模型的準確率。
在包含500個方程的測試集上,商業(yè)軟件中表現(xiàn)最好的是Mathematica。
而當(dāng)新方法進行大小為50的波束搜索時,模型準確率就從81.2%提升到了97%,遠勝于Mathematica(77.2%)
并且,在某一些Mathematica和Matlab無力解決的問題上,新模型都給出了有效解。
展望2020年機器學(xué)習(xí)
從NLP到計算機視覺,再到強化學(xué)習(xí),2020年有很多值得期待的東西。以下是Analytics Vidhya預(yù)測的2020年的一些關(guān)鍵趨勢:
到2020年,機器學(xué)習(xí)的職位數(shù)量將繼續(xù)呈指數(shù)級增長。很大程度上是由于NLP的發(fā)展,許多公司將尋求擴大團隊,這是進入該領(lǐng)域的好時機。
數(shù)據(jù)工程師的作用將更加重要。
AutoML在2018年起飛,但并沒有在2019年達到預(yù)期高度。明年,隨著AWS和Google Cloud的現(xiàn)成解決方案變得更加突出,我們應(yīng)該更多地關(guān)注這一點。
2020年將是我們終于看到強化學(xué)習(xí)突破的一年嗎?幾年來一直處于低迷狀態(tài),因為將研究解決方案轉(zhuǎn)移到現(xiàn)實世界已證明是一個主要障礙。