自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="dpvra"></thead>}

<sub id="dpvra"><i id="dpvra"></i></sub>

^{<sub id="dpvra"></sub>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

2017年你錯(cuò)過(guò)了哪些AI圈大事？最全盤點(diǎn)，值得收藏！

作者：排版到絕望的 2018-02-04 14:44:11

企業(yè)動(dòng)態(tài)

本文將帶你瀏覽2017年幾乎所有最有意義的AI研究，從文本、語(yǔ)音、計(jì)算機(jī)視覺到強(qiáng)化學(xué)習(xí)和最重要的新聞。

??

??

編譯：彭湘?zhèn)?、呂征達(dá)、小明同學(xué)、林海、Yawei Xia

假設(shè)你在2017年昏睡了一年，忽然驚醒的時(shí)候，想要了解這個(gè)世界在今年有哪些最值得驕傲的成就，這篇文章值得你花幾十分鐘讀一讀。

這一年，谷歌發(fā)布了Google Translate的新模型，并詳細(xì)描述了網(wǎng)絡(luò)結(jié)構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)。Facebook的聊天機(jī)器人，因?yàn)槭Э貏?chuàng)造了自己的語(yǔ)言被關(guān)閉。DeepMind 的研究員在他們的文章中展示了如何生成語(yǔ)音。一個(gè)已經(jīng)成功超越人類的深度學(xué)習(xí)成就叫做唇語(yǔ)識(shí)別。

本文將帶你瀏覽2017年幾乎所有最有意義的AI研究，從文本、語(yǔ)音、計(jì)算機(jī)視覺到強(qiáng)化學(xué)習(xí)和最重要的新聞。

其中的大部分事件，文摘菌都在其發(fā)生之時(shí)做過(guò)相關(guān)報(bào)道，回憶起來(lái)，感慨萬(wàn)分，我們也在相應(yīng)部分附上了報(bào)道鏈接，方便查看細(xì)節(jié)。

一、文本

1. 谷歌神經(jīng)機(jī)器翻譯

大約一年前，谷歌發(fā)布了Google Translate的新模型，并詳細(xì)描述了網(wǎng)絡(luò)結(jié)構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)。

鏈接：

??https://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4??

關(guān)鍵成果：與人類翻譯的準(zhǔn)確率之差縮小了55%-85% (研究者使用6分制打分標(biāo)準(zhǔn)評(píng)估得到)。如果不依賴谷歌龐大的數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練，這一結(jié)果很難復(fù)現(xiàn)。

??

??

2. 談判

你可能聽過(guò)這個(gè)謠言：Facebook的聊天機(jī)器人，因失控創(chuàng)造自己的語(yǔ)言而被關(guān)閉。

該聊天機(jī)器人原本被設(shè)計(jì)用來(lái)談判，其目的是與其他機(jī)器人(代理)進(jìn)行文本談判并達(dá)成協(xié)議：如何在兩個(gè)人之間分配物品(書籍和帽子等)。每一個(gè)機(jī)器人(代理)有對(duì)方不掌握的交易信息。同時(shí)，談判的設(shè)定是不達(dá)成交易就不終止。

他們收集了一個(gè)人類談判的數(shù)據(jù)庫(kù)，并訓(xùn)練出了一個(gè)監(jiān)督式的循環(huán)網(wǎng)絡(luò)。隨后，他們讓強(qiáng)化訓(xùn)練后的機(jī)器人，通過(guò)自我對(duì)話的方式繼續(xù)訓(xùn)練，直到與人類語(yǔ)言近似到一定程度為止。

該機(jī)器人已經(jīng)學(xué)會(huì)了一種真正的談判技巧——對(duì)交易中的某些因素假裝表現(xiàn)出興趣，隨后僅僅通過(guò)犧牲它們來(lái)達(dá)成真正目的。

新聞里聲稱機(jī)器人發(fā)明了一種新語(yǔ)言，這種說(shuō)法有點(diǎn)過(guò)于夸張。當(dāng)用同一個(gè)機(jī)器人來(lái)訓(xùn)練的時(shí)候，它沒有被限制必須用與人類語(yǔ)言，所以算法進(jìn)行了一些變異，這很正常。

??

??

文章鏈接：

??https://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4??

在過(guò)去的一年里，循環(huán)網(wǎng)絡(luò)得到了很大的改進(jìn)，并被應(yīng)用于諸多領(lǐng)域。RNN的結(jié)構(gòu)也越來(lái)越復(fù)雜，但是在某些領(lǐng)域，簡(jiǎn)約前向網(wǎng)絡(luò)(DSSM)都取得了相似的結(jié)果。例如，在郵件智能回復(fù)方面，谷歌取得了與LSTM之前一樣的效果。另外，Yandex基于這套網(wǎng)絡(luò)，發(fā)布了新的搜索引擎。

二、語(yǔ)音

1. WaveNet，一種針對(duì)音源的生成模型

DeepMind 的研究員在他們的文章中展示了如何生成語(yǔ)音。簡(jiǎn)單的說(shuō)，他們基于之前生成圖像的方法，PixelRNN 和PixelCNN，創(chuàng)造了一個(gè)自回歸全卷積的WaveNet模型。

??

??

該網(wǎng)絡(luò)被以點(diǎn)到點(diǎn)的方式訓(xùn)練：文本作為輸入，語(yǔ)音作為輸出。最終研究人員取得了極好的結(jié)果。在語(yǔ)音生成方面，機(jī)器人與人類的差距縮小了50%。

??

??

該網(wǎng)絡(luò)的主要缺陷在于效率低下。因?yàn)槭褂昧俗曰貧w技術(shù)，音頻是按順序生成，并且每1-2分鐘，才能生成一秒語(yǔ)音。

如果去掉對(duì)文字輸入的依賴，僅僅基于前期產(chǎn)生的語(yǔ)音，該網(wǎng)絡(luò)會(huì)產(chǎn)生出類似人類的語(yǔ)言。但這樣并沒有實(shí)際意義。

這一模型不僅僅可以用于語(yǔ)音生成，也可以用于音樂創(chuàng)作。設(shè)想，在不依賴輸入數(shù)據(jù)的情況下，僅僅被鋼琴游戲的數(shù)據(jù)庫(kù)訓(xùn)練，該模型便可生成音頻。

2. 唇語(yǔ)識(shí)別

唇語(yǔ)識(shí)別是另外一個(gè)已經(jīng)成功超越人類的深度學(xué)習(xí)成就。

《Lip ReadingSentences in the Wild》。Google Deepmind 在這篇于牛津大學(xué)合作發(fā)表的論文中，公布了他們給予電視數(shù)據(jù)訓(xùn)練的模型。該模型性能超越了BBC頻道專業(yè)的唇語(yǔ)閱讀員。

該數(shù)據(jù)集包括10萬(wàn)條配有音頻和視頻的語(yǔ)句。LSTM訓(xùn)練音頻，CNN+LSTM訓(xùn)練視頻。最后將兩者的狀態(tài)向量作為最終LSTM模型的輸入，以產(chǎn)生文字輸出。

??

??

訓(xùn)練中，使用不同的數(shù)據(jù)類型，包括音頻，視頻以及音頻+視頻。換句話說(shuō)，這是個(gè)多渠道模型。

??

??

3. 合成奧巴馬——從音頻中同步嘴唇動(dòng)作

華盛頓大學(xué)進(jìn)行了一項(xiàng)研究，以合成美國(guó)前總統(tǒng)奧巴馬的嘴唇動(dòng)作。選擇他為對(duì)象的原因在于，在網(wǎng)絡(luò)上有大量他的視頻(17小時(shí)的高清視頻)。

他們不能過(guò)多地直接使用網(wǎng)絡(luò)模型輸出的合成畫面。因此，論文的作者使用了一些技巧來(lái)改善紋理的時(shí)間方面的問(wèn)題。

效果如此令人震驚。也許不久的將來(lái)，即使是總統(tǒng)演講視頻都有可能是合成的。

三、計(jì)算機(jī)視覺

1. OCR——谷歌地圖和街景

谷歌大腦團(tuán)隊(duì)在他們公布的文章中，介紹了他們?nèi)绾螌⑿乱淮鶲CR(光學(xué)字符識(shí)別)引擎引入谷歌地圖中，以實(shí)現(xiàn)街道標(biāo)志和店鋪標(biāo)志的自動(dòng)識(shí)別。

??

??

??

??

在開發(fā)過(guò)程中，谷歌解碼了新的FSNS(法語(yǔ)街道名標(biāo)示)，有很多復(fù)雜的場(chǎng)景。

為了識(shí)別出每一個(gè)標(biāo)志，網(wǎng)絡(luò)模型最多使用了標(biāo)志的四張圖片。特征通過(guò)CNN提取后，經(jīng)過(guò)空間變化(考慮像素坐標(biāo))再輸入到LSTM模型中。

??

??

相似的方法被用于識(shí)別布告牌中店鋪名稱的的項(xiàng)目。但是該項(xiàng)目的圖像數(shù)據(jù)有很多無(wú)關(guān)信息，網(wǎng)絡(luò)模型必須對(duì)焦正確的信息進(jìn)行讀取。這一算法已經(jīng)被應(yīng)用于800億張圖片上。

2. 視覺推理

另一種稱做視覺推理的任務(wù)，是要讓神經(jīng)網(wǎng)絡(luò)利用圖片中信息來(lái)回答問(wèn)題。例如：圖片中有于黃色金屬圓柱體一般大的橡膠物品么?這種問(wèn)題對(duì)算法來(lái)講很難，到目前為止，準(zhǔn)確率只有68.5%。

??

??

DeepMind在這一領(lǐng)域取得了突破，在CLEVR數(shù)據(jù)集中，他們?nèi)〉昧?5.5% 的超高準(zhǔn)確率。

這一網(wǎng)絡(luò)模型的結(jié)構(gòu)很有意思：

通過(guò)預(yù)訓(xùn)練好的LSTM模型，從文字問(wèn)題中抽象出問(wèn)題。
使用4層的CNN模型，從圖片中得到特征圖(下圖中的黃色，藍(lán)色，和紅色部分)，再加入坐標(biāo)，將其與文字對(duì)應(yīng)起來(lái)。
之后，再用另一個(gè)網(wǎng)絡(luò)模型處理并集成這三類特征。
最終，通過(guò)一個(gè)前反饋網(wǎng)絡(luò)中的柔性最大激活函數(shù)(softmax)，將答案呈現(xiàn)出來(lái)。

??

??

3. Pix2Code——用戶圖形界面代碼自動(dòng)生成

Uizard(一家哥本哈根創(chuàng)業(yè)公司)開發(fā)了一款趣味十足的基于神經(jīng)網(wǎng)絡(luò)的應(yīng)用程序：它能夠根據(jù)界面設(shè)計(jì)師的截屏圖片生成GUI(圖形用戶界面)的布局代碼。

??

??

這是一款十分實(shí)用的神經(jīng)網(wǎng)絡(luò)應(yīng)用程序，它能夠讓軟件開發(fā)變得更加容易。開發(fā)者(作者)聲稱該應(yīng)用可以達(dá)到77%的準(zhǔn)確率。不過(guò)，這款應(yīng)用程序仍處在研究階段，尚未投入實(shí)際使用。

現(xiàn)在暫無(wú)項(xiàng)目的開源代碼和數(shù)據(jù)集，但是該公司承諾未來(lái)會(huì)在網(wǎng)上發(fā)布。

4. SketchRNN——教會(huì)機(jī)器如何作畫

也許你已經(jīng)見識(shí)過(guò)了谷歌的“Quick，Draw!”，一款讓用戶在20秒內(nèi)畫出不同物體草圖的小程序。谷歌公司收集該程序的數(shù)據(jù)集來(lái)教會(huì)神經(jīng)網(wǎng)絡(luò)如何作畫，正如他們?cè)诓┛秃臀恼轮薪榻B的那樣。

??

??

公司收集到的數(shù)據(jù)集中包含70000張草圖，這個(gè)數(shù)據(jù)集現(xiàn)已公開。草圖不是以圖片的形式表示的，而是以圖中線條的詳細(xì)的向量形式表示。

研究人員使用RNN訓(xùn)練出序列到序列的變分自動(dòng)編碼器來(lái)作為編碼/解碼機(jī)制。

??

??

最后，為了適應(yīng)自動(dòng)編碼器，模型接收描述原始圖片特征的特征向量(隱向量)作為輸入。

而解碼器可以從輸入的向量中提取出一個(gè)圖，并且可以通過(guò)改變輸入向量獲得新的草圖。

??

??

甚至可以通過(guò)向量運(yùn)算創(chuàng)造出“catpig”(貓豬)的形象。

??

??

5. 生成對(duì)抗網(wǎng)絡(luò)(GANS)

生成對(duì)抗網(wǎng)絡(luò)(GANS)是深度學(xué)習(xí)中最受關(guān)注的主題之一。多數(shù)情況下，這個(gè)網(wǎng)絡(luò)是用來(lái)處理圖像的。

文章鏈接：

??https://blog.statsbot.co/generative-adversarial-networks-gans-engine-and-applications-f96291965b47??

GANS的思想是兩個(gè)網(wǎng)絡(luò)——生成器和鑒別器——的競(jìng)爭(zhēng)。第一個(gè)網(wǎng)絡(luò)生成一張圖片，第二個(gè)網(wǎng)絡(luò)則是試圖分辨出該圖片是真正的圖片還是生成的圖片。

GANS的示意圖如下所示：

??

??

在訓(xùn)練過(guò)程中，生成器首先通過(guò)一個(gè)隨機(jī)向量(噪音)生成圖像，然后把它輸入能夠判別圖像真假的鑒別器中。來(lái)自真實(shí)世界的圖像同樣會(huì)被輸入到鑒別器中。

這樣的結(jié)構(gòu)難以訓(xùn)練，因?yàn)楹茈y找到兩個(gè)網(wǎng)絡(luò)之間的平衡點(diǎn)。多數(shù)情況鑒別器獲勝然后訓(xùn)練過(guò)程陷入停滯。不過(guò)，該系統(tǒng)的優(yōu)點(diǎn)是可以解決鑒別器的損失函數(shù)(比如，提高照片的質(zhì)量)難以設(shè)置的問(wèn)題。

經(jīng)典的GAN訓(xùn)練結(jié)果樣例是臥室圖片以及人臉圖片：

??

??

??

??

先前我們討論了自動(dòng)編碼(Sketch-RNN)，即將原始數(shù)據(jù)編碼成一個(gè)潛在的表示形式。生成器的工作原理也是一樣的。

使用向量生成圖像的想法在這個(gè)項(xiàng)目中的人臉生成樣例中有很好的體現(xiàn)。你可以通過(guò)改變向量來(lái)觀察人臉是如何改變的。

??

??

同樣的算法也適用于潛空間：

“戴眼鏡的男人”-“男人”+“女人”= “戴眼鏡的女人”

??

??

6. 通過(guò)GANS改變臉部年齡

如果在訓(xùn)練過(guò)程中，你賦予潛向量一個(gè)被控參數(shù)，那么當(dāng)你生成該向量時(shí)，你就可以通過(guò)改變它來(lái)管理圖片中必需的圖像了。這種方法稱為條件GAN(conditional GAN)。

“Face Aging With Conditional Generative Adversarial Networks.” 的作者們就是這樣做的。通過(guò)IMDB數(shù)據(jù)集中年齡已知的演員的照片來(lái)訓(xùn)練模型，研究人員們就有機(jī)會(huì)來(lái)改變他們的臉部年齡。

??

??

7. 專業(yè)照片

谷歌又找到了一個(gè)GAN的趣味應(yīng)用——篩選并改善照片。GAN由專業(yè)圖片數(shù)據(jù)集訓(xùn)練而來(lái)：生成器要改善不盡人意的照片)，而鑒別器要做到區(qū)分“改善后的”照片和真實(shí)的專業(yè)照片。

訓(xùn)練好的算法通過(guò)谷歌街景全景尋找最佳的構(gòu)圖，同時(shí)獲得一些專業(yè)的、半專業(yè)質(zhì)量的圖片。(根據(jù)攝像師的等級(jí))

??

??

??

??

8. 通過(guò)文本描述生成圖像

一個(gè)令人印象深刻的GANs的例子是通過(guò)文本生成圖像。

??

??

這項(xiàng)研究的作者提出不僅要將文本嵌入生成器(條件GAN)的輸入中，還要嵌入到鑒別器中，以便驗(yàn)證文本和圖片的相關(guān)性。為了確保鑒別器能夠?qū)W習(xí)并執(zhí)行預(yù)期的功能，除了正常的訓(xùn)練過(guò)程，他們還添加了錯(cuò)誤描述真實(shí)圖片的文本及相應(yīng)圖片，并一起投入訓(xùn)練。

??

??

9. Pix2pix

2016年度引人注目的文章之一是BAIR的“Image-to-Image Translation with Conditional AdversarialNetworks” 。研究人員解決了由圖像生成圖像的問(wèn)題，比如當(dāng)需要由衛(wèi)星圖像生成地圖或者通過(guò)草圖繪制物體的真實(shí)紋理。

??

??

這是條件GAN的又一個(gè)出色表現(xiàn)的例子。在這個(gè)例子中，條件由整個(gè)圖片決定。圖像分割中的熱門技術(shù)UNet被用來(lái)作為生成器的結(jié)構(gòu)，新提出的PatchGAN分類器被用來(lái)作為鑒別器以防圖像難以區(qū)分。(圖片被分割為N小塊，每一塊的真假分別預(yù)測(cè))

Christopher Hesse做了一個(gè)貓的演示，這個(gè)演示引起了用戶對(duì)Pix2pix的極大興趣。

??

??

10. CycleGAN

為了應(yīng)用Pix2pix，你需要來(lái)自不同領(lǐng)域的對(duì)應(yīng)成對(duì)的圖片數(shù)據(jù)集。比如，在這種情況下，通過(guò)紙牌來(lái)生成這樣的數(shù)據(jù)集并不是件難事兒。然而，如果你想做些更復(fù)雜的，像“改變”圖片中的物體或圖片風(fēng)格，從原則上來(lái)講這樣的數(shù)據(jù)集無(wú)法獲取。

因此，Pix2pix的作者們繼續(xù)深入思考并提出了CycleGAN來(lái)實(shí)現(xiàn)不同領(lǐng)域圖片之間的轉(zhuǎn)換而不需要明確的匹配——“Unpaired Image-to-Image Translation.”

??

??

CycleGAN的思路是訓(xùn)練兩對(duì)生成器-鑒別器來(lái)把圖像從一個(gè)領(lǐng)域轉(zhuǎn)變到另一個(gè)領(lǐng)域再轉(zhuǎn)變回來(lái)，這樣的話需要保證周期一致性——在一系列的轉(zhuǎn)變之后，要得到與原始L1損失相近的圖像。周期損失則是保證生成器轉(zhuǎn)變后的圖片不會(huì)與原始圖片完全不相關(guān)。

??

??

這個(gè)方法能讓你把馬變成斑馬：

??

??

這樣的轉(zhuǎn)變并不穩(wěn)定，經(jīng)常會(huì)出現(xiàn)失敗案例：

11. 腫瘤分子的發(fā)展

機(jī)器學(xué)習(xí)同樣在醫(yī)藥領(lǐng)域大展身手。除了超聲波圖像、核磁共振圖像和診斷識(shí)別外，機(jī)器學(xué)習(xí)還可以用于尋找新的抗癌藥物。

我們?cè)?jīng)報(bào)道過(guò)該研究的詳細(xì)內(nèi)容。簡(jiǎn)單來(lái)說(shuō)就是在對(duì)抗自編碼器(AEE)的幫助下，可以得到分子的潛在表示并用以尋找新的分子?；诖?，已有69種新分子被發(fā)現(xiàn)，約有35種已經(jīng)投入到對(duì)抗癌癥的使用中，其余的分子也擁有巨大潛力。

??

??

12. 對(duì)抗性攻擊

很多學(xué)者都對(duì)對(duì)抗性攻擊這個(gè)主題展開了積極探索。什么是對(duì)抗性攻擊?舉個(gè)例子，在ImageNet上訓(xùn)練得到的標(biāo)準(zhǔn)網(wǎng)絡(luò)在受到特殊噪聲影響的圖片上進(jìn)行分類會(huì)變得十分不穩(wěn)定。在下面的例子中可以看到，人眼觀察到經(jīng)過(guò)噪聲影響的圖像與原始圖像相比基本沒有變化，但是模型卻出現(xiàn)預(yù)測(cè)錯(cuò)誤的問(wèn)題。

??

??

模型的穩(wěn)定通過(guò)FGSM算法已經(jīng)實(shí)現(xiàn)：通過(guò)調(diào)節(jié)模型的參數(shù)，可以朝著期望類別的方向改變一個(gè)或多個(gè)梯度步長(zhǎng)，并且改變?cè)紙D片。

Kaggle上的一個(gè)項(xiàng)目就與此相關(guān)：參賽者需要?jiǎng)?chuàng)造萬(wàn)能的攻擊/防御圖片，最終決出誰(shuí)是最好的。

為什么還應(yīng)該研究攻擊呢?第一，如果我們想要保護(hù)自己的產(chǎn)品，可以在驗(yàn)證碼上添加噪聲來(lái)阻止垃圾信息傳播者自動(dòng)識(shí)別它們。第二，算法逐漸融入到我們的生活中——人臉識(shí)別和自動(dòng)駕駛。這時(shí)候，攻擊者就可以利用算法的弱點(diǎn)了。

下面是一個(gè)特殊眼鏡欺騙人臉識(shí)別系統(tǒng)并“冒充他人”的例子。因此，在訓(xùn)練模型的時(shí)候我們應(yīng)該把可能遭受的攻擊納入考慮范圍內(nèi)。

??

??

這樣處理后的指示牌也是無(wú)法正確識(shí)別的。

??

??

四、強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中最有意思且最有活力的發(fā)展路徑之一。

這種路徑的核心在于學(xué)習(xí)agent的成功行為，而這基于一個(gè)通過(guò)經(jīng)驗(yàn)給予獎(jiǎng)勵(lì)的環(huán)境，就和人類通過(guò)他們的生活學(xué)習(xí)一樣。

??

??

強(qiáng)化學(xué)習(xí)被積極應(yīng)用于游戲、機(jī)器人和系統(tǒng)控制中(比如交通系統(tǒng))

當(dāng)然很多人都已經(jīng)聽說(shuō)“阿法狗”在比賽中戰(zhàn)勝了頂級(jí)的職業(yè)選手。研究人員使用“加強(qiáng)學(xué)習(xí)”訓(xùn)練機(jī)器人，機(jī)器人通過(guò)自己的演練，來(lái)提升自己的策略。

1. 強(qiáng)化訓(xùn)練與不受控制的輔助任務(wù)

在過(guò)去的幾年里，DeepMind已經(jīng)學(xué)會(huì)了使用深度強(qiáng)化學(xué)習(xí)來(lái)玩游戲，甚至比人類玩得更好。目前，算法已經(jīng)學(xué)會(huì)玩更復(fù)雜的游戲，比如Doom。

大部分的注意力集中于加速學(xué)習(xí)，因?yàn)樵谂c環(huán)境的交互作用下，agent的經(jīng)驗(yàn)需要在modern GPUs上進(jìn)行大量訓(xùn)練。

在他的博客中，Deepmind報(bào)告說(shuō)，引入額外的損耗(輔助任務(wù))，比如預(yù)測(cè)幀的變化(像素控制)，使agent更好地理解行為的結(jié)果，從而顯著加快學(xué)習(xí)速度。

在OpenAI中，他們通過(guò)虛擬環(huán)境中的人已經(jīng)積極研究出了agent的培養(yǎng)方式，與現(xiàn)實(shí)生活相比較而言，這對(duì)于實(shí)驗(yàn)來(lái)說(shuō)更安全。

在其中一項(xiàng)研究中，研究小組展示了one-shot learning的可能性:一個(gè)人在虛擬現(xiàn)實(shí)中展示如何執(zhí)行一項(xiàng)特定的任務(wù)，而一個(gè)演示足以讓算法學(xué)會(huì)它，然后在實(shí)際情況下進(jìn)行復(fù)制。

??

??

2. 學(xué)習(xí)人類的偏好

OpenAI和DeepMind都在這個(gè)問(wèn)題上進(jìn)行了研究探索。項(xiàng)目的底線是每一個(gè)agent有一個(gè)任務(wù)，該算法為人提供兩種可能的解決方案，并指出哪一個(gè)更好。這個(gè)過(guò)程迭代重復(fù)，并且從人學(xué)習(xí)如何解決這個(gè)問(wèn)題的過(guò)程中得到900位反饋(二進(jìn)制標(biāo)記)。

??

??

在訓(xùn)練過(guò)程中，有一個(gè)問(wèn)題需要認(rèn)真思考 - 我們正在教給機(jī)器什么。例如，計(jì)算機(jī)決定該算法真的想要獲取這個(gè)對(duì)象，但實(shí)際上，他只是模擬了這個(gè)動(dòng)作。

??

??

3. 在復(fù)雜環(huán)境中的運(yùn)動(dòng)

還有另一項(xiàng)來(lái)自DeepMind的研究。教機(jī)器人復(fù)雜的行為(行走、跳躍等)，甚至做得和人類很相似。你必須大量地參與到損耗功能的選擇中，這將鼓勵(lì)期望的行為。然而，如果算法自己能通過(guò)簡(jiǎn)單的獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)復(fù)雜行為，就更好了。

研究人員成功地做到了這一點(diǎn):他們通過(guò)構(gòu)建一個(gè)帶有障礙物的復(fù)雜環(huán)境以及用簡(jiǎn)單的獎(jiǎng)勵(lì)來(lái)教agent(身體模擬器)完成復(fù)雜的動(dòng)作，促進(jìn)運(yùn)動(dòng)的進(jìn)展。

??

??

五、其它

1. 冷卻數(shù)據(jù)中心

在2017年7月，谷歌宣稱他們利用Deep Mind在機(jī)器學(xué)習(xí)開發(fā)中的優(yōu)勢(shì)成果，來(lái)減少其數(shù)據(jù)中心的能源損耗。

基于來(lái)自數(shù)據(jù)中心的上千個(gè)傳感器所傳遞的信息，谷歌的開發(fā)人員編寫了一個(gè)模型來(lái)預(yù)測(cè)PUE(能源使用效率)以及更高效的數(shù)據(jù)中心管理模式。該項(xiàng)目意義深遠(yuǎn)。

??

??

2. 全能模型

訓(xùn)練模型在任務(wù)與任務(wù)間的轉(zhuǎn)換很差，每一個(gè)任務(wù)都需要特定的模型加以對(duì)應(yīng)，在一篇題為“萬(wàn)能模型”的文章中提到，谷歌大腦的模型在適用的普遍性上已小有成就。

論文鏈接：??https://arxiv.org/abs/1706.05137??

研究人員已經(jīng)編寫了一個(gè)可以在不同領(lǐng)域(文本、語(yǔ)音和圖像)執(zhí)行8個(gè)任務(wù)的模型。例如，翻譯不同的語(yǔ)言，文本解析，圖像和聲音識(shí)別。

??

??

為了實(shí)現(xiàn)這一點(diǎn)他們搭建了一個(gè)復(fù)雜的網(wǎng)絡(luò)架構(gòu)，并利用不同的模塊處理輸入的數(shù)據(jù)和生成的結(jié)果。編碼與解碼的模塊主要有三種類型：卷積、attention、混合專家系統(tǒng)。

??

??

??

??

主要成果:獲得了近乎完美的模型(作者沒有對(duì)超參數(shù)進(jìn)行微調(diào))。

不同領(lǐng)域間的知識(shí)轉(zhuǎn)換，也就是說(shuō)，在擁有充分?jǐn)?shù)據(jù)的項(xiàng)目預(yù)測(cè)中，模型表現(xiàn)很穩(wěn)定。

不同任務(wù)所需要的模塊之間不僅不會(huì)相互干擾而且還會(huì)彼此增益，比如MoE用于 Imagenet 任務(wù)。

順便說(shuō)一下，這個(gè)模型存出現(xiàn)于T2T之中……

3. 一小時(shí)學(xué)習(xí)Imagenet

在他們的帖子里，F(xiàn)acebook的工作人員告訴我們，他們的工程師們僅用一個(gè)小時(shí)內(nèi)就能在Imagenet上教授resnet - 50模型。這需要256個(gè)gpu(特斯拉P100)的集群。

他們使用Gloo和caffe2來(lái)進(jìn)行分布式學(xué)習(xí)。為了使過(guò)程有效，必須要大量的整學(xué)習(xí)策略 (8192個(gè)元素):梯度平均、預(yù)熱階段、特殊學(xué)習(xí)速率等。

因此，當(dāng)從8擴(kuò)展到256 GPU時(shí)，可以達(dá)到90%的效率。現(xiàn)在，來(lái)自Facebook的研究人員可以更快進(jìn)行實(shí)驗(yàn)。

六、新聞

1. 自動(dòng)駕駛汽車

自動(dòng)駕駛汽車領(lǐng)域正在快速發(fā)展，也進(jìn)入了積極的測(cè)試階段。最近行業(yè)內(nèi)的大事件主要有Intel MobilEye的收購(gòu)，Uber和谷歌前雇員盜取技術(shù)的丑聞，使用自動(dòng)駕駛儀造成的第一起死亡事故。

谷歌Waymo正在推出一個(gè)beta程序。谷歌是該領(lǐng)域的先驅(qū)，技術(shù)廣受認(rèn)可，他們的汽車已經(jīng)累計(jì)行駛了超過(guò)300萬(wàn)英里。

最近美國(guó)各州已經(jīng)允許自動(dòng)駕駛汽車運(yùn)行上路了。

2. 醫(yī)療保健

機(jī)械學(xué)習(xí)正在被引入醫(yī)學(xué)。例如，谷歌與醫(yī)療中心合作幫助病患診斷。

??

??

Deepmind甚至建立了一個(gè)獨(dú)立的業(yè)務(wù)單元。

今年，在“Data Science Bowl”的項(xiàng)目下，舉辦了一項(xiàng)獎(jiǎng)金為100萬(wàn)美元競(jìng)賽，競(jìng)賽內(nèi)容是以高清圖像為基礎(chǔ)，對(duì)肺癌一年內(nèi)的發(fā)病率進(jìn)行預(yù)測(cè)。

3. 投資

就像之前大量資本進(jìn)入大數(shù)據(jù)產(chǎn)業(yè)一樣，機(jī)器學(xué)習(xí)也在投資界受到熱捧。

中國(guó)在人工智能領(lǐng)域投資1500億美元，成為該領(lǐng)域的先驅(qū)。

我們看一組對(duì)比數(shù)據(jù)。百度研究院雇傭了1300人，在同領(lǐng)域臉書只雇了80個(gè)。

學(xué)習(xí)“機(jī)器學(xué)習(xí)”永遠(yuǎn)不會(huì)算太晚。無(wú)論如何，隨著時(shí)間的推移，所有開發(fā)人員都將使用機(jī)器學(xué)習(xí)，這將成為一項(xiàng)通用技能，就像今天大家都會(huì)使用數(shù)據(jù)庫(kù)一樣。

原文鏈接：https://blog.statsbot.co/deep-learning-achievements-4c563e034257

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文，微信公眾號(hào)“大數(shù)據(jù)文摘（ id: BigDataDigest）”】

??

??

??戳這里，看該作者更多好文??

責(zé)任編輯：趙寧寧來(lái)源： 51CTO專欄

AI 強(qiáng)化學(xué)習(xí)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="ohwro"><p id="ohwro"></p></blockquote>

<blockquote id="ohwro"></blockquote>