是什么讓深度學(xué)習(xí)能夠深入世界并改變世界?
還記得孩提時代,你是如何開始學(xué)習(xí)辨認(rèn)水果、動物、汽車以及其他事物的嗎?
多年來,我們的大腦接受訓(xùn)練,識別這些圖像,然后將它們進(jìn)一步劃分為蘋果、桔子、香蕉、貓、狗和馬。除了學(xué)習(xí)辨認(rèn)食物和動物,我們還學(xué)習(xí)了品牌和它們的區(qū)別:豐田、本田、寶馬等等。
受人類大腦的生物學(xué)習(xí)過程的啟發(fā),科學(xué)家們研究出了人工神經(jīng)網(wǎng)絡(luò)(ANN)。“深度學(xué)習(xí)”指的是由許多層網(wǎng)絡(luò)層組成的人工神經(jīng)網(wǎng)絡(luò)。它是機(jī)器學(xué)習(xí)中發(fā)展最快的領(lǐng)域。它使用包括多層網(wǎng)絡(luò)層的深層神經(jīng)網(wǎng)絡(luò)(DNN)來學(xué)習(xí)表征和抽象,從而理解圖像、聲音和文本等數(shù)據(jù)。
那么深度神經(jīng)網(wǎng)絡(luò)到底深到什么程度呢?
為什么深度學(xué)習(xí)被稱為“深度”學(xué)習(xí)?這是因為這些ANN網(wǎng)絡(luò)的結(jié)構(gòu)。幾十年前,神經(jīng)網(wǎng)絡(luò)的深度只有兩層,這是因為計算能力不足,無法構(gòu)建更大的網(wǎng)絡(luò)。而現(xiàn)在,10層以上或者100層以上的神經(jīng)網(wǎng)絡(luò)都是存在的。
在深度學(xué)習(xí)中使用多層網(wǎng)絡(luò)層,機(jī)器現(xiàn)在有能力去觀察、學(xué)習(xí)和應(yīng)對復(fù)雜的情況,有時甚至比人類做的更好。
通常情況下,數(shù)據(jù)科學(xué)家會花大量的時間在數(shù)據(jù)的準(zhǔn)備過程上,特征提取或變量選擇(選擇對預(yù)測分析有用的變量)。深度學(xué)習(xí)能自動完成這項工作,讓生活更輕松。
為了促進(jìn)深度學(xué)習(xí)的發(fā)展,許多科技公司開放了他們的深度學(xué)習(xí)研究資源,比如谷歌的Tensorflow和Facebook的開源模塊Torch。亞馬遜在GitHub上發(fā)布了DSSTNE,而微軟也在GitHub上發(fā)布了其開源深度學(xué)習(xí)工具包CNTK。
因此,今天我們看到了很多關(guān)于深度學(xué)習(xí)的例子,包括:
谷歌翻譯使用深度學(xué)習(xí)和圖像識別來翻譯語音和書面語言
CamFind使用移動視覺搜索技術(shù)來告訴你圖片中的內(nèi)容,你只需拍下物體的圖片,無需打字,CamFind提供了快速、準(zhǔn)確的結(jié)果。
目前,Siri、Cortana、Alexa和Google等所有的智能語音助手都在使用深度學(xué)習(xí)來進(jìn)行自然語言處理和語音識別。
亞馬遜、Netflix和Spotify在他們的推薦引擎中也使用了深度學(xué)習(xí),機(jī)器為你推薦為下一部***影片、電影或音樂。
谷歌 PlaNet 可以查看照片,并告訴用戶照片拍攝的地點(diǎn)。
DCGAN 用于增強(qiáng)和補(bǔ)充人臉圖像。
DeepStereo:將街景拍攝的靜態(tài)圖像轉(zhuǎn)換為3D空間,通過計算每個像素的深度和顏色,可以從不同的角度顯示出不同的視角。
DeepMind的 WaveNet 能夠模仿人類聲音來生成語音,且生成的語音比現(xiàn)有的文本語音轉(zhuǎn)換系統(tǒng)更自然。
Paypal 正在利用深度學(xué)習(xí)來防止支付詐騙。
到目前為止,深度學(xué)習(xí)幫助了圖像分類、語言翻譯、語音識別,并且可以用來解決模式識別問題。毫無疑問,這是一種顛覆性的數(shù)字技術(shù),越來越多的公司正在使用這種技術(shù)來創(chuàng)造新的商業(yè)模式。