自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI是萬能的嗎？當(dāng)前AI仍面臨的難題是什么

作者：專注技術(shù)分享 2018-08-14 20:00:15

談到人工智能（特別是計算機視覺領(lǐng)域），大家關(guān)注的都是這一領(lǐng)域不斷取得的進步，然而人工智能到底發(fā)展到什么程度了？AI 已經(jīng)成為萬能的了嗎？Heuritech 的 CTO Charles Ollion 希望通過他的文章可以揭露一些當(dāng)前的真實情況。接下來就讓我們一起看看這位作者都談了什么內(nèi)容吧！

【導(dǎo)讀】談到人工智能（特別是計算機視覺領(lǐng)域），大家關(guān)注的都是這一領(lǐng)域不斷取得的進步，然而人工智能到底發(fā)展到什么程度了？AI 已經(jīng)成為***的了嗎？Heuritech 的 CTO Charles Ollion 希望通過他的文章可以揭露一些當(dāng)前的真實情況。接下來就讓我們一起看看這位作者都談了什么內(nèi)容吧！

作者基于 Xkcd 的漫畫改編

最近，我讀了 Pete Warden 的一篇文章，這篇文章介紹了一種可以辨別植物疾病的分類器。在辨別病害類型方面，這個分類器的精確度要比人類肉眼辨別的精確度高的多。但是，這個分類器在面對一張隨機不含有植物的圖片時會給出一個非常驚人的錯誤結(jié)果（如下圖所示：左圖展現(xiàn)了分類器在真實植物上檢測病害類型的良好效果；而右圖，在指向計算機鍵盤時，一張隨機的非植物圖片，分類器仍會認為這是一種受損的作物）。然而這個錯誤，卻不會發(fā)生在人類身上。

（來源：Pete Warden's blog —— What Image Classifiers Can Do About Unknown Objects）

上面的舉例說明，計算機視覺系統(tǒng)的能力仍有別于人類的智力，下面我想通過一道測試題來進一步證明這一觀點：

你知道當(dāng)前人工智能系統(tǒng)最擅長做什么嗎？

下面有五個不同的計算機視覺問題，通過給出的輸入與得到的輸出結(jié)果，試著猜一下哪類問題是計算機視覺系統(tǒng)最容易解決的？哪類問題是非常困難的？

1.檢測糖尿病性視網(wǎng)膜病變

輸入：有約束的視網(wǎng)膜圖片

輸出：5個類別（健康型以及處于不同階段與形式的病變狀態(tài)）

糖尿病性視網(wǎng)膜病變，一種影響到眼睛的糖尿病并發(fā)癥

來源：https://ai.googleblog.com/2016/11/deep-learning-for-detection-of-diabetic.html

2.攝像頭手勢識別

輸入：由攝像頭拍攝的一系列短視頻

輸出：25種動作中可能性***的一種

（注：TwentyBN 現(xiàn)已發(fā)布了更豐富的數(shù)據(jù)集）

來源：TwentyBN

來源：https://medium.com/twentybn/building-a-gesture-recognition-system-using-deep-learning-video-d24f13053a1

3.識別 Instagram 圖片里的手提包

輸入：Instagram 上的圖片

輸出：圈出圖片里的手提包

4.識別行人

輸入：由固定攝像機拍攝的圖片

輸出：圈出圖中所有的行人

5.機器人抓取物體

輸入：由固定攝像機拍攝的兩張圖

輸出：機器人控制策略

左圖為待抓取的物體，機器人上裝有一臺固定攝像機來學(xué)習(xí)如何抓取物體

來源：https://ai.googleblog.com/2017/10/closing-simulation-to-reality-gap-for.html

然而真相是？

糖尿病性視網(wǎng)膜病變：這類識別器是容易實現(xiàn)的，因為輸入和輸出都是有約束的（谷歌在他們的報道中聲明已經(jīng)實現(xiàn)并有良好表現(xiàn)了）。但當(dāng)把這一系統(tǒng)投入到實際應(yīng)用時，困難出現(xiàn)了。用戶的體驗以及系統(tǒng)與醫(yī)生的配合是關(guān)鍵問題，因為對不同類型結(jié)果的判定可能會有失偏頗。
攝像頭手勢識別：這個問題相對來說很好定義，但多變性增加了它的難度：這些由攝像頭拍攝的視頻中，人們的距離不同，手勢持續(xù)時間不同，等等... 此外，在對視頻資料進行分析訓(xùn)練時，隨之產(chǎn)生的還有諸多的工程問題。不得不說這個問題是非常困難的，但已經(jīng)得到了解決。
識別 Instagram 圖片里的手提包：這個問題看起來似乎很容易解決，但輸入的圖片是沒有約束的，而且類別的定義也非常廣（手提包有很多種形態(tài)，沒有一個明確的視覺模式，因此很有可能被識別成很多其它物體）。這使得問題變的非常困難，看看下面圖就明白了。

由經(jīng)過手提包識別訓(xùn)練的模型給出的識別結(jié)果

我們的訓(xùn)練數(shù)據(jù)中沒有“斧子”的圖片作為反例，而斧子的頭部和模型學(xué)習(xí)過的手提包的圖像非常相似。它是褐色的，有著手提包的形狀和大小，而且被握在手里。

然后我們就這樣放棄了嗎？不，我們可以通過主動學(xué)習(xí)來解決這個問題，即對模型給出的錯誤判斷進行標(biāo)記，然后把這些錯誤例子反饋給模型繼續(xù)訓(xùn)練。但憑借現(xiàn)有的技術(shù)來說，想像 Instagram 中的圖片，如此開放的領(lǐng)域上達到***的效果，仍然是一項巨大的挑戰(zhàn)。

對于我們?nèi)祟悂碇v，關(guān)于糖尿病相關(guān)的工作很難，但辨認斧子和手提包卻很容易，這主要原因是斧子對我們來說是一種極為普遍的存在，一種大家都知道的常識，并且這些內(nèi)容超出了輸入到系統(tǒng)數(shù)據(jù)的范圍。

識別攝像頭中的行人：這類問題很簡單：輸入非常受限（固定攝像機），而且類別（行人）也很標(biāo)準?？赡軙嬖谀繕?biāo)被遮擋等相關(guān)問題，但總體來說這個問題很容易就可以解決。不過，如果對這個問題稍作改動，就會變得困難很多：如攝像機是移動的；或從不同方位、角度、范圍進行拍攝 —— 這個問題就變得更開放且棘手了。
機器人抓取物體：這個問題是極其困難的。它超出了標(biāo)準分類和回歸問題的范圍，因為輸出是控制機器人的策略，通常使用強化學(xué)習(xí)來進行訓(xùn)練，與有監(jiān)督學(xué)習(xí)相比，這種學(xué)習(xí)方法還不太成熟。此外，對象在大小、形狀和抓取的方式上都會有所不同，可能還要借助語義的理解。但是這個問題可以由一個2歲的小孩子輕易解決（即使沒有固定攝像頭、背景完全相同這些設(shè)定），但對我們來說，讓人工智能做這件事還有很長的路要走。

作者聲明：如果不同意我給出的答案，我很樂于和大家討論，因為在這個領(lǐng)域要學(xué)的知識很多，我不認為我知道所有問題的答案。

對計算機視覺與人工智能的期望

對計算機視覺系統(tǒng)和我們?nèi)祟悂碚f，“難度”這個概念是有很大不同的，這一點很容易引導(dǎo)我們對人工智能產(chǎn)生錯誤的期望。工程師和科研人員不得不從現(xiàn)實出發(fā)來對待人工智能系統(tǒng)在開放域的表現(xiàn)。

當(dāng)前我們在對人工智能系統(tǒng)發(fā)展情況的理解上也還存在很多問題。以自動化駕駛為例：在有約束（例如：高速公路）下駕駛與無約束（如：市區(qū)、小路... ...）下對駕駛存在著極大的區(qū)別。如今大多數(shù)企業(yè)都基于在沒有司機操控下，通過自動駕駛汽車所行駛的里程數(shù)來對自動化駕駛水平進行評估。這也促使了測試者更樂于把汽車放到容易駕駛的環(huán)境里，但其實我們更應(yīng)該做的是建立一些指標(biāo)，重點關(guān)注擴大自動化駕駛汽車正常駕駛的范圍。

更概括地來講，我認為我們不應(yīng)該再說什么“計算機視覺已經(jīng)實現(xiàn)了。”這樣的話了。如果我們有足夠多已經(jīng)標(biāo)記了的數(shù)據(jù)和有約束的類別，小范圍內(nèi)的問題可能已經(jīng)解決了。但若將世界范圍的常識知識引入計算機視覺系統(tǒng)，這仍然是一個巨大的挑戰(zhàn)。

ClevR，用于組合式語言和初級視覺推理的診斷數(shù)據(jù)集

其實現(xiàn)在很多的研究人員已經(jīng)開始在進行這方面的研究了，也有一些研究領(lǐng)域正在蓬勃的發(fā)展著，例如：視覺推理、物理發(fā)現(xiàn)法則、通過無監(jiān)督/自我監(jiān)督進行表征學(xué)習(xí)等。AI 科技大本營在文末給大家列出了相關(guān)的研究文章，方便大家學(xué)習(xí)。

鑒于我對計算機視覺的研究與發(fā)展了解多一些，上述都是我關(guān)于這方面的一些看法，但我相信同樣的理由也可以應(yīng)用到其它機器學(xué)習(xí)問題上，特別是關(guān)于 NLP 應(yīng)用深度學(xué)習(xí)與機器學(xué)習(xí)的研究領(lǐng)域。

看了作者的一些看法，也歡迎大家在 AI 科技大本營后臺留言，和大家一起交流自己的看法~

原文鏈接：

https://medium.com/@CharlesOllion/whats-easy-hard-in-ai-computer-vision-these-days-e7679b9f7db7

參考閱讀：

A diagnostic dataset for compositional language and elementary visual reasoning

https://arxiv.org/abs/1612.06890

Discovering Causal Signals in Images

http://openaccess.thecvf.com/content_cvpr_2017/papers/Lopez-Paz_Discovering_Causal_Signals_CVPR_2017_paper.pdf

Interaction Networks for Learning about Objects, Relations and Physics

http://papers.nips.cc/paper/6417-interaction-networks-for-learning-about-objects-relations-and-physics

Iterative Visual Reasoning Beyond Convolutions

https://arxiv.org/abs/1803.11189

Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

https://arxiv.org/pdf/1603.09246.pdf

World Models

https://arxiv.org/pdf/1803.10122.pdf

責(zé)任編輯：龐桂玉來源： AI科技大本營

人工智能 AI 機器人

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="jcnhy"><p id="jcnhy"></p></sub>

<sub id="jcnhy"><rt id="jcnhy"></rt></sub>

<blockquote id="jcnhy"></blockquote>

<style id="jcnhy"></style>

<sub id="jcnhy"><i id="jcnhy"></i></sub>