自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="6cqps"></tfoot>

<dfn id="6cqps"></dfn>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

騰訊優(yōu)圖：視覺AI到底發(fā)展到了什么地步？

作者：賈佳亞 2017-09-22 14:18:07

隨著 AI 的發(fā)展，計算機視覺技術(shù)逐漸擁有了更廣泛的應(yīng)用，人臉識別，物體檢測等等技術(shù)更是在安防、無人車等領(lǐng)域起著至關(guān)重要的作用。

隨著 AI 的發(fā)展，計算機視覺技術(shù)逐漸擁有了更廣泛的應(yīng)用，人臉識別，物體檢測等等技術(shù)更是在安防、無人車等領(lǐng)域起著至關(guān)重要的作用。來自騰訊優(yōu)圖實驗室的杰出科學(xué)家賈佳亞先生在 2017 年 6 月 21 日中國深圳“云 + 未來”峰會上發(fā)表了關(guān)于 AI 視覺技術(shù)的演講，為聽眾展示了優(yōu)圖實驗室先進的AI視覺系統(tǒng)。以下為演講內(nèi)容

AI 這個詞從進入大家的視野到變得巷聞皆知才用了兩年時間，所以 AI 在這個時間發(fā)展過程中有點像突然發(fā)現(xiàn)的東西，用什么來比喻它?我會用哈利波特的隱形斗篷來比喻它，這個隱星斗篷就是當(dāng)你穿上它的時候，你會發(fā)現(xiàn)空無一人，但是你把隱形斗篷取下來，你發(fā)現(xiàn)原來里面躲了一個龐然大物。

其實 AI 視覺技術(shù)就是這樣一個過程，AI 的發(fā)展從最開始到現(xiàn)在經(jīng)歷了幾十年的發(fā)展，所以到今天這個規(guī)模絕對不是一朝一夕能夠形成的。所以我從隱性斗篷的例子來從頭看看到底怎么理解 AI 技術(shù)。

我們在很多的小說、電影、科幻讀物里都有很多擬人化的機器人或者產(chǎn)物，其中有四個最重要的功能，第一是看，第二是聽，第三是說，第四是動。當(dāng)然不是所有東西都會動，但如果這是一個超級的智能產(chǎn)物一定會控制其他東西在動，自己不用動。當(dāng)我今天想跟大家介紹 AI 的時候，我會專注在一個方向上，那就是看。為什么我們要去講看這件事?我覺得還要從自然智能理解起。

自然智能不是 AI 智能的對立面，但是卻是反方面的詞。人工智能是人創(chuàng)造的，自然智能是從遠古時代演化到現(xiàn)在的，我們從自然智能里學(xué)到很多東西，比如說看到自然智能的時候，我會想，我們有非常多的視網(wǎng)膜神經(jīng)細胞，有柱狀和椎裝細胞但是我們有超過 40 億以上的神經(jīng)元會處理我們的視覺信息，相比之下，我們的觸覺和聽覺可能只有 8% 和 3% 的比例，這說明什么?說明我們這個世界太復(fù)雜了，當(dāng)我們從第一天人類開始去理解這個世界的時候，我們就有足夠多的神經(jīng)元或者處理單元去理解這個世界，所以“看”是我們理解這個世界最重要的部分。

我們做到了什么?

視覺的 AI 可以運用在很多的游戲里面，比如說體感游戲或者是增強現(xiàn)實游戲，滿大街去找小精靈的游戲就是重要的體現(xiàn)。除了視覺娛樂之外還有很大用處，比如解決在監(jiān)控、安防或者需要大量人手去觀察視頻和圖像的分為之內(nèi)，我們從幾百人減成幾個人，這也是視覺 AI 發(fā)揮的作用。

騰訊是一個非常大的社交網(wǎng)絡(luò)公司，里面有各種各樣的媒體或者軟件幫大家做交流，比如我有一個好的照片想給大家看看，是不是能夠達到把人年輕十歲的效果呢?這個事情是可以做到了，甚至于如果想把自己變一個性別，從男生變成女生，那也很容易，甚至不用去醫(yī)院了。這是在相冊上或者是在手機端產(chǎn)生的變化，除此之外還有兩塊非常大的部分，一個是智能醫(yī)療，如何能夠讓一個機器智能讀懂所有醫(yī)療的片，比如說 CT 片、MRI 片，這是非常重要的部分。還有自動駕駛，我們能不能輔助駕駛、自動駕駛的功能加入在視覺 AI 里面。

這些 AI 的技術(shù)代表在這個領(lǐng)域飛速發(fā)展的進程，但是與此同時，在不同的途徑、不同的視頻或者不同的專家給大家介紹各種方法的時候會說，我們的技術(shù)已經(jīng)做到多么強、多么好，我在這里更希望通過科學(xué)家的角度跟大家介紹，我們的視覺 AI 角度到底發(fā)展到什么地步。

首先可以超過 1000 個類別的上億張圖像的分類理解。

當(dāng)我有一張圖像的時候，人和機器都可以告訴你這張圖像是什么，這是一頭牛還是一朵花，有的時候你可以想象機器甚至做得比人更出色，我三歲的女兒經(jīng)常跟我說，爸爸，我看到那邊有非常漂亮的蝴蝶。我就糾正她，寶貝，那不是蝴蝶，那是蛾子。但是我的寶貝說，這個蛾子比蝴蝶還漂亮，肯定是蝴蝶。

說明我們在圖像理解上有一個過程，我需要理解它的含義得到一個結(jié)果，但是在機器學(xué)習(xí)的時候，甚至可以達到比成年人更高的境界，我們可以細分到山丘、山陵的區(qū)別，而超越人的理解?？茖W(xué)家已經(jīng)不滿足于這個問題，這個問題被認為已經(jīng)在這個領(lǐng)域解決，下一個要解決的是檢測問題。當(dāng)我們有一張圖，我希望不但知道這個圖的整體表達是什么，還要知道這個圖里哪個地方是車，哪個地方是路面，哪個地方是人，這是檢測過程。由于現(xiàn)在有強大的計算資源和計算能力，我們可以超過五億個品種的檢測，這是視覺 AI 的另外一個可以達到的目標(biāo)。

除此之外，科學(xué)家們想，當(dāng)我們能檢測到一些物體的時候，能不能把細致度做得更深?比如說顆粒度更深的每個像素、每個點，我是不是能知道這個點是屬于馬路的，屬于人還是屬于車的，這是遠遠超越于之前問題的更加進一步的推廣問題。所以我們管它叫做語義分割，現(xiàn)在可以超過總數(shù)四千億像素級別的多圖圖像分割，這是這幾年整個領(lǐng)域產(chǎn)生的巨大推進作用和研究成果，能夠達到的效果。除此之外更加熟悉的是對人臉的匹配查詢，可以超過一億張人臉匹配查詢，找到你想要的人，你問問自己，能不能認識一億個人?認識一百個人，我就很開心了，這在電腦上是遠遠超越了人。

在之前五到十年的時候，我在學(xué)校的團隊還會做一些有意思的研究：我們當(dāng)時想，如果看到這樣一張模糊的圖片你會做什么事情?你看到一張模糊圖像會做什么事情?可能大家要做的就是把它刪除，為什么?因為這張圖片模糊了，已經(jīng)沒有用了，但是對我們科學(xué)家而言，是非常珍貴的資源，因為通過這張圖像我們發(fā)掘出一些人類看不到的東西。

為大家舉一個有趣的例子，比如在這張圖像里，我們是在一個高速行進的車上，周圍的環(huán)境是容易被模糊的，當(dāng)我們理解環(huán)境的時候你發(fā)現(xiàn)，車牌或者路標(biāo)已經(jīng)被模糊掉，在這張圖上，在這個圖標(biāo)上看著公路的信息，但是左邊小的是什么東西?左邊路牌上的數(shù)字是什么東西呢?之前大學(xué)里的團隊經(jīng)過五到十年的研究，把這些信息充分理解出來，最后通過我們的技術(shù)手段，能夠看到最后這是在美國 101 公路上的場景，我們可以超越人類的圖像模糊。

還有一個東西，我們希望十年之后出現(xiàn)家具機器人，什么叫家具機器人?就是你希望他能幫你洗衣服、洗碗、做飯，甚至帶孩子，但是要達到這個智能機器人，怎么樣才能做到這一步?其中重要的就是如何把自然語言和自然圖像結(jié)合起來，也就是兩者的充分結(jié)合。所以我們在之前有一系列的研究，是當(dāng)你看到一張圖像的時候，我的人來問一個問題，是什么放在了這個工作間的臺子上，電腦看到通過你這句話，分析是什么意思，然后再去尋找在這張圖像上是問了什么問題，最后把圖像上重要的位置找到之后反饋回來，得到一個結(jié)果，這個結(jié)果就是船，這就是說這個答案是對的。

這個說明現(xiàn)在電腦可以結(jié)合自然語言，我說的話和看到的場景可以結(jié)合起來，這是一個非常了不起的進步。正是因為有這個進步，我相信令到家具機器人的理想在十年之內(nèi)能夠變?yōu)楝F(xiàn)實。

我們還可以做到什么?

可能有講座介紹說，幸虧 AI 達到的程度還沒有人那么高，因為人會創(chuàng)造，AI 不會創(chuàng)造。我想跟大家說，其實這句話是不對的，電腦也會創(chuàng)造，而且創(chuàng)造出來的種類和試樣，很多時候是讓我們驚嘆的，在以往知識庫里是找不到這些模組的，這就是創(chuàng)造的功能，視覺 AI 已經(jīng)可以實現(xiàn)創(chuàng)造。

比如看這兩幅圖，看在座各位認為右邊這張圖是電腦畫的?真理永遠掌握在少數(shù)人手里，右邊這張圖確實是電腦畫的，電腦用鉛筆畫出了整體輪廓的表達、陰影的表達，達到了非常高的層次，人類需要長期訓(xùn)練才能畫出，但是我們畫出這張圖只用了 0.1 秒，就是它的創(chuàng)造過程，這是非常有趣的事情。

我大學(xué)的團隊在去年為了去理解這個非常復(fù)雜的場景，創(chuàng)造了全世界最像素級的分割技術(shù)，做場景理解分析。

這個例子可以看到車是一個顏色，因為我識別出來這是車，所以是藍色，旁邊的樹，我識別出是樹，所以標(biāo)成綠色。我們在去年實現(xiàn)了在大規(guī)模場景的多復(fù)雜環(huán)境下的內(nèi)容分析，這是去年做的事情。今年我們不滿足這樣一個結(jié)果，我說我們還能做什么?然后我的團隊開始在今年做了另外一件讓大家激動的事情，我們實現(xiàn)了到迄今為止最準(zhǔn)確的道路上的像素級語義分割技術(shù)，在已知的論文里面，我們這個技術(shù)遠遠高出第二名，直接到每秒 30 偵的運算速度，沒有改變?nèi)魏蔚挠布Y源，我們加速了一百倍。

AI 視覺技術(shù)的社會價值除了我剛才跟大家講的商業(yè)價值或者學(xué)術(shù)價值之外，我今天還有另外一個內(nèi)容。我想跟大家講講優(yōu)圖 AI 所產(chǎn)生的社會價值。有一個優(yōu)圖跟騰訊的公益部門以及騰訊云、騰訊互聯(lián)網(wǎng) + 的部門合作，我們開創(chuàng)了一個新的活動，這個活動叫做天眼。

大家有沒有看過這部《親愛的》?講述的就是現(xiàn)在有很多很多的家庭，家里的孩子被拐賣走失，這些父母組成了一個團體，他們希望通過這個團體找尋自己的孩子，這就是 2014 年這部電影上映反映的嚴重現(xiàn)實，孩子的丟失也許是社會的一小部分現(xiàn)象，但是這個現(xiàn)象確實是存在的。所以可以想像，在這樣一個環(huán)境下，可以有一個大概的估計，但是現(xiàn)在走失的現(xiàn)象在統(tǒng)計意義上而言非常巨大，每個城市這樣的現(xiàn)象很少，但是因為中國人口多，在這么大的中國人口的基數(shù)上，我們能夠把這個比例一點點的上升，這也是我們能貢獻的力量。雖然我們有了各種各樣的途徑，有微博打拐，有大家貢獻的力量來找尋，但是貢獻率依然是 0。

2015 年，優(yōu)圖團隊跟騰訊公益部門和騰訊云和騰訊互聯(lián)網(wǎng) + 的單位一起開始加入了“天眼”計劃，希望通過優(yōu)圖的技術(shù)積累，幫助社會實現(xiàn)社會價值，而不僅僅是商業(yè)價值，因為這對我們而言是一件相對比較容易的事情，但是社會價值如何體現(xiàn)在 AI 上?

于是我們加入了這個公益計劃，當(dāng)時在上海的小伙伴們拿到這個計劃的時候非常興奮，他們覺得終于有一天，他們坐在電腦前面也可以像蜘蛛俠一樣出去救人。他們做了很多評測，發(fā)現(xiàn)我們在人臉識別率上只有 40%，這個數(shù)字讓我們的小伙伴非常驚訝，發(fā)現(xiàn)原來問題這么難，不是我們拿到一張圖做一個尋人就可以把人找回來。主要有以下三點困難：

第一個是場景

我們有非常復(fù)雜的場景，有城市，有農(nóng)村，有山林，有不同區(qū)域，甚至當(dāng)我找回這樣一個失蹤人口的時候，他的發(fā)型、衣著、輪廓改變都是復(fù)雜因素。

第二是年齡

很多的失蹤人口找回來的時候，他們可能在外面已經(jīng)漂流了幾年的時間甚至十年時間，這是一個非常長的時間段，所以從我們的面容上看，他們改變了很多，從輪廓、皺紋、皮膚的粗糙程度，這都是對我們實用算法是非常大的挑戰(zhàn)。

第三需要具備有億級人臉的檢索能力

當(dāng)我拿到一張檢索照片的時候，是不是能夠通過實時尋找對比，找到這個人出來。

這三大挑戰(zhàn)是我當(dāng)時面對的，但是好在我們優(yōu)圖的小伙伴們并沒有放棄，他們覺得這件事情既然做了就要做到底，而且要做好。所以我們在經(jīng)歷一系列的，超過一年多的研究，把 Megaface 的準(zhǔn)確率從 40% 提升到 83.29%，這代表了我們可以在億級人臉檢索上達到毫秒的速度，把成功率從之前的不到 50% 提高到 99%。我們立項之后，在短短三個月時間之內(nèi)，就開始用在福建省公安一起合作，做了網(wǎng)上在線系統(tǒng)找回人群。

2017 年 3 月份的時候，福建省公安廳接到一個群眾電話，他們在小學(xué)邊上找到一個老奶奶，神智不清語言也不通，把他接到公安局以后，通過我們的線上人臉比對系統(tǒng)，發(fā)現(xiàn)可能是這個奶奶失蹤了，最后我們發(fā)現(xiàn)，家人為了防止她走失，在公安系統(tǒng)已經(jīng)把她掛上號，最后通過這個系統(tǒng)把這個老人找了回來。

我們上線這個系統(tǒng)短短三個月時間，在整個福建省公安部門的幫助下，實現(xiàn)了找回人數(shù)超過 120 人，才三個月時間。這樣的成效是高過以往通過群眾電話，再去通過大海撈針式的訪問拿到結(jié)果的過程，所以整個福建系統(tǒng)“牽掛你”是有一個過程的，我們發(fā)上名單照片，通過群眾找到某一個人群的時候，拍張照片，最后在數(shù)據(jù)庫里做比對，然后把這個人找回來，這樣成功的案例已經(jīng)超過一百起，這是非常振奮人心的，而且也是很有意義的。

除此之外，我們希望技術(shù)不僅僅是幫到這樣一些走失的人，我們甚至可以走得更廣一點，所以我們這幾年做了一個“萬象鑒黃”的全球兒童網(wǎng)絡(luò)保護行動，整個優(yōu)圖團隊開始貢獻對成人圖片的檢測，我們發(fā)現(xiàn)準(zhǔn)確率在大部分上線系統(tǒng)上可以超過 99%，也就是可以實現(xiàn)對兒童在網(wǎng)絡(luò)上的保護，防止這些兒童受到欺凌欺騙，這樣的事情是我們團隊的小伙伴最愿意做的事情之一。

結(jié)語

AI 就是一種工具，AI 的出現(xiàn)可能會令一些人失去自己的工作，但是 AI 確實便利了我們這個社會，使得我們這個社會更加容易和諧，做得更好。當(dāng)我們發(fā)現(xiàn)一些不好的事實的時候，AI 這個系統(tǒng)能夠準(zhǔn)確判別，打擊犯罪，這是一種工具，就像是一把刀一樣，你切菜是好的工具，但是傷害人的時候是一個壞的工具。AI 無所謂好和壞，但是好的部分需要我們?nèi)ズ霌P，發(fā)光廣大。最后我想說，每一個技術(shù)人員雖然都坐在電腦前面，大家都認為我們是電腦高手，但是我們每個人都有一顆蜘蛛俠的心，我們希望自己有一天不上街也能夠幫助人們，打擊犯罪。

責(zé)任編輯：龐桂玉來源： AI前線

AI 視覺技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="s9imy"><track id="s9imy"></track></legend>

<pre id="s9imy"><samp id="s9imy"></samp></pre>