自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊優(yōu)圖:視覺AI到底發(fā)展到了什么地步?

人工智能
隨著 AI 的發(fā)展,計算機視覺技術(shù)逐漸擁有了更廣泛的應(yīng)用,人臉識別,物體檢測等等技術(shù)更是在安防、無人車等領(lǐng)域起著至關(guān)重要的作用。

[[204589]]

隨著 AI 的發(fā)展,計算機視覺技術(shù)逐漸擁有了更廣泛的應(yīng)用,人臉識別,物體檢測等等技術(shù)更是在安防、無人車等領(lǐng)域起著至關(guān)重要的作用。來自騰訊優(yōu)圖實驗室的杰出科學(xué)家賈佳亞先生在 2017 年 6 月 21 日中國深圳“云 + 未來”峰會上發(fā)表了關(guān)于 AI 視覺技術(shù)的演講,為聽眾展示了優(yōu)圖實驗室先進的AI視覺系統(tǒng)。 以下為演講內(nèi)容

AI 這個詞從進入大家的視野到變得巷聞皆知才用了兩年時間,所以 AI 在這個時間發(fā)展過程中有點像突然發(fā)現(xiàn)的東西,用什么來比喻它?我會用哈利波特的隱形斗篷來比喻它,這個隱星斗篷就是當(dāng)你穿上它的時候,你會發(fā)現(xiàn)空無一人,但是你把隱形斗篷取下來,你發(fā)現(xiàn)原來里面躲了一個龐然大物。

[[204590]] 

其實 AI 視覺技術(shù)就是這樣一個過程,AI 的發(fā)展從最開始到現(xiàn)在經(jīng)歷了幾十年的發(fā)展,所以到今天這個規(guī)模絕對不是一朝一夕能夠形成的。所以我從隱性斗篷的例子來從頭看看到底怎么理解 AI 技術(shù)。

我們在很多的小說、電影、科幻讀物里都有很多擬人化的機器人或者產(chǎn)物,其中有四個最重要的功能,第一是看,第二是聽,第三是說,第四是動。當(dāng)然不是所有東西都會動,但如果這是一個超級的智能產(chǎn)物一定會控制其他東西在動,自己不用動。當(dāng)我今天想跟大家介紹 AI 的時候,我會專注在一個方向上,那就是看。為什么我們要去講看這件事?我覺得還要從自然智能理解起。 

 

自然智能不是 AI 智能的對立面,但是卻是反方面的詞。人工智能是人創(chuàng)造的,自然智能是從遠古時代演化到現(xiàn)在的,我們從自然智能里學(xué)到很多東西,比如說看到自然智能的時候,我會想,我們有非常多的視網(wǎng)膜神經(jīng)細胞,有柱狀和椎裝細胞但是我們有超過 40 億以上的神經(jīng)元會處理我們的視覺信息,相比之下,我們的觸覺和聽覺可能只有 8% 和 3% 的比例,這說明什么?說明我們這個世界太復(fù)雜了,當(dāng)我們從第一天人類開始去理解這個世界的時候,我們就有足夠多的神經(jīng)元或者處理單元去理解這個世界,所以“看”是我們理解這個世界最重要的部分。

我們做到了什么?

視覺的 AI 可以運用在很多的游戲里面,比如說體感游戲或者是增強現(xiàn)實游戲,滿大街去找小精靈的游戲就是重要的體現(xiàn)。除了視覺娛樂之外還有很大用處,比如解決在監(jiān)控、安防或者需要大量人手去觀察視頻和圖像的分為之內(nèi),我們從幾百人減成幾個人,這也是視覺 AI 發(fā)揮的作用。

[[204591]] 

騰訊是一個非常大的社交網(wǎng)絡(luò)公司,里面有各種各樣的媒體或者軟件幫大家做交流,比如我有一個好的照片想給大家看看,是不是能夠達到把人年輕十歲的效果呢?這個事情是可以做到了,甚至于如果想把自己變一個性別,從男生變成女生,那也很容易,甚至不用去醫(yī)院了。這是在相冊上或者是在手機端產(chǎn)生的變化,除此之外還有兩塊非常大的部分,一個是智能醫(yī)療,如何能夠讓一個機器智能讀懂所有醫(yī)療的片,比如說 CT 片、MRI 片,這是非常重要的部分。還有自動駕駛,我們能不能輔助駕駛、自動駕駛的功能加入在視覺 AI 里面。

這些 AI 的技術(shù)代表在這個領(lǐng)域飛速發(fā)展的進程,但是與此同時,在不同的途徑、不同的視頻或者不同的專家給大家介紹各種方法的時候會說,我們的技術(shù)已經(jīng)做到多么強、多么好,我在這里更希望通過科學(xué)家的角度跟大家介紹,我們的視覺 AI 角度到底發(fā)展到什么地步。

首先可以超過 1000 個類別的上億張圖像的分類理解。

當(dāng)我有一張圖像的時候,人和機器都可以告訴你這張圖像是什么,這是一頭牛還是一朵花,有的時候你可以想象機器甚至做得比人更出色,我三歲的女兒經(jīng)常跟我說,爸爸,我看到那邊有非常漂亮的蝴蝶。我就糾正她,寶貝,那不是蝴蝶,那是蛾子。但是我的寶貝說,這個蛾子比蝴蝶還漂亮,肯定是蝴蝶。

說明我們在圖像理解上有一個過程,我需要理解它的含義得到一個結(jié)果,但是在機器學(xué)習(xí)的時候,甚至可以達到比成年人更高的境界,我們可以細分到山丘、山陵的區(qū)別,而超越人的理解??茖W(xué)家已經(jīng)不滿足于這個問題,這個問題被認為已經(jīng)在這個領(lǐng)域解決,下一個要解決的是檢測問題。當(dāng)我們有一張圖,我希望不但知道這個圖的整體表達是什么,還要知道這個圖里哪個地方是車,哪個地方是路面,哪個地方是人,這是檢測過程。由于現(xiàn)在有強大的計算資源和計算能力,我們可以超過五億個品種的檢測,這是視覺 AI 的另外一個可以達到的目標(biāo)。 

[[204599]] 

除此之外,科學(xué)家們想,當(dāng)我們能檢測到一些物體的時候,能不能把細致度做得更深?比如說顆粒度更深的每個像素、每個點,我是不是能知道這個點是屬于馬路的,屬于人還是屬于車的,這是遠遠超越于之前問題的更加進一步的推廣問題。所以我們管它叫做語義分割,現(xiàn)在可以超過總數(shù)四千億像素級別的多圖圖像分割,這是這幾年整個領(lǐng)域產(chǎn)生的巨大推進作用和研究成果,能夠達到的效果。除此之外更加熟悉的是對人臉的匹配查詢,可以超過一億張人臉匹配查詢,找到你想要的人,你問問自己,能不能認識一億個人?認識一百個人,我就很開心了,這在電腦上是遠遠超越了人。

[[204593]] 

在之前五到十年的時候,我在學(xué)校的團隊還會做一些有意思的研究:我們當(dāng)時想,如果看到這樣一張模糊的圖片你會做什么事情?你看到一張模糊圖像會做什么事情?可能大家要做的就是把它刪除,為什么?因為這張圖片模糊了,已經(jīng)沒有用了,但是對我們科學(xué)家而言,是非常珍貴的資源,因為通過這張圖像我們發(fā)掘出一些人類看不到的東西。

[[204594]] 

為大家舉一個有趣的例子,比如在這張圖像里,我們是在一個高速行進的車上,周圍的環(huán)境是容易被模糊的,當(dāng)我們理解環(huán)境的時候你發(fā)現(xiàn),車牌或者路標(biāo)已經(jīng)被模糊掉,在這張圖上,在這個圖標(biāo)上看著公路的信息,但是左邊小的是什么東西?左邊路牌上的數(shù)字是什么東西呢?之前大學(xué)里的團隊經(jīng)過五到十年的研究,把這些信息充分理解出來,最后通過我們的技術(shù)手段,能夠看到最后這是在美國 101 公路上的場景,我們可以超越人類的圖像模糊。

還有一個東西,我們希望十年之后出現(xiàn)家具機器人,什么叫家具機器人?就是你希望他能幫你洗衣服、洗碗、做飯,甚至帶孩子,但是要達到這個智能機器人,怎么樣才能做到這一步?其中重要的就是如何把自然語言和自然圖像結(jié)合起來,也就是兩者的充分結(jié)合。所以我們在之前有一系列的研究,是當(dāng)你看到一張圖像的時候,我的人來問一個問題,是什么放在了這個工作間的臺子上,電腦看到通過你這句話,分析是什么意思,然后再去尋找在這張圖像上是問了什么問題,最后把圖像上重要的位置找到之后反饋回來,得到一個結(jié)果,這個結(jié)果就是船,這就是說這個答案是對的。 

[[204595]] 

這個說明現(xiàn)在電腦可以結(jié)合自然語言,我說的話和看到的場景可以結(jié)合起來,這是一個非常了不起的進步。正是因為有這個進步,我相信令到家具機器人的理想在十年之內(nèi)能夠變?yōu)楝F(xiàn)實。

我們還可以做到什么?

可能有講座介紹說,幸虧 AI 達到的程度還沒有人那么高,因為人會創(chuàng)造,AI 不會創(chuàng)造。我想跟大家說,其實這句話是不對的,電腦也會創(chuàng)造,而且創(chuàng)造出來的種類和試樣,很多時候是讓我們驚嘆的,在以往知識庫里是找不到這些模組的,這就是創(chuàng)造的功能,視覺 AI 已經(jīng)可以實現(xiàn)創(chuàng)造。

[[204596]] 

比如看這兩幅圖,看在座各位認為右邊這張圖是電腦畫的?真理永遠掌握在少數(shù)人手里,右邊這張圖確實是電腦畫的,電腦用鉛筆畫出了整體輪廓的表達、陰影的表達,達到了非常高的層次,人類需要長期訓(xùn)練才能畫出,但是我們畫出這張圖只用了 0.1 秒,就是它的創(chuàng)造過程,這是非常有趣的事情。

我大學(xué)的團隊在去年為了去理解這個非常復(fù)雜的場景,創(chuàng)造了全世界最像素級的分割技術(shù),做場景理解分析。

[[204597]] 

這個例子可以看到車是一個顏色,因為我識別出來這是車,所以是藍色,旁邊的樹,我識別出是樹,所以標(biāo)成綠色。我們在去年實現(xiàn)了在大規(guī)模場景的多復(fù)雜環(huán)境下的內(nèi)容分析,這是去年做的事情。今年我們不滿足這樣一個結(jié)果,我說我們還能做什么?然后我的團隊開始在今年做了另外一件讓大家激動的事情,我們實現(xiàn)了到迄今為止最準(zhǔn)確的道路上的像素級語義分割技術(shù),在已知的論文里面,我們這個技術(shù)遠遠高出第二名,直接到每秒 30 偵的運算速度,沒有改變?nèi)魏蔚挠布Y源,我們加速了一百倍。

AI 視覺技術(shù)的社會價值除了我剛才跟大家講的商業(yè)價值或者學(xué)術(shù)價值之外,我今天還有另外一個內(nèi)容。我想跟大家講講優(yōu)圖 AI 所產(chǎn)生的社會價值。有一個優(yōu)圖跟騰訊的公益部門以及騰訊云、騰訊互聯(lián)網(wǎng) + 的部門合作,我們開創(chuàng)了一個新的活動,這個活動叫做天眼。 

 

大家有沒有看過這部《親愛的》?講述的就是現(xiàn)在有很多很多的家庭,家里的孩子被拐賣走失,這些父母組成了一個團體,他們希望通過這個團體找尋自己的孩子,這就是 2014 年這部電影上映反映的嚴重現(xiàn)實,孩子的丟失也許是社會的一小部分現(xiàn)象,但是這個現(xiàn)象確實是存在的。所以可以想像,在這樣一個環(huán)境下,可以有一個大概的估計,但是現(xiàn)在走失的現(xiàn)象在統(tǒng)計意義上而言非常巨大,每個城市這樣的現(xiàn)象很少,但是因為中國人口多,在這么大的中國人口的基數(shù)上,我們能夠把這個比例一點點的上升,這也是我們能貢獻的力量。雖然我們有了各種各樣的途徑,有微博打拐,有大家貢獻的力量來找尋,但是貢獻率依然是 0。

2015 年,優(yōu)圖團隊跟騰訊公益部門和騰訊云和騰訊互聯(lián)網(wǎng) + 的單位一起開始加入了“天眼”計劃,希望通過優(yōu)圖的技術(shù)積累,幫助社會實現(xiàn)社會價值,而不僅僅是商業(yè)價值,因為這對我們而言是一件相對比較容易的事情,但是社會價值如何體現(xiàn)在 AI 上?

于是我們加入了這個公益計劃,當(dāng)時在上海的小伙伴們拿到這個計劃的時候非常興奮,他們覺得終于有一天,他們坐在電腦前面也可以像蜘蛛俠一樣出去救人。他們做了很多評測,發(fā)現(xiàn)我們在人臉識別率上只有 40%,這個數(shù)字讓我們的小伙伴非常驚訝,發(fā)現(xiàn)原來問題這么難,不是我們拿到一張圖做一個尋人就可以把人找回來。主要有以下三點困難:

第一個是場景

我們有非常復(fù)雜的場景,有城市,有農(nóng)村,有山林,有不同區(qū)域,甚至當(dāng)我找回這樣一個失蹤人口的時候,他的發(fā)型、衣著、輪廓改變都是復(fù)雜因素。

第二是年齡

很多的失蹤人口找回來的時候,他們可能在外面已經(jīng)漂流了幾年的時間甚至十年時間,這是一個非常長的時間段,所以從我們的面容上看,他們改變了很多,從輪廓、皺紋、皮膚的粗糙程度,這都是對我們實用算法是非常大的挑戰(zhàn)。

第三需要具備有億級人臉的檢索能力

當(dāng)我拿到一張檢索照片的時候,是不是能夠通過實時尋找對比,找到這個人出來。

這三大挑戰(zhàn)是我當(dāng)時面對的,但是好在我們優(yōu)圖的小伙伴們并沒有放棄,他們覺得這件事情既然做了就要做到底,而且要做好。所以我們在經(jīng)歷一系列的,超過一年多的研究,把 Megaface 的準(zhǔn)確率從 40% 提升到 83.29%,這代表了我們可以在億級人臉檢索上達到毫秒的速度,把成功率從之前的不到 50% 提高到 99%。我們立項之后,在短短三個月時間之內(nèi),就開始用在福建省公安一起合作,做了網(wǎng)上在線系統(tǒng)找回人群。

[[204598]] 

2017 年 3 月份的時候,福建省公安廳接到一個群眾電話,他們在小學(xué)邊上找到一個老奶奶,神智不清語言也不通,把他接到公安局以后,通過我們的線上人臉比對系統(tǒng),發(fā)現(xiàn)可能是這個奶奶失蹤了,最后我們發(fā)現(xiàn),家人為了防止她走失,在公安系統(tǒng)已經(jīng)把她掛上號,最后通過這個系統(tǒng)把這個老人找了回來。

我們上線這個系統(tǒng)短短三個月時間,在整個福建省公安部門的幫助下,實現(xiàn)了找回人數(shù)超過 120 人,才三個月時間。這樣的成效是高過以往通過群眾電話,再去通過大海撈針式的訪問拿到結(jié)果的過程,所以整個福建系統(tǒng)“牽掛你”是有一個過程的,我們發(fā)上名單照片,通過群眾找到某一個人群的時候,拍張照片,最后在數(shù)據(jù)庫里做比對,然后把這個人找回來,這樣成功的案例已經(jīng)超過一百起,這是非常振奮人心的,而且也是很有意義的。

除此之外,我們希望技術(shù)不僅僅是幫到這樣一些走失的人,我們甚至可以走得更廣一點,所以我們這幾年做了一個“萬象鑒黃”的全球兒童網(wǎng)絡(luò)保護行動,整個優(yōu)圖團隊開始貢獻對成人圖片的檢測,我們發(fā)現(xiàn)準(zhǔn)確率在大部分上線系統(tǒng)上可以超過 99%,也就是可以實現(xiàn)對兒童在網(wǎng)絡(luò)上的保護,防止這些兒童受到欺凌欺騙,這樣的事情是我們團隊的小伙伴最愿意做的事情之一。

結(jié)語

AI 就是一種工具,AI 的出現(xiàn)可能會令一些人失去自己的工作,但是 AI 確實便利了我們這個社會,使得我們這個社會更加容易和諧,做得更好。當(dāng)我們發(fā)現(xiàn)一些不好的事實的時候,AI 這個系統(tǒng)能夠準(zhǔn)確判別,打擊犯罪,這是一種工具,就像是一把刀一樣,你切菜是好的工具,但是傷害人的時候是一個壞的工具。AI 無所謂好和壞,但是好的部分需要我們?nèi)ズ霌P,發(fā)光廣大。最后我想說,每一個技術(shù)人員雖然都坐在電腦前面,大家都認為我們是電腦高手,但是我們每個人都有一顆蜘蛛俠的心,我們希望自己有一天不上街也能夠幫助人們,打擊犯罪。 

責(zé)任編輯:龐桂玉 來源: AI前線
相關(guān)推薦

2019-03-19 19:34:56

大數(shù)據(jù)數(shù)據(jù)分析AI

2019-01-23 14:00:48

超融合

2023-06-05 15:43:54

5G千兆網(wǎng)

2019-11-28 10:31:00

MEET教育峰會

2020-02-18 12:23:43

機器人人工智能物流

2019-12-17 15:20:18

手機5G手機流量

2015-03-24 17:43:23

2024-12-02 10:40:00

AI模型

2017-05-04 11:02:13

存儲數(shù)據(jù)感知

2018-04-27 22:59:10

大數(shù)據(jù)數(shù)據(jù)運營

2014-09-11 10:42:41

程序員

2014-09-12 10:23:16

技術(shù)程序員

2019-05-22 13:28:59

騰訊優(yōu)圖AI人工智能

2024-02-28 16:18:41

2019-05-22 13:38:19

騰訊優(yōu)圖實驗室

2017-04-11 17:11:43

騰訊云騰訊優(yōu)圖

2022-08-09 11:17:53

華為

2024-06-24 09:25:57

2020-01-21 22:02:23

物聯(lián)網(wǎng)IOT物聯(lián)網(wǎng)應(yīng)用
點贊
收藏

51CTO技術(shù)棧公眾號