一文看懂:“計(jì)算機(jī)視覺(jué)”到底是個(gè)啥?
想象一下,有人朝你扔過(guò)來(lái)一個(gè)球,你會(huì)怎么辦?當(dāng)然是馬上把它接祝這個(gè)問(wèn)題是不是弱智死了?
但實(shí)際上,這一過(guò)程是最復(fù)雜的處理過(guò)程之一,而我們目前尚處于理解它的階段,離重塑還非常遙遠(yuǎn)。這就意味著,發(fā)明一個(gè)像人類一樣去觀看的機(jī)器,是一項(xiàng)非常艱巨的任務(wù),不僅是讓電腦去做到非常困難,甚至我們自己都無(wú)法確定完整的細(xì)節(jié)。
實(shí)際上的過(guò)程大概如下:首先球進(jìn)入人類的視網(wǎng)膜,一番元素分析后,發(fā)送到大腦,視覺(jué)皮層會(huì)更加徹底地去分析圖像,把它發(fā)送到剩余的皮質(zhì),與已知的任何物體相比較,進(jìn)行物體和緯度的歸類,最終決定你下一步的行動(dòng):舉起雙手、拿起球(之前已經(jīng)預(yù)測(cè)到它的行進(jìn)軌跡)。
上述過(guò)程只在零點(diǎn)幾秒內(nèi)發(fā)生,幾乎都是完全下意識(shí)的行為,也很少會(huì)出差錯(cuò)。因此,重塑人類的視覺(jué)并不只是單一一個(gè)困難的課題,而是一系列、環(huán)環(huán)相扣的過(guò)程。
早在1966年,人工智能領(lǐng)域的先鋒派人士Marivin Minsky就曾經(jīng)給自己的研究生出題,要求他們“把攝像機(jī)連到一臺(tái)電腦上,讓它描述自己看到了什么。”而50年之后,今天的人們?nèi)匀辉谘芯肯嗤恼n題。
這一領(lǐng)域的深入研究是從20世紀(jì)50年代開(kāi)始的,走的是三個(gè)方向——即復(fù)制人眼(難度系數(shù)十顆星);復(fù)制視覺(jué)皮層(難度系數(shù)五十顆星),以及復(fù)制大腦剩余部分(難度系數(shù)一百顆星)。
復(fù)制人眼——讓計(jì)算機(jī)“去看”
目前做出最多成效的領(lǐng)域就是在“復(fù)制人眼”這一領(lǐng)域。在過(guò)去的幾十年,科學(xué)家已經(jīng)打造了傳感器和圖像處理器,這些與人類的眼睛相匹配,甚至某種程度上已經(jīng)超越。通過(guò)強(qiáng)大、光學(xué)上更加完善的鏡頭,以及納米級(jí)別制造的半導(dǎo)體像素,現(xiàn)代攝像機(jī)的精確性和敏銳度達(dá)到了一個(gè)驚人的地步。它們同樣可以拍下每秒數(shù)千張的圖像,并十分精準(zhǔn)地測(cè)量距離。
數(shù)碼相機(jī)里的圖像傳感器
但是問(wèn)題在于,雖然我們已經(jīng)能夠?qū)崿F(xiàn)輸出端極高的保真度,但是在很多方面來(lái)說(shuō),這些設(shè)備并不比19世紀(jì)的針孔攝像機(jī)更為出色:它們充其量記錄的只是相應(yīng)方向上光子的分布,而即便是最優(yōu)秀的攝像頭傳感器也無(wú)法去“識(shí)別”一個(gè)球,遑論將它抓祝
換而言之,在沒(méi)有軟件的基礎(chǔ)上,硬件是相當(dāng)受限制的。因此這一領(lǐng)域的軟件才是要投入解決的更加棘手的問(wèn)題。不過(guò)現(xiàn)在攝像頭的先進(jìn)技術(shù),的確為這軟件提供了豐富、靈活的平臺(tái)就是了。
復(fù)制視覺(jué)皮層——讓計(jì)算機(jī)“去描述”
要知道,人的大腦從根本上就是通過(guò)意識(shí)來(lái)進(jìn)行“看”的動(dòng)作的。比起其他的任務(wù),在大腦中相當(dāng)?shù)牟糠侄际菍iT(mén)用來(lái)“看”的,而這一專長(zhǎng)是由細(xì)胞本身來(lái)完成的——數(shù)十億的細(xì)胞通力合作,從嘈雜、不規(guī)則的視網(wǎng)膜信號(hào)中提取模式。
如果在特定角度的一條沿線上出現(xiàn)了差異,或是在某個(gè)方向上出現(xiàn)了快速運(yùn)動(dòng),那么神經(jīng)元組就會(huì)興奮起來(lái)。較高級(jí)的網(wǎng)絡(luò)會(huì)將這些模式歸納進(jìn)元模式(meta-pattern)中:它是一個(gè)朝上運(yùn)動(dòng)的圓環(huán)。同時(shí),另一個(gè)網(wǎng)絡(luò)也相應(yīng)而成:這次是帶紅線的白色圓環(huán)。而還有一個(gè)模式則會(huì)在大小上增長(zhǎng)。從這些粗糙但是補(bǔ)充性的描述中,開(kāi)始生成具體的圖像。
使用人腦視覺(jué)區(qū)域相似的技術(shù),定位物體的邊緣和其他特色,從而形成的“方向梯度直方圖”
由于這些網(wǎng)絡(luò)一度被認(rèn)為是“深不可測(cè)的復(fù)雜”,因此 在計(jì)算機(jī)視覺(jué)研究的早期,采用的是別的方式:即“自上而下的推理”模式——比如一本書(shū)看起來(lái)是“這樣”,那么就要注意與“這個(gè)”類似的模式。而一輛車看起來(lái)是“這樣”,動(dòng)起來(lái)又是“這樣”。
在某些受控的情況下,確實(shí)能夠?qū)ι贁?shù)幾個(gè)物體完成這一過(guò)程,但如果要描述身邊的每個(gè)物體,包括所有的角度、光照變化、運(yùn)動(dòng)和其他上百個(gè)要素,即便是咿呀學(xué)語(yǔ)的嬰兒級(jí)別的識(shí)別,也需要難以想象的龐大數(shù)據(jù)。
而如果不用“自上而下”,改用“自下而上”的辦法,即去模擬大腦中的過(guò)程,則看上去前景更加美好:計(jì)算機(jī)可以在多張圖中,對(duì)一張圖片進(jìn)行一系列的轉(zhuǎn)換,從而找到物體的邊緣,發(fā)現(xiàn)圖片上的物體、角度和運(yùn)動(dòng)。就像人類的大腦一樣,通過(guò)給計(jì)算機(jī)觀看各種圖形,計(jì)算機(jī)會(huì)使用大量的計(jì)算和統(tǒng)計(jì),試著把“看到的”形狀與之前訓(xùn)練中識(shí)別的相匹配。
科學(xué)家正在研究的,是讓智能手機(jī)和其他的設(shè)備能夠理解、并迅速識(shí)別出處在攝像頭視場(chǎng)里的物體。如上圖,街景中的物體都被打上了用于描述物體的文本標(biāo)簽,而完成這一過(guò)程的處理器要比傳統(tǒng)手機(jī)處理器快上120倍。
隨著近幾年并行計(jì)算領(lǐng)域的進(jìn)步,相關(guān)的屏障逐漸被移除。目前出現(xiàn)了關(guān)于模仿類似大腦機(jī)能研究和應(yīng)用的爆發(fā)性增長(zhǎng)。模式識(shí)別的過(guò)程正在獲得數(shù)量級(jí)的加速,我們每天都在取得更多的進(jìn)步。
復(fù)制大腦剩余部分——讓計(jì)算機(jī)“去理解”
當(dāng)然,光是“識(shí)別”“描述”是不夠的。一臺(tái)系統(tǒng)能夠識(shí)別蘋(píng)果,包括在任何情況、任何角度、任何運(yùn)動(dòng)狀態(tài),甚至是否被咬等等等等。但它仍然無(wú)法識(shí)別一個(gè)橘子。并且它甚至都不能告訴人們:啥是蘋(píng)果?是否可以吃?尺寸如何?或者具體的用途。
上文曾經(jīng)談過(guò),沒(méi)有軟件,硬件的發(fā)揮非常受限。但現(xiàn)在的問(wèn)題是,即便是有了優(yōu)秀的軟硬件,沒(méi)有出色的操作系統(tǒng),也“然并卵”。
對(duì)于人們來(lái)說(shuō),大腦的剩余部分由這些組成,包括長(zhǎng)短期記憶、其他感官的輸入、注意力和認(rèn)知力、從世界中萬(wàn)億級(jí)別的交互中收獲的十億計(jì)知識(shí),這些知識(shí)將通過(guò)我們很難理解的方式,被寫(xiě)入互聯(lián)的神經(jīng)。而要復(fù)制它,比起我們遇到過(guò)的任何事情都要更加復(fù)雜。
計(jì)算機(jī)視覺(jué)的現(xiàn)狀和未來(lái)
這一點(diǎn)就是計(jì)算機(jī)科學(xué)和更加普遍的人工智能領(lǐng)域的前沿。計(jì)算機(jī)科學(xué)家、工程師、心理學(xué)家、神經(jīng)學(xué)家和哲學(xué)家正在通力合作,形成關(guān)于意識(shí)運(yùn)作的概念,但還是遠(yuǎn)遠(yuǎn)達(dá)不到模擬它的地步。
不過(guò),這也并非意味著目前我們處于死胡同。計(jì)算機(jī)視覺(jué)的未來(lái),將會(huì)集成強(qiáng)大而專門(mén)的系統(tǒng),讓人們更加廣泛集中在難以解決的概念上:環(huán)境、注意力和意圖。
因此,即便是在如此早期的階段,計(jì)算機(jī)視覺(jué)仍然發(fā)揮了很大的作用。在攝像頭領(lǐng)域,是面部和笑容識(shí)別;在自駕車領(lǐng)域 ,則是讀取交通信號(hào)和注意行人;工廠里的機(jī)器人會(huì)通過(guò)它來(lái)檢測(cè)問(wèn)題所在、并繞過(guò)周圍的人類公認(rèn)。雖然說(shuō)要實(shí)現(xiàn)“和人類一樣去看”仍然有很長(zhǎng)的一段路,但是如果能夠?qū)崿F(xiàn)的話,那會(huì)是非常美妙的未來(lái)。