你下一秒干什么,算法都知道
計算機在某些領(lǐng)域的表現(xiàn)還不足以令人滿意——例如人臉識別(不要聽媒體亂吹)和找出巨大數(shù)的質(zhì)因子(目前絕大多數(shù)加密方法的基礎(chǔ))。面對海量的可能性和洪水般的細微差別:計算機必須窮舉出所有可能才能得到正確答案。但是不管讓計算機辨認鼻子還是找數(shù)字,本質(zhì)上都是處理和運作。對于分析人類的動作,計算機顯得力不從心,在這方面目前還是人腦處理地更好。
面部識別和行為識別是安全領(lǐng)域和社交網(wǎng)絡的重點研究課題。目前遍布許多城市的閉路攝像頭網(wǎng)絡都離不開人眼。不難想象全球各個安全機構(gòu)有多么渴望隨時監(jiān)控每個攝像頭。倫敦多么希望每個角落都有一臺監(jiān)控設備(甚至兩臺,甚至三臺)。
在今年六月份即將召開的計算機視覺和圖像識別大會上,來自麻省理工學院和加利福尼亞大學的研究人員將展示一種全新的運動識別算法,而這種算法將秒殺以前的人眼監(jiān)控。算法基于自然語言處理算法,并且在某些關(guān)鍵領(lǐng)域可以擊敗現(xiàn)有的技術(shù)。
比如說,算法使用內(nèi)存的方法比較智能(會占用大量虛擬內(nèi)存),可以保持內(nèi)存使用量恒定,使得觀看/處理大型文件和流媒體視頻成為可能。
處理流媒體本身就是巨大的技術(shù)進步,新算法甚至有能力處理沒有完全完成的動作。比如說,某位仁兄在街上突然將手伸向其他人的外衣口袋,這個時候算法就能預測他接下來將完成的動作。某種意義上說,新算法可以預測未來。不過相比起預防犯罪,它的主要功能還是動作識別。
研究人員提出一種名為“行為語法”的奇怪設想,他們認為既然詞匯可以按照一定的規(guī)則組成句子,那么相應的,動作也應該有相應的規(guī)則,也應該有子動作。
來自麻省理工學院的博士后研究生Hamed Pirsiavash認為最難的部分在于將動作進行分類,找出哪些是主語,哪些是動詞,哪些又是副詞。Pirsiavash說例如倒茶或做咖啡這種動作是由若干個子動作連接而成,他的工作就是將這些子動作拆解并分類。
算法具有機器學習機制,電腦程序會從輸入數(shù)據(jù)設備中學習,經(jīng)過一定時間的“訓練”,程序便更加聰明。程序會一邊觀察含有不同動作的視頻,一邊對各個子動作進行掃描。