程序員應(yīng)知應(yīng)會(huì)之視頻描述算法

作者：信息時(shí)代風(fēng)之影 2023-05-06 07:24:22

機(jī)器翻譯的基本思路是: 將輸入的源語(yǔ)句和目標(biāo)語(yǔ)句表示在同一向量空間內(nèi)，首先使用編碼器將源語(yǔ)句編碼為一個(gè)中間向量，然后再通過(guò)解碼器將中間向量解碼為目標(biāo)語(yǔ)句。

隨著ChatGPT的火爆，人們對(duì)于人工智能領(lǐng)域的發(fā)展產(chǎn)生了極大的興趣。很多專家認(rèn)為，一個(gè)人工智能的時(shí)代將隨著軟硬件技術(shù)的快速發(fā)展即將到來(lái)。那么，作為信息技術(shù)領(lǐng)域的先鋒隊(duì)，對(duì)于程序員們來(lái)說(shuō)，學(xué)習(xí)人工智能技術(shù)也就成了必然的課題。

通常來(lái)講，人工智能可以分為三個(gè)研究方向：計(jì)算智能、感知智能和認(rèn)知智能。

計(jì)算智能是人們比較熟悉的計(jì)算機(jī)的常規(guī)操作，例如數(shù)值運(yùn)算、矩陣分解、微積分計(jì)算等。

感知智能是指將物理世界的信號(hào)通過(guò)攝像頭、麥克風(fēng)或者其他傳感器的硬件設(shè)備，借助語(yǔ)音識(shí)別、圖像識(shí)別等前沿技術(shù)，映射到數(shù)字世界，再將這些數(shù)字信息進(jìn)一步提升至可認(rèn)知的層次，比如記憶、理解、規(guī)劃、決策等等。

認(rèn)知智能則更類似于人類的思維理解、知識(shí)共享、行動(dòng)協(xié)同或博弈等，也就是說(shuō)基于獲取的信息做出思考與決策。這一階段需要運(yùn)用計(jì)算智能、感知智能的數(shù)據(jù)清洗、圖像識(shí)別等能力。除此之外，還需要擁有對(duì)于業(yè)務(wù)需求的理解以及對(duì)分散數(shù)據(jù)、知識(shí)的統(tǒng)籌治理能力，從而能夠針對(duì)業(yè)務(wù)場(chǎng)景進(jìn)行策略構(gòu)建和決策。

目前來(lái)說(shuō)，大量的人工智能工作集中在感知智能階段，對(duì)于認(rèn)知智能，則相對(duì)來(lái)說(shuō)進(jìn)展較為緩慢。

在認(rèn)知智能領(lǐng)域，與人們生活最為接近的是視頻描述技術(shù)。通過(guò)感知智能技術(shù)中的視頻分類、物體檢測(cè)等技術(shù)，我們可以對(duì)于視頻中出現(xiàn)了什么物體進(jìn)行識(shí)別。但是這并不能使人們理解視頻到底描述了什么，只能機(jī)械的描述說(shuō)，一個(gè)紅臉的男人、一把刀和一匹紅色的馬之類的。

視頻描述需要識(shí)別出視頻中的物體，并理解物體之間的相互關(guān)系，同時(shí)理解場(chǎng)景的不同，物體運(yùn)動(dòng)和行為的不同，結(jié)合相應(yīng)的已存儲(chǔ)知識(shí)，作出符合實(shí)現(xiàn)的描述。這都在技術(shù)上帶來(lái)了很大的挑戰(zhàn)性。是一個(gè)整合了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的綜合技術(shù)，類似于將一段視頻翻譯成一段話。不僅要正確理解視頻內(nèi)容，還要用自然語(yǔ)言表達(dá)出視頻中物體之間的關(guān)系。

當(dāng)前視頻內(nèi)容描述算法主要分為基于語(yǔ)言模板的方法、基于檢索的方法和基本編碼器解碼器的方法。下面我們分別來(lái)介紹一下。

一、基于語(yǔ)言模板的方法

基于語(yǔ)言模板的方法首先通過(guò)視頻分類或目標(biāo)檢測(cè)等方法檢測(cè)出視頻中目標(biāo)、屬性、動(dòng)作以及目標(biāo)之間的關(guān)系等，然后將檢測(cè)到的物體，依據(jù)一定的規(guī)則，填入到事先制定好的語(yǔ)言模板中，從而形成一句完整的描述語(yǔ)句。

基于語(yǔ)言模板的方法簡(jiǎn)單直觀，但是由于受到固定模板的限制，生成的句子語(yǔ)法結(jié)構(gòu)單一，表達(dá)形式缺乏靈活性。同時(shí)這種方法必須進(jìn)行前期細(xì)致的標(biāo)注工作，為視頻中包含的每個(gè)物體、動(dòng)作、屬性等制定統(tǒng)一的類別標(biāo)簽。而且該方法對(duì)于超出模板范圍的視頻，會(huì)給出差異很大的結(jié)果。

二、基于檢索的方法

基于檢索的方法，首先需要建立一個(gè)數(shù)據(jù)庫(kù)，數(shù)據(jù)庫(kù)中每個(gè)視頻都有對(duì)應(yīng)的語(yǔ)句描述標(biāo)簽。輸入待描述的視頻，然后找到數(shù)據(jù)庫(kù)中與之最相似的一些視頻，經(jīng)過(guò)歸納和重置，把該相似視頻對(duì)應(yīng)的描述語(yǔ)句遷移到待描述的視頻。

通常來(lái)講，基于檢索的方法生成的描述語(yǔ)句更加貼近人類自然語(yǔ)言的表達(dá)形式，句子結(jié)構(gòu)更加靈活。但是此方法嚴(yán)重依賴數(shù)據(jù)庫(kù)的大小，當(dāng)數(shù)據(jù)庫(kù)中缺少與待描述視頻類似的視頻時(shí)，生成的描述語(yǔ)句將和視頻內(nèi)容存在較大的誤差。上述兩種方法都嚴(yán)重依賴視覺(jué)前期復(fù)雜的處理過(guò)程，且存在對(duì)后期生成句子的語(yǔ)言模型優(yōu)化不足的問(wèn)題。對(duì)于視頻描述問(wèn)題，這兩類方法都難以生成描述準(zhǔn)確、表達(dá)形式多樣的高質(zhì)量語(yǔ)句。

三、基于編碼器解碼器的方法

基于編碼解碼器的方法，是目前視頻描述領(lǐng)域的主流方法。這主要受益于基于深度神經(jīng)網(wǎng)絡(luò)的編碼解碼模型在機(jī)器翻譯領(lǐng)域取得的突破進(jìn)展。

視頻描述問(wèn)題本質(zhì)上也可以看做是一個(gè)“翻譯”問(wèn)題，即把視頻翻譯成自然語(yǔ)言。此方法前期不需要對(duì)視頻采取復(fù)雜的處理過(guò)程，能夠直接從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)視頻到描述語(yǔ)言的映射關(guān)系，實(shí)現(xiàn)端到端的訓(xùn)練，并且能夠產(chǎn)生內(nèi)容更加精確、語(yǔ)法靈活和形式多樣的視頻描述。

責(zé)任編輯：武曉燕來(lái)源：活在信息時(shí)代

程序員視頻算法

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

程序員應(yīng)知應(yīng)會(huì)之視頻描述算法

一、基于語(yǔ)言模板的方法

二、基于檢索的方法

三、基于編碼器解碼器的方法

三、基于編碼器解碼器的方法