自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

程序員應(yīng)知應(yīng)會(huì)之視頻描述算法

人工智能
機(jī)器翻譯的基本思路是: 將輸入的源語(yǔ)句和目標(biāo)語(yǔ)句表示在同一向量空間內(nèi),首先使用編碼器將源語(yǔ)句編碼為一個(gè)中間向量,然后再通過(guò)解碼器將中間向量解碼為目標(biāo)語(yǔ)句。

隨著ChatGPT的火爆,人們對(duì)于人工智能領(lǐng)域的發(fā)展產(chǎn)生了極大的興趣。很多專家認(rèn)為,一個(gè)人工智能的時(shí)代將隨著軟硬件技術(shù)的快速發(fā)展即將到來(lái)。那么,作為信息技術(shù)領(lǐng)域的先鋒隊(duì),對(duì)于程序員們來(lái)說(shuō),學(xué)習(xí)人工智能技術(shù)也就成了必然的課題。

通常來(lái)講,人工智能可以分為三個(gè)研究方向:計(jì)算智能、感知智能和認(rèn)知智能。

計(jì)算智能是人們比較熟悉的計(jì)算機(jī)的常規(guī)操作,例如數(shù)值運(yùn)算、矩陣分解、微積分計(jì)算等。

感知智能是指將物理世界的信號(hào)通過(guò)攝像頭、麥克風(fēng)或者其他傳感器的硬件設(shè)備,借助語(yǔ)音識(shí)別、圖像識(shí)別等前沿技術(shù),映射到數(shù)字世界,再將這些數(shù)字信息進(jìn)一步提升至可認(rèn)知的層次,比如記憶、理解、規(guī)劃、決策等等。

認(rèn)知智能則更類似于人類的思維理解、知識(shí)共享、行動(dòng)協(xié)同或博弈等,也就是說(shuō)基于獲取的信息做出思考與決策。這一階段需要運(yùn)用計(jì)算智能、感知智能的數(shù)據(jù)清洗、圖像識(shí)別等能力。除此之外,還需要擁有對(duì)于業(yè)務(wù)需求的理解以及對(duì)分散數(shù)據(jù)、知識(shí)的統(tǒng)籌治理能力,從而能夠針對(duì)業(yè)務(wù)場(chǎng)景進(jìn)行策略構(gòu)建和決策。

目前來(lái)說(shuō),大量的人工智能工作集中在感知智能階段,對(duì)于認(rèn)知智能,則相對(duì)來(lái)說(shuō)進(jìn)展較為緩慢。

在認(rèn)知智能領(lǐng)域,與人們生活最為接近的是視頻描述技術(shù)。通過(guò)感知智能技術(shù)中的視頻分類、物體檢測(cè)等技術(shù),我們可以對(duì)于視頻中出現(xiàn)了什么物體進(jìn)行識(shí)別。但是這并不能使人們理解視頻到底描述了什么,只能機(jī)械的描述說(shuō),一個(gè)紅臉的男人、一把刀和一匹紅色的馬之類的。

視頻描述需要識(shí)別出視頻中的物體,并理解物體之間的相互關(guān)系,同時(shí)理解場(chǎng)景的不同,物體運(yùn)動(dòng)和行為的不同,結(jié)合相應(yīng)的已存儲(chǔ)知識(shí),作出符合實(shí)現(xiàn)的描述。這都在技術(shù)上帶來(lái)了很大的挑戰(zhàn)性。是一個(gè)整合了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的綜合技術(shù),類似于將一段視頻翻譯成一段話。不僅要正確理解視頻內(nèi)容,還要用自然語(yǔ)言表達(dá)出視頻中物體之間的關(guān)系。

當(dāng)前視頻內(nèi)容描述算法主要分為基于語(yǔ)言模板的方法、基于檢索的方法和基本編碼器解碼器的方法。下面我們分別來(lái)介紹一下。

一、基于語(yǔ)言模板的方法

基于語(yǔ)言模板的方法首先通過(guò)視頻分類或目標(biāo)檢測(cè)等方法檢測(cè)出視頻中目標(biāo)、屬性、動(dòng)作以及目標(biāo)之間的關(guān)系等,然后將檢測(cè)到的物體,依據(jù)一定的規(guī)則,填入到事先制定好的語(yǔ)言模板中,從而形成一句完整的描述語(yǔ)句。

基于語(yǔ)言模板的方法簡(jiǎn)單直觀,但是由于受到固定模板的限制,生成的句子語(yǔ)法結(jié)構(gòu)單一,表達(dá)形式缺乏靈活性。同時(shí)這種方法必須進(jìn)行前期細(xì)致的標(biāo)注工作,為視頻中包含的每個(gè)物體、動(dòng)作、屬性等制定統(tǒng)一的類別標(biāo)簽。而且該方法對(duì)于超出模板范圍的視頻,會(huì)給出差異很大的結(jié)果。

圖片

二、基于檢索的方法

基于檢索的方法,首先需要建立一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中每個(gè)視頻都有對(duì)應(yīng)的語(yǔ)句描述標(biāo)簽。輸入待描述的視頻,然后找到數(shù)據(jù)庫(kù)中與之最相似的一些視頻,經(jīng)過(guò)歸納和重置,把該相似視頻對(duì)應(yīng)的描述語(yǔ)句遷移到待描述的視頻。

通常來(lái)講,基于檢索的方法生成的描述語(yǔ)句更加貼近人類自然語(yǔ)言的表達(dá)形式,句子結(jié)構(gòu)更加靈活。但是此方法嚴(yán)重依賴數(shù)據(jù)庫(kù)的大小,當(dāng)數(shù)據(jù)庫(kù)中缺少與待描述視頻類似的視頻時(shí),生成的描述語(yǔ)句將和視頻內(nèi)容存在較大的誤差。上述兩種方法都嚴(yán)重依賴視覺(jué)前期復(fù)雜的處理過(guò)程,且存在對(duì)后期生成句子的語(yǔ)言模型優(yōu)化不足的問(wèn)題。對(duì)于視頻描述問(wèn)題,這兩類方法都難以生成描述準(zhǔn)確、表達(dá)形式多樣的高質(zhì)量語(yǔ)句。

三、基于編碼器解碼器的方法

基于編碼解碼器的方法,是目前視頻描述領(lǐng)域的主流方法。這主要受益于基于深度神經(jīng)網(wǎng)絡(luò)的編碼解碼模型在機(jī)器翻譯領(lǐng)域取得的突破進(jìn)展。

機(jī)器翻譯的基本思路是: 將輸入的源語(yǔ)句和目標(biāo)語(yǔ)句表示在同一向量空間內(nèi),首先使用編碼器將源語(yǔ)句編碼為一個(gè)中間向量,然后再通過(guò)解碼器將中間向量解碼為目標(biāo)語(yǔ)句。

視頻描述問(wèn)題本質(zhì)上也可以看做是一個(gè)“翻譯”問(wèn)題,即把視頻翻譯成自然語(yǔ)言。此方法前期不需要對(duì)視頻采取復(fù)雜的處理過(guò)程,能夠直接從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)視頻到描述語(yǔ)言的映射關(guān)系,實(shí)現(xiàn)端到端的訓(xùn)練,并且能夠產(chǎn)生內(nèi)容更加精確、語(yǔ)法靈活和形式多樣的視頻描述。

責(zé)任編輯:武曉燕 來(lái)源: 活在信息時(shí)代
相關(guān)推薦

2022-11-04 07:12:24

JavaScript基準(zhǔn)測(cè)試

2022-09-04 19:43:05

程序員數(shù)據(jù)庫(kù)

2022-12-02 07:16:29

MySQL函數(shù)日期

2011-05-31 09:22:39

程序員

2011-05-26 10:04:30

程序員

2011-05-24 13:47:25

程序員

2010-07-27 16:21:25

程序員

2011-06-02 09:02:36

程序員

2011-05-31 09:37:53

程序員

2011-06-02 09:56:21

程序員團(tuán)隊(duì)精神

2021-05-22 10:01:45

PythonPython列表Python程序開(kāi)發(fā)

2011-05-31 10:50:36

程序員

2022-11-07 08:51:24

數(shù)據(jù)庫(kù)開(kāi)發(fā)笛卡爾積

2023-05-10 08:41:40

二叉樹(shù)遍歷算法

2019-01-30 14:14:16

LinuxUNIX操作系統(tǒng)

2022-07-20 00:03:10

Python列表字典推導(dǎo)

2014-06-09 16:43:11

程序員

2022-10-25 08:23:09

Reactor模式I/O

2024-03-14 12:17:00

數(shù)據(jù)庫(kù)數(shù)據(jù)模型

2014-07-01 09:43:55

程序員算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)