自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么是序列到序列(Seq2Seq)模型?以及為什么圖像理解領(lǐng)域主要使用的是CNN網(wǎng)絡(luò)而不是Transformer網(wǎng)絡(luò)? 原創(chuàng)

發(fā)布于 2025-1-2 14:13
瀏覽
0收藏

“ 大模型的核心點(diǎn)就在于特征的提取和重建,大模型技術(shù)的所有一切都是為了這個(gè)核心點(diǎn)服務(wù) ”

對(duì)大模型有過(guò)了解的人應(yīng)該都知道Transformer架構(gòu),而且也知道這個(gè)架構(gòu)在NLP(自然語(yǔ)言處理)領(lǐng)域大放異彩;但是為什么Transformer架構(gòu)能在NLP領(lǐng)域大放異彩,以及為什么圖像理解領(lǐng)域使用的是CNN網(wǎng)絡(luò),而不是Transformer網(wǎng)絡(luò)?

當(dāng)然,這句話有點(diǎn)片面,目前基于Transformer架構(gòu)在圖像處理領(lǐng)域也逐漸變得越來(lái)越重要。

序列到序列——Seq2Seq

先來(lái)回答一個(gè)問(wèn)題,什么是序列到序列——Seq2Seq? 什么又是序列到序列模型?

就拿自然語(yǔ)言處理來(lái)說(shuō)吧,什么是自然語(yǔ)言?自然語(yǔ)言就是隨著文化自然演化的語(yǔ)言,比如我們漢語(yǔ),現(xiàn)代的漢語(yǔ)與古代的漢語(yǔ)就不完全一樣;現(xiàn)代漢語(yǔ)雖然脫胎于古漢語(yǔ),但又在進(jìn)化的過(guò)程中,融入了新的元素;古英語(yǔ)也是類似情況。

什么是序列到序列(Seq2Seq)模型?以及為什么圖像理解領(lǐng)域主要使用的是CNN網(wǎng)絡(luò)而不是Transformer網(wǎng)絡(luò)?-AI.x社區(qū)

語(yǔ)言的主要特點(diǎn)是什么?

語(yǔ)言主要特點(diǎn)就是其表達(dá)方式,比如說(shuō)英語(yǔ)是表音型語(yǔ)言,而漢語(yǔ)是表意型語(yǔ)言;其語(yǔ)言結(jié)構(gòu)和特點(diǎn)是不一樣的。

但從語(yǔ)言的本質(zhì)上來(lái)說(shuō),不論是表音語(yǔ)言或者表意語(yǔ)言;語(yǔ)言的目的是為了表達(dá)人類的思想和行為。因此,表音語(yǔ)言也好,表意語(yǔ)言也罷,最重要的是表達(dá)語(yǔ)義,也就是我們說(shuō)話的意思、含義。

當(dāng)然,這時(shí)你可能會(huì)有疑問(wèn),這個(gè)和序列到序列有什么關(guān)系?

語(yǔ)言就是一個(gè)序列性的內(nèi)容,因?yàn)樗沁B續(xù)的,在不同的上下文中,同一句話具有不同的含義;而在自然語(yǔ)言處理領(lǐng)域,大模型即需要去理解語(yǔ)言,也需要去生成新的語(yǔ)言(這就是之前文章中講的編碼器和解碼器的作用,編碼器通過(guò)模態(tài)提取來(lái)理解語(yǔ)言,通過(guò)解碼器來(lái)生成語(yǔ)言)。

而類似于這種具有關(guān)聯(lián)關(guān)系的內(nèi)容領(lǐng)域,就屬于序列到序列處理;因?yàn)樗枰斫庖粋€(gè)序列,又需要生成一個(gè)新的序列。而序列到序列這個(gè)名詞的來(lái)源是因?yàn)樵谟⑽闹羞@個(gè)叫做Sequence to Sequence,而直譯過(guò)來(lái)就成了序列到序列。

什么是序列到序列(Seq2Seq)模型?以及為什么圖像理解領(lǐng)域主要使用的是CNN網(wǎng)絡(luò)而不是Transformer網(wǎng)絡(luò)?-AI.x社區(qū)

因此,序列到序列的本質(zhì)是描述一種具有連續(xù)性關(guān)系的生成模型;除了自然語(yǔ)言處理之外,還廣泛應(yīng)用于機(jī)器翻譯,語(yǔ)音識(shí)別,視頻處理等領(lǐng)域;簡(jiǎn)單來(lái)說(shuō),凡是具有連續(xù)關(guān)系的領(lǐng)域,都可以使用Seq2Seq的處理方式。

說(shuō)到這里,可能很多人已經(jīng)想明白了為什么在圖像處理領(lǐng)域使用的是CNN(卷積神經(jīng)網(wǎng)絡(luò)),原因就在于圖像是一個(gè)不連續(xù)的過(guò)程;因?yàn)槊繌垐D片都是一個(gè)獨(dú)立的個(gè)體,它和別的圖片沒(méi)有直接連續(xù)關(guān)系。如果圖片有了連續(xù)的關(guān)系,那么它就不再是圖片,而是變成了視頻。

當(dāng)然,自然語(yǔ)言出來(lái)遠(yuǎn)沒(méi)有想象中的那么簡(jiǎn)單,即使編碼器和解碼器也是有復(fù)雜的神經(jīng)網(wǎng)絡(luò)層構(gòu)成。而且,隨著技術(shù)的發(fā)展Transformer架構(gòu)也在不斷地進(jìn)化,其在處理圖像這種非序列化數(shù)據(jù)時(shí),能力也得到了巨大的增強(qiáng)。

為什么CNN擅長(zhǎng)處理圖像數(shù)據(jù)?

什么是序列到序列(Seq2Seq)模型?以及為什么圖像理解領(lǐng)域主要使用的是CNN網(wǎng)絡(luò)而不是Transformer網(wǎng)絡(luò)?-AI.x社區(qū)

在大模型技術(shù)中,不論什么模型最重要的兩個(gè)功能點(diǎn)就是特征提取和特征重建;簡(jiǎn)單來(lái)說(shuō)就是先理解(學(xué)習(xí)),再生成。

而圖像的本質(zhì)就是一堆像素點(diǎn),其特征提取本質(zhì)上來(lái)說(shuō)就是獲取這些像素點(diǎn)之間的關(guān)系;因此,卷積就成了圖像理解的最佳實(shí)踐方案之一,原因就在于卷積能夠很好的描述像素之間的關(guān)系;通過(guò)卷積能夠?qū)D像進(jìn)行多重變換,以此來(lái)獲取到足夠的特征數(shù)據(jù)。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/kxrRIgDRekjzGMrBB9EZeQ??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦