自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="qkmwb"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

CLIP：語言-圖像表示之間的橋梁

作者：佚名 2023-03-19 17:21:31

開發(fā) 架構(gòu)

最近GPT4的火爆覆蓋了一個(gè)新聞：midjourney v5發(fā)布，DALLE2，midjourney都可以從文本中生成圖像，這種模型要求人工智能同時(shí)理解語言和圖像數(shù)據(jù)。

最近GPT4的火爆覆蓋了一個(gè)新聞：midjourney v5發(fā)布，DALLE2，midjourney都可以從文本中生成圖像，這種模型要求人工智能同時(shí)理解語言和圖像數(shù)據(jù)。

傳統(tǒng)的基于人工智能的模型很難同時(shí)理解語言和圖像。因?yàn)樽匀徽Z言處理和計(jì)算機(jī)視覺一直被視為兩個(gè)獨(dú)立的領(lǐng)域，這使得機(jī)器在兩者之間進(jìn)行有效溝通具有挑戰(zhàn)性。

然而CLIP的多模態(tài)架構(gòu)通過在相同的潛在空間中學(xué)習(xí)語言和視覺表現(xiàn)在二者之間建立了橋梁。因此，CLIP允許我們利用其他架構(gòu)，使用它的“語言-圖像表示”進(jìn)行下游任務(wù)。

CLIP是一個(gè)基于超大數(shù)據(jù)量的pair-wise 預(yù)訓(xùn)練模型但是在它的下游任務(wù)DalleE-2，Stable-Diffusion中，CLIP也是其中打通文本和圖像的核心模塊，比如開源的SD2就是使用了OpenCLIP來學(xué)習(xí)二者的表示，因此了解CLIP是深入了解后續(xù)擴(kuò)散模型非常重要的一環(huán)，所以我們今天來主要介紹一下CLIP：

Contrastive Language-Image Pre-training （CLIP）利用自然語言描述圖像的數(shù)據(jù)，訓(xùn)練了一個(gè)同時(shí)對圖像和文本具有深度理解能力的神經(jīng)網(wǎng)絡(luò)模型。通過使用自然語言作為監(jiān)督信號(hào)，CLIP 可以自然地跨越多個(gè)視覺和語言數(shù)據(jù)集，且具有較強(qiáng)的可遷移性。CLIP 可以與最先進(jìn)的視覺和語言模型相媲美，且可以在多個(gè)視覺和語言任務(wù)上進(jìn)行零樣本學(xué)習(xí)。

架構(gòu)

CLIP架構(gòu)由兩個(gè)主要組件組成:圖像編碼器和文本編碼器。每個(gè)編碼器都能夠分別理解來自圖像或文本的信息，并將這些信息嵌入到向量中。CLIP的思想是在圖像-文本對的大型數(shù)據(jù)集中訓(xùn)練這些編碼器，并使嵌入變得相似。

“給定一批N(圖像，文本)對，CLIP被訓(xùn)練來預(yù)測一批中N × N個(gè)可能的(圖像，文本)對中哪一個(gè)是真實(shí)的實(shí)匹配?！彼ㄟ^聯(lián)合訓(xùn)練編碼器來學(xué)習(xí)多模態(tài)嵌入空間，對N個(gè)圖像和文本嵌入進(jìn)行余弦相似度的計(jì)算，最大小化正確的匹配，最大化不正確的匹配。

由于CLIP是在一個(gè)大的預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練的，它可以很好地泛化許多下游任務(wù)。CLIP為我們提供了兩個(gè)編碼器，可以將文本和圖像嵌入到相同的潛在空間中，所以我們可以有效地將其用于許多應(yīng)用程序。

應(yīng)用

以下是一些使用CLIP的下游任務(wù)示例:

1、圖像分類

CLIP可用于圖像分類任務(wù)，CLIP將圖像與其對應(yīng)的文本描述相關(guān)聯(lián)的能力使其能夠很好地泛化到新的類別，并與其他圖像分類模型相比提高性能。

比如說HuggingFace提供了的這個(gè)簡單的例子

from PIL import Image
 import requests
 
 from transformers import CLIPProcessor, CLIPModel
 
 model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
 processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
 
 url = "http://images.cocodataset.org/val2017/000000039769.jpg"
 image = Image.open(requests.get(url, stream=True).raw)
 
 inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
 
 outputs = model(**inputs)
 logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
 probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

2、圖像描述

CLIP可用于圖像描述任務(wù)，利用它將圖像與相應(yīng)的文本描述相關(guān)聯(lián)的能力，我們可以將CLIP與其他序列到序列模型結(jié)合起來，使用CLIP的嵌入來生成標(biāo)題等。我們可以參考我們的CoCa(對比字幕)，或者CLIPCap，它將CLIP與GPT模型結(jié)合起來生成字幕。

3、文本到圖像

CLIP在文本到圖像生成上下文中的一個(gè)有趣應(yīng)用是潛在擴(kuò)散模型。該模型使用CLIP作為一種方法來指導(dǎo)從文本描述中生成逼真的圖像。

在潛在擴(kuò)散模型中使用CLIP有幾個(gè)優(yōu)點(diǎn)。首先，它允許模型生成更忠實(shí)于文本描述的圖像，因?yàn)镃LIP可以就生成的圖像和文本描述之間的語義相似性提供反饋。其次，它允許模型生成更多樣化和更有創(chuàng)造性的圖像，因?yàn)镃LIP可以引導(dǎo)生成過程朝著不太常見但仍然合理的圖像表示。

CLIP處理圖像和文本輸入的能力及其預(yù)訓(xùn)練過程使其成為各種領(lǐng)域中下游任務(wù)的多功能和強(qiáng)大的工具。

總結(jié)

CLIP 將語言和圖像表示合二為一的能力為許多應(yīng)用打開了大門。雖然我們?nèi)祟惪梢愿兄煌愋偷臄?shù)據(jù)，包括文本、數(shù)據(jù)、音頻等。但是過去基于 AI 的模型已經(jīng)顯示出它們只能理解一種模態(tài)的弱點(diǎn)。有了 CLIP，我們可以想象一個(gè)未來，人工智能模型可以像我們一樣“理解”這個(gè)世界。

責(zé)任編輯：華軒來源： DeepHub IMBA

CLIP 架構(gòu)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營