自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

使用Pytorch構(gòu)建視覺語(yǔ)言模型（VLM）

作者：Achraf Abbaoui 2024-11-19 13:17:38

本文將介紹 VLM 的核心組件和實(shí)現(xiàn)細(xì)節(jié)，可以讓你全面掌握這項(xiàng)前沿技術(shù)。我們的目標(biāo)是理解并實(shí)現(xiàn)能夠通過(guò)指令微調(diào)來(lái)執(zhí)行有用任務(wù)的視覺語(yǔ)言模型。

視覺語(yǔ)言模型（Vision Language Model，VLM）正在改變計(jì)算機(jī)對(duì)視覺和文本信息的理解與交互方式。本文將介紹 VLM 的核心組件和實(shí)現(xiàn)細(xì)節(jié)，可以讓你全面掌握這項(xiàng)前沿技術(shù)。我們的目標(biāo)是理解并實(shí)現(xiàn)能夠通過(guò)指令微調(diào)來(lái)執(zhí)行有用任務(wù)的視覺語(yǔ)言模型。

總體架構(gòu)

VLM 的總體架構(gòu)包括：

圖像編碼器（Image Encoder）：用于從圖像中提取視覺特征。本文將從 CLIP 中使用的原始視覺 Transformer。
視覺-語(yǔ)言投影器（Vision-Language Projector）：由于圖像嵌入的形狀與解碼器使用的文本嵌入不同，所以需要對(duì)圖像編碼器提取的圖像特征進(jìn)行投影，匹配文本嵌入空間，使圖像特征成為解碼器的視覺標(biāo)記（visual tokens）。這可以通過(guò)單層或多層感知機(jī)（MLP）實(shí)現(xiàn)，本文將使用 MLP。
分詞器和嵌入層（Tokenizer + Embedding Layer）：分詞器將輸入文本轉(zhuǎn)換為一系列標(biāo)記 ID，這些標(biāo)記經(jīng)過(guò)嵌入層，每個(gè)標(biāo)記 ID 被映射為一個(gè)密集向量。
位置編碼（Positional Encoding）：幫助模型理解標(biāo)記之間的序列關(guān)系，對(duì)于理解上下文至關(guān)重要。
共享嵌入空間（Shared Embedding Space）：將文本嵌入與來(lái)自位置編碼的嵌入進(jìn)行拼接（concatenate），然后傳遞給解碼器。
解碼器（Decoder-only Language Model）：負(fù)責(zé)最終的文本生成。

上圖是來(lái)自CLIP 論文的方法示意圖，主要介紹文本和圖片進(jìn)行投影

綜上，我們使用圖像編碼器從圖像中提取特征，獲得圖像嵌入，通過(guò)視覺-語(yǔ)言投影器將圖像嵌入投影到文本嵌入空間，與文本嵌入拼接后，傳遞給自回歸解碼器生成文本。

VLM 的關(guān)鍵在于視覺和文本信息的融合，具體步驟如下：

通過(guò)編碼器提取圖像特征（圖像嵌入）。
將這些嵌入投影以匹配文本的維度。
將投影后的特征與文本嵌入拼接。
將組合的表示輸入解碼器生成文本。

深度解析：圖像編碼器的實(shí)現(xiàn)

圖像編碼器：視覺 Transformer

為將圖像轉(zhuǎn)換為密集表示（圖像嵌入），我們將圖像分割為小塊（patches），因?yàn)?Transformer 架構(gòu)最初是為處理詞序列設(shè)計(jì)的。

為從零開始實(shí)現(xiàn)視覺 Transformer，我們需要?jiǎng)?chuàng)建一個(gè) PatchEmbeddings 類，接受圖像并創(chuàng)建一系列小塊。該過(guò)程對(duì)于使 Transformer 架構(gòu)能夠有效地處理視覺數(shù)據(jù)至關(guān)重要，特別是在后續(xù)的注意力機(jī)制中。實(shí)現(xiàn)如下：

class PatchEmbeddings(nn.Module):  
     def __init__(self, img_size=96, patch_size=16, hidden_dim=512):  
         super().__init__()  
         self.img_size = img_size  
         self.patch_size = patch_size  
         self.num_patches = (img_size // patch_size) ** 2  
           
         # 無(wú)重疊卷積用于提取小塊  
         self.conv = nn.Conv2d(  
             in_channels=3,  
             out_channels=hidden_dim,  
             kernel_size=patch_size,  
             stride=patch_size  
        )  
           
         # 使用 Xavier/Glorot 初始化權(quán)重  
         nn.init.xavier_uniform_(self.conv.weight)  
         if self.conv.bias is not None:  
             nn.init.zeros_(self.conv.bias)  
     def forward(self, X):  
         """  
        參數(shù)： 
            X: 輸入張量，形狀為 [B, 3, H, W]  
        返回： 
            小塊嵌入，形狀為 [B, num_patches, hidden_dim]  
        """  
         if X.size(2) != self.img_size or X.size(3) != self.img_size:  
             raise ValueError(f"輸入圖像尺寸必須為 {self.img_size}x{self.img_size}")  
               
         X = self.conv(X)  # [B, hidden_dim, H/patch_size, W/patch_size]  
         X = X.flatten(2)  # [B, hidden_dim, num_patches]  
         X = X.transpose(1, 2)  # [B, num_patches, hidden_dim]  
         return X

在上述代碼中，輸入圖像通過(guò)卷積層被分解為 (img_size // patch_size) 2** 個(gè)小塊，并投影為具有通道維度為 512 的向量（在 PyTorch 實(shí)現(xiàn)中，三維張量的形狀通常為 [B, T, C]）。

注意力機(jī)制

視覺編碼器和語(yǔ)言解碼器的核心都是注意力機(jī)制。關(guān)鍵區(qū)別在于解碼器使用因果（掩碼）注意力，而編碼器使用雙向注意力。以下是對(duì)單個(gè)注意力頭的實(shí)現(xiàn)：

class Head(nn.Module):  
     def __init__(self, n_embd, head_size, dropout=0.1, is_decoder=False):  
         super().__init__()  
         self.key = nn.Linear(n_embd, head_size, bias=False)  
         self.query = nn.Linear(n_embd, head_size, bias=False)  
         self.value = nn.Linear(n_embd, head_size, bias=False)  
         self.dropout = nn.Dropout(dropout)  
         self.is_decoder = is_decoder  
       
     def forward(self, x):  
         B, T, C = x.shape  
         k = self.key(x)  
         q = self.query(x)  
         v = self.value(x)  
           
         wei = q @ k.transpose(-2, -1) * (C ** -0.5)  
           
         if self.is_decoder:  
             tril = torch.tril(torch.ones(T, T, dtype=torch.bool, device=x.device))  
             wei = wei.masked_fill(tril == 0, float('-inf'))  
           
         wei = F.softmax(wei, dim=-1)  
         wei = self.dropout(wei)  
         out = wei @ v  
         return out

視覺-語(yǔ)言投影器

投影器模塊在對(duì)齊視覺和文本表示中起關(guān)鍵作用。我們將其實(shí)現(xiàn)為一個(gè)多層感知機(jī)（MLP）：

class MultiModalProjector(nn.Module):  
     def __init__(self, n_embd, image_embed_dim, dropout=0.1):  
         super().__init__()  
         self.net = nn.Sequential(  
             nn.Linear(image_embed_dim, 4 * image_embed_dim),  
             nn.GELU(),  
             nn.Linear(4 * image_embed_dim, n_embd),  
             nn.Dropout(dropout)  
        )  
       
     def forward(self, x):  
         return self.net(x)

綜合實(shí)現(xiàn)

最終的 VLM 類將所有組件整合在一起：

class VisionLanguageModel(nn.Module):  
     def __init__(self, n_embd, image_embed_dim, vocab_size, n_layer,  
                  img_size, patch_size, num_heads, num_blks,  
                  emb_dropout, blk_dropout):  
         super().__init__()  
         num_hiddens = image_embed_dim  
         assert num_hiddens % num_heads == 0  
           
         self.vision_encoder = ViT(  
             img_size, patch_size, num_hiddens, num_heads,  
             num_blks, emb_dropout, blk_dropout  
        )  
           
         self.decoder = DecoderLanguageModel(  
             n_embd, image_embed_dim, vocab_size, num_heads,  
             n_layer, use_images=True  
        )  
       
     def forward(self, img_array, idx, targets=None):  
         image_embeds = self.vision_encoder(img_array)  
           
         if image_embeds.nelement() == 0 or image_embeds.shape[1] == 0:  
             raise ValueError("ViT 模型輸出為空張量")  
               
         if targets is not None:  
             logits, loss = self.decoder(idx, image_embeds, targets)  
             return logits, loss  
         else:  
             logits = self.decoder(idx, image_embeds)  
             return logits

訓(xùn)練及注意事項(xiàng)

在訓(xùn)練 VLM 時(shí)，需要考慮以下重要因素：

預(yù)訓(xùn)練策略：現(xiàn)代 VLM 通常使用預(yù)訓(xùn)練的組件：

視覺編碼器：來(lái)自 CLIP 或 SigLIP
語(yǔ)言解碼器：來(lái)自 Llama 或 GPT 等模型
投影器模塊：初始階段僅訓(xùn)練此模塊

訓(xùn)練階段：

階段 1：在凍結(jié)的編碼器和解碼器下預(yù)訓(xùn)練，僅更新投影器
階段 2：微調(diào)投影器和解碼器以適應(yīng)特定任務(wù)
可選階段 3：通過(guò)指令微調(diào)提升任務(wù)性能

數(shù)據(jù)需求：

大規(guī)模的圖像-文本對(duì)用于預(yù)訓(xùn)練
任務(wù)特定的數(shù)據(jù)用于微調(diào)
高質(zhì)量的指令數(shù)據(jù)用于指令微調(diào)

總結(jié)

通過(guò)從零開始實(shí)現(xiàn)視覺語(yǔ)言模型（VLM），我們深入探討了視覺和語(yǔ)言處理在現(xiàn)代人工智能系統(tǒng)中的融合方式。本文詳細(xì)解析了 VLM 的核心組件，包括圖像編碼器、視覺-語(yǔ)言投影器、分詞器、位置編碼和解碼器等模塊。我們強(qiáng)調(diào)了多模態(tài)融合的關(guān)鍵步驟，以及在實(shí)現(xiàn)過(guò)程中需要注意的訓(xùn)練策略和數(shù)據(jù)需求。

構(gòu)建 VLM 不僅加深了我們對(duì)視覺和語(yǔ)言模型內(nèi)部機(jī)制的理解，還為進(jìn)一步的研究和應(yīng)用奠定了基礎(chǔ)。隨著該領(lǐng)域的迅速發(fā)展，新的架構(gòu)設(shè)計(jì)、預(yù)訓(xùn)練策略和微調(diào)技術(shù)不斷涌現(xiàn)。我們鼓勵(lì)讀者基于本文的實(shí)現(xiàn)，探索更先進(jìn)的模型和方法，如采用替代的視覺編碼器、更復(fù)雜的投影機(jī)制和高效的訓(xùn)練技術(shù)，以推動(dòng)視覺語(yǔ)言模型的創(chuàng)新和實(shí)際應(yīng)用。

責(zé)任編輯：華軒來(lái)源： DeepHub IMBA

視覺語(yǔ)言模型 Pytorch 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)