自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="s12ya"><p id="s12ya"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

機(jī)器學(xué)習(xí)|從0開始大模型之位置編碼

周末程序猿

發(fā)布于 2025-1-20 12:07

瀏覽

0收藏

1、什么是位置編碼

在語言中，一句話是由詞組成的，詞與詞之間是有順序的，如果順序亂了或者重排，其實(shí)整個(gè)句子的意思就變了，所以詞與詞之間是有順序的。在循環(huán)神經(jīng)網(wǎng)絡(luò)中，序列與序列之間也是有順序的，所以循環(huán)神經(jīng)網(wǎng)絡(luò)中，序列與序列之間也是有順序的，不需要處理這種問題。但是在Transformer中，每個(gè)詞是獨(dú)立的，所以需要將詞的位置信息添加到模型中，讓模型維護(hù)順序關(guān)系。

機(jī)器學(xué)習(xí)|從0開始大模型之位置編碼-AI.x社區(qū)

位置編碼

位置編碼就是將hello world! 的token和位置關(guān)系通過向量表示出來，作為訓(xùn)練的輸入數(shù)據(jù)，如上圖，位置編碼最終會變成：

[
    [P00, P01, P02 ... P0d],
    [P10, P11, P12 ... P1d],
    [P20, P21, P22 ... P2d],
]

2、計(jì)算位置編碼

計(jì)算位置編碼有多種方式：固定位置編碼，相對位置編碼，絕對位置編碼，其中Transformer的作者設(shè)計(jì)了一種三角函數(shù)位置編碼方式，通過三角函數(shù)計(jì)算輸出位置編碼向量。

為什么三角函數(shù)可以作為計(jì)算位置編碼的函數(shù)？

首先我們來回顧一下三角函數(shù)的基本性質(zhì)：函數(shù)具有周期性，取值范圍是[-1, 1]。

機(jī)器學(xué)習(xí)|從0開始大模型之位置編碼-AI.x社區(qū)

sin

其次，如果用絕對位置編碼計(jì)算最大序列為3的位置（0-7），二進(jìn)制表示如下：

[
    [0, 0, 0], 
    [0, 0, 1], 
    [0, 1, 0], 
    [0, 1, 1], 
    [1, 0, 0], 
    [1, 0, 1], 
    [1, 1, 0], 
    [1, 1, 1]
]

從上可以表示看出，較高比特位的交替頻率低于較低比特位，存在周期性bit位變化，符合三角函數(shù)的周期性，而且三角函數(shù)的取值范圍是[-1, 1]，輸出浮點(diǎn)數(shù)，并且數(shù)據(jù)連續(xù)，比直接使用二進(jìn)制更節(jié)省空間。

3、Transformer中的位置編碼層

假設(shè)你有一個(gè)長度為L的輸入序列，要計(jì)算第K個(gè)元素的位置編碼，位置編碼由不同頻率的正弦和余弦函數(shù)給出：

機(jī)器學(xué)習(xí)|從0開始大模型之位置編碼-AI.x社區(qū)

函數(shù)

k：詞序列中的第K個(gè)元素
d：詞向量維度，比如512，1024，8K等
P(k, i)：位置函數(shù)，輸出位置編碼向量
n：定義的標(biāo)量，Attention Is All You Need 的作者設(shè)置為 10,000
i：映射到列索引，范圍是0~d/2（由于輸入是2i表示，如果用i表示，范圍可以是0~d）

按照上述Hello world!的例子，計(jì)算位置編碼結(jié)果如下：

機(jī)器學(xué)習(xí)|從0開始大模型之位置編碼-AI.x社區(qū)

計(jì)算結(jié)果

那么用代碼實(shí)現(xiàn)一個(gè)簡化版本的位置編碼：

import numpy as np

def getPositionEncoding(seq_len, d, n=10000):
    P = np.zeros((seq_len, d))
    for k in range(seq_len):
        for i in np.arange(int(d/2)):
            denominator = np.power(n, 2*i/d)
            P[k, 2*i] = np.sin(k/denominator)
            P[k, 2*i+1] = np.cos(k/denominator)
    return P

P = getPositionEncoding(seq_len=3, d=3, n=100)
print(P)

# 輸出結(jié)果：
[[ 0.          1.          0.        ]
 [ 0.84147098  0.54030231  0.        ]
 [ 0.90929743 -0.41614684  0.        ]]

4、大模型訓(xùn)練中的位置編碼代碼

在我們從0訓(xùn)練大模型中，其位置編碼的實(shí)現(xiàn)如下：

def precompute_pos_cis(dim: int, seq_len: int, theta: float = 10000.0):
    """預(yù)計(jì)算相對位置編碼的復(fù)數(shù)形式，用于旋轉(zhuǎn)位置編碼（RoPE）。"""
    freqs = 1.0 / (theta ** (torch.arange(0, dim, 2)[: (dim // 2)].float() / dim)) # 計(jì)算頻率
    t = torch.arange(seq_len, device=freqs.device)  # 創(chuàng)建時(shí)間步長
    freqs = torch.outer(t, freqs).float()  # 計(jì)算頻率的外積
    pos_cis = torch.polar(torch.ones_like(freqs), freqs)  # 生成復(fù)數(shù)形式的頻率
    return pos_cis # 返回預(yù)計(jì)算的復(fù)數(shù)位置編碼

def apply_rotary_emb(xq, xk, pos_cis):
    """應(yīng)用旋轉(zhuǎn)位置編碼到查詢和鍵。"""
    def unite_shape(pos_cis, x):
        """調(diào)整位置編碼的形狀以匹配輸入張量的形狀。"""
        ndim = x.ndim # 獲取輸入的維度
        assert 0 <= 1 < ndim # 確保維度有效
        assert pos_cis.shape == (x.shape[1], x.shape[-1])  # 確保位置編碼形狀匹配
        shape = [d if i == 1 or i == ndim - 1 else 1 for i, d in enumerate(x.shape)] # 生成新形狀
        return pos_cis.reshape(*shape) # 調(diào)整位置編碼的形狀

    # 將查詢和鍵轉(zhuǎn)換為復(fù)數(shù)形式
    xq_ = torch.view_as_complex(xq.float().reshape(*xq.shape[:-1], -1, 2))
    xk_ = torch.view_as_complex(xk.float().reshape(*xk.shape[:-1], -1, 2))
    pos_cis = unite_shape(pos_cis, xq_) # 調(diào)整位置編碼形狀
    xq_out = torch.view_as_real(xq_ * pos_cis).flatten(3) # 應(yīng)用位置編碼并轉(zhuǎn)換回實(shí)數(shù)
    xk_out = torch.view_as_real(xk_ * pos_cis).flatten(3) # 同上
    return xq_out.type_as(xq), xk_out.type_as(xk)         # 返回與輸入類型一致的輸出

這里使用的是RoPE旋轉(zhuǎn)位置編碼，和相對位置編碼相比，RoPE 具有更好的外推性，Meta 的 LLAMA 和清華的 ChatGLM 都使用該編碼，目前是大模型相對位置編碼中應(yīng)用最廣的方式之一，具體原理由于篇幅原因就不講了，可以看看這篇文章：https://cloud.tencent.com/developer/article/2327751。

參考

（1）http://www.bimant.com/blog/transformer-positional-encoding-illustration/（2）https://hub.baai.ac.cn/view/29979

本文轉(zhuǎn)載自 ??周末程序猿??，作者：周末程序猿

標(biāo)簽

機(jī)器學(xué)習(xí)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

機(jī)器學(xué)習(xí)之特征工程深度解析

51CTO內(nèi)容精選 ? 2515瀏覽 ? 0回復(fù)
深度學(xué)習(xí)算法之稀疏自編碼器完整剖析

51CTO內(nèi)容精選 ? 3500瀏覽 ? 0回復(fù)
大模型學(xué)習(xí)方法之——大模型技術(shù)學(xué)習(xí)路線

AI探索時(shí)代 ? 3879瀏覽 ? 0回復(fù)
詳解Transformer中位置編碼Positional Encoding

Tang_Lan ? 4426瀏覽 ? 0回復(fù)
不要沉迷大模型的技術(shù)與理論，學(xué)習(xí)大模型的方法——從做一個(gè)小應(yīng)用開始

AI探索時(shí)代 ? 2432瀏覽 ? 0回復(fù)
解讀AI大模型，從了解token開始

ermulong ? 2845瀏覽 ? 0回復(fù)
解讀AI大模型，從了解token開始

ermulong ? 1885瀏覽 ? 0回復(fù)
克服機(jī)器學(xué)習(xí)轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法

51CTO內(nèi)容精選 ? 2161瀏覽 ? 0回復(fù)
AI大模型實(shí)踐之字節(jié)0-1智能客服

數(shù)字化助推器 ? 1832瀏覽 ? 0回復(fù)
新鮮速遞：圖解新穎LLM的CoPE位置編碼

魯班模錘1 ? 2062瀏覽 ? 0回復(fù)
如何從0開始構(gòu)建一個(gè)通用AI Agent 智能體架構(gòu)設(shè)計(jì)和實(shí)現(xiàn)？

玄姐聊AGI ? 3064瀏覽 ? 0回復(fù)
Reyes：一個(gè)從0到1開始訓(xùn)練的多模態(tài)大模型（技術(shù)報(bào)告）

大模型自然語言處理 ? 1857瀏覽 ? 0回復(fù)
圖解新穎LLM的CoPE位置編碼

魯班模錘1 ? 1513瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開始大模型之模型DPO訓(xùn)練

周末程序猿 ? 1831瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí) | 從0開發(fā)大模型之DeepSeek的GRPO

周末程序猿 ? 1883瀏覽 ? 0回復(fù)
從0開始：用 Streamlit + LangChain 搭建個(gè)簡易ChatGPT

AI取經(jīng)路 ? 2893瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí) | 從0開發(fā)大模型-譯llama3-from-scratch

周末程序猿 ? 1708瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開發(fā)大模型之復(fù)現(xiàn)DeepSeek的aha moment

周末程序猿 ? 1633瀏覽 ? 0回復(fù)
Transformer中的位置編碼技術(shù)：從理論到實(shí)踐的深度解析！

南夏的算法驛站 ? 1506瀏覽 ? 0回復(fù)

周末程序猿

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

機(jī)器學(xué)習(xí)｜MCP（Model Context Protocol）實(shí)戰(zhàn) 2025-04-16 06:17:45發(fā)布
RAG實(shí)戰(zhàn) | 向量數(shù)據(jù)庫LanceDB指南 2025-04-03 00:15:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

下一篇：機(jī)器學(xué)習(xí)|從0開始大模型之模型DPO訓(xùn)練

社區(qū)精華內(nèi)容

目錄

<center id="5u86d"><style id="5u86d"></style></center>

<style id="5u86d"><li id="5u86d"></li></style>

<cite id="5u86d"><rp id="5u86d"><pre id="5u86d"></pre></rp></cite>