自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="e6kkw"><p id="e6kkw"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

LLM背后的基礎(chǔ)模型6：一文入門(mén)Embeddings 原創(chuàng)

發(fā)布于 2025-1-14 12:44

瀏覽

0收藏

Embeddings

Embeddings會(huì)分為兩個(gè)章節(jié)，前部分主要還是放在常規(guī)方法總結(jié)，后者主要放在神經(jīng)網(wǎng)絡(luò)技術(shù)。其實(shí)這個(gè)英文單詞不難理解，就是將對(duì)象用數(shù)字標(biāo)識(shí)描述。其實(shí)一直糾結(jié)是否要講述這個(gè)話(huà)題，因?yàn)榭缮羁蓽\。

若要用一句話(huà)概括，就是給輸入分配一個(gè)數(shù)字標(biāo)識(shí)，可以是一個(gè)整數(shù)數(shù)值也可以是一個(gè)向量。不過(guò)最重要的目的是在模型訓(xùn)練的過(guò)程中能夠高效且有效的學(xué)習(xí)參數(shù)。

這里需要解釋下向量，例如apple可以使用三維的向量[0.95,0.23,-0.23]來(lái)表示，也可以使用四維的向量來(lái)表示[0.95,0.23,-0.23,0.12]，請(qǐng)注意下圖中Embedding Dimensions這一列，不同模型的Embedding維度不一

LLM背后的基礎(chǔ)模型6：一文入門(mén)Embeddings-AI.x社區(qū)

1.one-hot encoding

這是一種最直觀，也是最不需要?jiǎng)幽X子的編碼模式。假如有10000個(gè)對(duì)象，那么每個(gè)對(duì)象就是一個(gè)10000維的向量，樸素也暴力。例如apple這個(gè)詞在第50個(gè)，那么apple對(duì)應(yīng)的編碼就是：10000維的向量，這個(gè)向量除了第50個(gè)為1之外，其余的數(shù)值均為0。

#詞匯表
Vocabulary:
{'mat', 'the', 'bird', 'hat', 'on', 'in', 'cat', 'tree', 'dog'}
#詞匯表中詞匯和位置的映射
Word to Index Mapping:
{'mat': 0, 'the': 1, 'bird': 2, 'hat': 3, 'on': 4, ……}
#輸入一句話(huà)的編碼矩陣
One-Hot Encoded Matrix:
cat: [0, 0, 0, 0, 0, 0, 1, 0, 0]
in:  [0, 0, 0, 0, 0, 1, 0, 0, 0]
the: [0, 1, 0, 0, 0, 0, 0, 0, 0]
hat: [0, 0, 0, 1, 0, 0, 0, 0, 0]
dog: [0, 0, 0, 0, 0, 0, 0, 0, 1]
on:  [0, 0, 0, 0, 1, 0, 0, 0, 0]
the: [0, 1, 0, 0, 0, 0, 0, 0, 0]
mat: [1, 0, 0, 0, 0, 0, 0, 0, 0]
bird:[0, 0, 1, 0, 0, 0, 0, 0, 0]
in:  [0, 0, 0, 0, 0, 1, 0, 0, 0]
the: [0, 1, 0, 0, 0, 0, 0, 0, 0]
tree:[0, 0, 0, 0, 0, 0, 0, 1, 0]

這種編碼方式的缺點(diǎn)顯而易見(jiàn)，One-hot編碼會(huì)產(chǎn)生高維向量，使其計(jì)算成本高昂且占用大量?jī)?nèi)存，尤其是在詞匯量較大的情況下；它不捕捉單詞之間的語(yǔ)義關(guān)系；它僅限于訓(xùn)練期間看到的詞匯，因此不適合處理詞匯表之外的單詞。

2.Feature Vector

第二種編碼方式是基于特征，其實(shí)彩色圖片是一種很好的例子。做過(guò)視覺(jué)學(xué)習(xí)的都知道彩色圖片常見(jiàn)的有三種通道（三維向量），分別代表RGB（紅綠藍(lán)）。三種顏色取不同的值就可以合成任意一個(gè)位置的色塊。舉個(gè)例子橘色其實(shí)就可以使用orange = [1, .5, 0]來(lái)表示。說(shuō)白了就是每個(gè)維度代表一種特征，然后組合起來(lái)就能代表一個(gè)輸入對(duì)象。

LLM背后的基礎(chǔ)模型6：一文入門(mén)Embeddings-AI.x社區(qū)

為了加深大家的理解，上圖這個(gè)例子更加直觀。假如約定的編碼只有4個(gè)維度，分別是“春夏秋冬”，那么上圖右側(cè)框框中的事物都可以使用下面的編碼來(lái)替代。具體的意思就是這個(gè)物體是不是在四季節(jié)出現(xiàn)，當(dāng)然學(xué)過(guò)數(shù)學(xué)組合的都知道這種編碼方式只能將整個(gè)世界的對(duì)象分成16類(lèi)。但是它已經(jīng)開(kāi)始在編碼中存儲(chǔ)對(duì)象之間的某種關(guān)系。

emoji = [spring, summer, autumn, winter]
??    = [1, 1, 1, 0]
??    = [1, 0, 0, 0]
??    = [1, 0, 0, 0]
??    = [0, 1, 0, 0]
??    = [0, 0, 1, 1]
??    = [0, 0, 1, 1]
...etc

這種編碼模式更加符合人腦，人類(lèi)在記憶某種事物的時(shí)候其實(shí)也是某種編碼，例如看到筆，一般會(huì)浮現(xiàn)它的形狀，屬性和相關(guān)的事物，例如紙張。

3.Document Vector

換個(gè)思路，假如收集了大量的文章，然后將文章里面的字詞在文章中出現(xiàn)的次數(shù)做個(gè)標(biāo)記?？梢缘玫饺缦碌木仃嚕好恳涣写碇恼戮幪?hào)，每一行代表某個(gè)詞，通過(guò)觀察圖片你就會(huì)發(fā)現(xiàn)其實(shí)traffic和network是不是有點(diǎn)相似，按照這個(gè)編碼其實(shí)也是一種思路。

LLM背后的基礎(chǔ)模型6：一文入門(mén)Embeddings-AI.x社區(qū)

4.Co-occurrence Vector

順著剛才的思路，其實(shí)還有一種編碼的辦法：可以將文章按照特定的長(zhǎng)度進(jìn)行窗口的滑動(dòng)，然后統(tǒng)計(jì)在這個(gè)窗口里面單詞之間的關(guān)聯(lián)次數(shù)。下圖給出例子，從其中可以發(fā)現(xiàn)其實(shí)data和mining還是挺相似的。這種編碼的好處在于這種類(lèi)型的embedding可以準(zhǔn)確地捕獲單詞的使用含義（畢竟單詞的含義會(huì)根據(jù)使用的時(shí)間、社區(qū)和上下文而變化）。

LLM背后的基礎(chǔ)模型6：一文入門(mén)Embeddings-AI.x社區(qū)

5.Neural Embedding

除了基于傳統(tǒng)的統(tǒng)計(jì)學(xué)方法，其實(shí)可以采用神經(jīng)網(wǎng)絡(luò)來(lái)幫助自動(dòng)化的抽取信息，方法很多。為了幫助大家更好的理解，這里先引入較早機(jī)器學(xué)習(xí)的一個(gè)術(shù)語(yǔ)，自編碼器。其實(shí)它的歷史很悠久，只不過(guò)到近期才被發(fā)揚(yáng)光大而已。

LLM背后的基礎(chǔ)模型6：一文入門(mén)Embeddings-AI.x社區(qū)

如何理解自編碼器呢，請(qǐng)看下圖：

LLM背后的基礎(chǔ)模型6：一文入門(mén)Embeddings-AI.x社區(qū)

當(dāng)輸入一副圖、一段語(yǔ)音或者一段文字的時(shí)候，通過(guò)綠色部分的神經(jīng)網(wǎng)絡(luò)，然后輸出一個(gè)向量，緊接著再將這個(gè)向量輸入紫色部分的神經(jīng)網(wǎng)絡(luò)，紫色部分的輸出為重建之后的圖、語(yǔ)音或者文字。最后用輸出和真實(shí)值對(duì)比出差異反過(guò)來(lái)調(diào)整兩個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)。如此循環(huán)！

聰明的你一定反應(yīng)過(guò)來(lái)了，要是重建之后的正確率很高的話(huà)。那么中間變量是不是經(jīng)過(guò)壓縮的向量，代表了原圖，原語(yǔ)音或者原文。對(duì)了！這個(gè)就是自編碼器。

那么中間的向量代表什么，其實(shí)是可以的解釋。以輸入“圖片”為例，中間的向量有些維度描述對(duì)象特征，有些描述了材質(zhì)。有人曾經(jīng)做過(guò)實(shí)驗(yàn)，語(yǔ)音通過(guò)自編碼器之后，中間向量有一部分代表內(nèi)容，一部分代表音調(diào)。取一段中文和一段日文的語(yǔ)音輸入編碼器，然后將兩個(gè)向量拆分組合，是可以重建出日語(yǔ)說(shuō)中文。

如何用神經(jīng)網(wǎng)絡(luò)用于Embedding，下文會(huì)展開(kāi)詳細(xì)講解。整體的基本思路還是在于將單詞的上下文和情景信息，通過(guò)神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練進(jìn)行編碼。

本文轉(zhuǎn)載自 ??魯班模錘??，作者：魯肅

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

神經(jīng)網(wǎng)絡(luò)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

一文帶你了解OpenAI Sora

381972426 ? 2426瀏覽 ? 0回復(fù)
6行代碼入門(mén)RAG開(kāi)發(fā)

dsqslgj ? 2961瀏覽 ? 0回復(fù)
俯視LLM的靈魂：一文搞懂稀疏自動(dòng)編碼器

魯班模錘1 ? 5215瀏覽 ? 0回復(fù)
一文詳解大語(yǔ)言模型的流行架構(gòu)與訓(xùn)練技術(shù)

angel ? 3671瀏覽 ? 0回復(fù)
這就是大語(yǔ)言模型！ | 一文梳理LLM中的核心概念

angel ? 4210瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門(mén)

51CTO內(nèi)容精選 ? 2148瀏覽 ? 0回復(fù)
一文詳解MHA、GQA、MQA原理

大模型自然語(yǔ)言處理 ? 3508瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

xuxiangda ? 4323瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 2768瀏覽 ? 0回復(fù)
一文帶你看懂開(kāi)源大模型基石LLaMA核心技術(shù)點(diǎn)，DeepSeek/千問(wèn)等LLM的模型結(jié)構(gòu)基礎(chǔ)

海因斯DK ? 2035瀏覽 ? 0回復(fù)
一文讀懂 PPO 與 GRPO：LLM 訓(xùn)練的關(guān)鍵算法

鴻煊的學(xué)習(xí)筆記 ? 5281瀏覽 ? 0回復(fù)
一文讀懂AI智能體的原理類(lèi)型、功能優(yōu)勢(shì)和最常見(jiàn)使用場(chǎng)景

數(shù)字化助推器 ? 4523瀏覽 ? 0回復(fù)
一文吃透自注意力機(jī)制

人工智能訓(xùn)練營(yíng) ? 2962瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 2004瀏覽 ? 0回復(fù)
大模型系列：一文帶你梳理Large Language Model發(fā)展歷程

海因斯DK ? 1711瀏覽 ? 0回復(fù)
大模型系列：一文匯總16個(gè)深度語(yǔ)言模型代表工作

海因斯DK ? 957瀏覽 ? 0回復(fù)
LLM基準(zhǔn)測(cè)試過(guò)時(shí)了嗎？一文讀懂其在AI評(píng)估中的現(xiàn)狀與挑戰(zhàn)

Halo咯咯 ? 733瀏覽 ? 0回復(fù)
【一文了解】大模型的思維鏈技術(shù)（CoT）

碼農(nóng)隨心筆記 ? 184瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

學(xué)會(huì)LLM思維：語(yǔ)料質(zhì)量的自評(píng)估 8天前發(fā)布
扒一扒最近較火的MCP 2025-04-10 06:28:30發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線(xiàn)！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：新鮮速遞：圖解新穎LLM的CoPE位置編碼

下一篇：圖解新穎LLM的CoPE位置編碼

社區(qū)精華內(nèi)容

目錄

<sub id="rnjqm"><p id="rnjqm"></p></sub>

^{<blockquote id="rnjqm"></blockquote>}

<sub id="rnjqm"></sub>

<sup id="rnjqm"></sup>