自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLMs的基本組成:向量、Tokens和嵌入

發(fā)布于 2024-9-4 12:09
瀏覽
0收藏

了解向量、Tokens和嵌入是理解大語言模型怎樣處理語言的基礎(chǔ)。

在處理LLMs時,你經(jīng)常會遇到“向量”、“Tokens”和“嵌入”這些術(shù)語。在深入研究構(gòu)建聊天機器人和人工智能助手之前,徹底理解這些概念非常重要。隨著多模態(tài)方法日益普及,這些術(shù)語不僅僅適用于大型語言模型(LLMs),還可用于解釋圖像和視頻。

本教程的目標(biāo)是通過簡單直接的示例和代碼片段向你介紹這些核心概念。

向量:機器的語言

向量在LLMs和生成式人工智能的運作中起著至關(guān)重要的作用。要理解它們的重要性,就必須了解向量是什么,以及它們在LLMs中是如何生成和利用的。

在數(shù)學(xué)和物理學(xué)中,向量是一個具有大小和方向的對象。它可以幾何地表示為一個有向線段,其中線段的長度表示大小,箭頭指向向量的方向。向量在表示不能完全用單個數(shù)字描述的量(如力、速度或位移)時起著基礎(chǔ)作用,這些量具有大小和方向。

在LLMs領(lǐng)域,向量用于以模型可以理解和處理的數(shù)字形式表示文本或數(shù)據(jù)。這種表示被稱為嵌入。嵌入是捕捉單詞、句子甚至整個文檔的語義含義的高維向量。將文本轉(zhuǎn)換為嵌入的過程使LLMs能夠執(zhí)行各種自然語言處理任務(wù),如文本生成、情感分析等。

簡單來說,向量就是一個一維數(shù)組。

由于機器只能理解數(shù)字,因此諸如文本和圖像之類的數(shù)據(jù)被轉(zhuǎn)換為向量。向量是唯一被神經(jīng)網(wǎng)絡(luò)和變換器架構(gòu)理解的格式。

對向量進行操作,例如點積,有助于我們發(fā)現(xiàn)兩個向量是否相同或不同。在高層次上,這構(gòu)成了對存儲在內(nèi)存中或?qū)iT的向量數(shù)據(jù)庫中的向量進行相似性搜索的基礎(chǔ)。

下面的代碼片段介紹了向量的基本概念。如你所見,它是一個簡單的一維數(shù)組:

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

雖然上面顯示的向量與文本無關(guān),但它傳達了這個概念。我們在下一節(jié)探討的Tokens是表示文本的向量的機制。

Tokens:LLMs的基本構(gòu)建塊

Tokens是LLMs處理的基本數(shù)據(jù)單元。在文本的語境中,一個Token可以是一個單詞、一個單詞的一部分(子詞),甚至是一個字符,這取決于Token化過程。

當(dāng)文本通過分詞器傳遞時,它根據(jù)特定方案對輸入進行編碼,并發(fā)出專門的向量,LLMs可以理解這些向量。編碼方案高度依賴于LLMs。分詞器可以決定將每個單詞和部分單詞轉(zhuǎn)換為一個基于編碼的向量。當(dāng)一個Token經(jīng)過解碼器時,它可以輕松地再次轉(zhuǎn)換為文本。

將LLMs的上下文長度稱為其中一個關(guān)鍵的區(qū)別因素是很常見的。從技術(shù)上講,它映射到LLMs接受特定數(shù)量的Tokens作為輸入,并生成另一組Token作為輸出的能力。分詞器負(fù)責(zé)將提示(輸入)編碼成Tokens,并將響應(yīng)(輸出)轉(zhuǎn)換回文本。

Tokens是文本以向量形式的表示。

下面的代碼片段解釋了如何將文本轉(zhuǎn)換為Tokens,其中一個是針對像Llama 2這樣的開放模型,另一個是針對商業(yè)模型,如GPT-4。這些代碼基于Hugging Face的transformers模塊和OpenAI的Tiktoken。

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

因此,關(guān)鍵要點是Tokens是基于特定分詞器的向量。

嵌入:語義空間

如果Tokens是文本的向量表示,那么嵌入就是具有語義上下文的Tokens。它們代表文本的含義和上下文。如果Tokens由分詞器編碼或解碼,那么嵌入模型負(fù)責(zé)生成以向量形式的文本嵌入。嵌入是使LLMs能夠理解單詞和短語的上下文、細(xì)微差別和微妙含義的基礎(chǔ)。它們是模型從大量文本數(shù)據(jù)中學(xué)習(xí)的結(jié)果,不僅編碼了Tokens的身份,還編碼了它與其他Tokens的關(guān)系。

嵌入是LLMs的基礎(chǔ)方面。

通過嵌入,LLMs實現(xiàn)了對語言的深度理解,實現(xiàn)了情感分析、文本摘要和問答等任務(wù),具有細(xì)致的理解和生成能力。它們是LLM的入口點,但它們也被用于LLM之外,將文本轉(zhuǎn)換為向量同時保留語義上下文。當(dāng)文本通過嵌入模型時,將產(chǎn)生一個包含嵌入的向量。以下是來自開源嵌入模型sentence-transformers/all-MiniLM-L6-v2以及OpenAI模型text-embedding-3-small的示例。

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

LLMs的基本組成:向量、Tokens和嵌入-AI.x社區(qū)圖片

比較與互動

Tokens與向量:Tokens是語言單位,而向量是這些單位的數(shù)學(xué)表示。在LLMs的處理管道中,每個Token都被映射到一個向量。

向量與嵌入:所有嵌入都是向量,但并非所有向量都是嵌入。嵌入是經(jīng)過專門訓(xùn)練以捕捉深層語義關(guān)系的向量。

Tokens和嵌入:從Tokens到嵌入的過渡代表了從語言的離散表示向細(xì)致、連續(xù)和具有上下文意識的語義空間的移動。

理解向量、Tokens和嵌入對于把握LLMs如何處理語言至關(guān)重要。Tokens作為基本數(shù)據(jù)單位,向量為機器處理提供了數(shù)學(xué)框架,而嵌入則帶來了深度和理解,使LLMs能夠以類似人類的靈活性和準(zhǔn)確性執(zhí)行任務(wù)。這些組件共同構(gòu)成了LLM技術(shù)的支柱,推動著當(dāng)今AI應(yīng)用的先進語言模型。

本文轉(zhuǎn)載自?? MoPaaS魔泊云??,作者: Janakiram MSV

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦