自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型之嵌入與向量化的區(qū)別是什么? 原創(chuàng)

發(fā)布于 2025-1-6 13:28
瀏覽
0收藏

“ 嵌入是更高層次的向量化,是智能化的;而向量化是一種數(shù)值轉(zhuǎn)化的過(guò)程,是機(jī)械式的 ”

在前面寫(xiě)了幾篇關(guān)于嵌入和向量化的文章,然而在今天才發(fā)現(xiàn)之前理解的有偏差,嵌入和向量并不是一個(gè)東西,其效果雖然相似但卻并不完全一樣。

嵌入與向量化

先來(lái)思考一下向量化和嵌入是同一個(gè)東西嗎?如果不是,那他們的區(qū)別是什么?

我們都知道向量是大模型的底層數(shù)據(jù)結(jié)構(gòu),可以說(shuō)沒(méi)有向量就沒(méi)有大模型;因此,在神經(jīng)網(wǎng)絡(luò)中唯一能夠處理的數(shù)據(jù)格式就只有一種——向量。

但從實(shí)際的情況來(lái)看,向量只是最終的導(dǎo)向結(jié)果;普通數(shù)據(jù)在轉(zhuǎn)化為向量之前,存在著不同的情況,雖然最終的目標(biāo)都是向量,但原因和過(guò)程卻不太一樣。

在大模型技術(shù)體系中,向量化主要存在以下兩種情況:

  • Embedding——嵌入
  • 數(shù)據(jù)向量化

雖然兩種方式都是為了向量化,但其原因是有本質(zhì)區(qū)別的。

我們知道大模型是由一個(gè)輸入層,一個(gè)輸出層,以及一個(gè)隱藏層(包括多個(gè)神經(jīng)網(wǎng)絡(luò)層);而其中比較特殊的兩個(gè)層就是輸入層和輸出層。

輸入層的數(shù)據(jù)并不是由神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)或訓(xùn)練獲得,而是由外部人為輸入的數(shù)據(jù);因此,在輸入層有一個(gè)很重要的操作就是把這些人為輸入的數(shù)據(jù)轉(zhuǎn)換成向量格式,然后隱藏層才能進(jìn)行處理。

大模型之嵌入與向量化的區(qū)別是什么?-AI.x社區(qū)

而這個(gè)過(guò)程就是向量化的過(guò)程,但不知道大家有沒(méi)有發(fā)現(xiàn)這個(gè)向量化的過(guò)程有沒(méi)有特殊的地方?

首先,在神經(jīng)網(wǎng)絡(luò)輸入層的向量化過(guò)程,它只是單純的把輸入數(shù)據(jù)轉(zhuǎn)換為向量表示;而其中并沒(méi)有去維持輸入數(shù)據(jù)原本的語(yǔ)義關(guān)系。

因?yàn)樵跓o(wú)監(jiān)督學(xué)習(xí)模式下,神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程需要做的并不是去重建數(shù)據(jù)之間的語(yǔ)義關(guān)系;而是去學(xué)習(xí)這些數(shù)據(jù)之間的語(yǔ)義關(guān)系。

然后經(jīng)過(guò)訓(xùn)練之后的模型,才能去理解用戶輸入數(shù)據(jù)的語(yǔ)義關(guān)系,然后再生成新的語(yǔ)義關(guān)系。

但是嵌入的過(guò)程是一個(gè)什么樣的過(guò)程?

嵌入的本質(zhì)也是數(shù)據(jù)向量化的過(guò)程,但這里有一個(gè)區(qū)別就是嵌入需要維護(hù)數(shù)據(jù)之間的語(yǔ)義關(guān)系;也就是說(shuō)經(jīng)過(guò)嵌入之后的數(shù)據(jù)是具有語(yǔ)義關(guān)系的;而不是毫無(wú)關(guān)系的離散向量。

大模型之嵌入與向量化的區(qū)別是什么?-AI.x社區(qū)

這也是為什么嵌入的過(guò)程需要使用一些經(jīng)過(guò)專門訓(xùn)練過(guò)的嵌入模型,或者其它機(jī)器學(xué)習(xí)模型;而不僅僅只是一個(gè)向量化的工具。原因就在于嵌入需要維護(hù)其語(yǔ)義關(guān)系。

所以,向量化和嵌入都是為了把數(shù)據(jù)轉(zhuǎn)換為向量格式;但嵌入的目的是捕獲數(shù)據(jù)的底層結(jié)構(gòu)或?qū)傩?,通常通過(guò)訓(xùn)練算法或模型習(xí)得。


“嵌入”強(qiáng)調(diào)以有意義和結(jié)構(gòu)化的方式表示數(shù)據(jù)的概念,而“向量”指的是數(shù)值表示形式本身。


??https://www.elastic.co/cn/what-is/vector-embedding#are-embeddings-and-vectors-the-same-thing??

嵌入(Embedding)和向量化(Vectorization)是機(jī)器學(xué)習(xí)和自然語(yǔ)言處理中的兩個(gè)重要概念,雖然它們都與將數(shù)據(jù)表示為向量有關(guān),但在概念、應(yīng)用和實(shí)現(xiàn)上有顯著的區(qū)別。

嵌入(Embedding)

定義:
嵌入是一種將高維、稀疏或非結(jié)構(gòu)化數(shù)據(jù)(如單詞、句子、圖像)轉(zhuǎn)換為低維、密集向量的方法,同時(shí)保留數(shù)據(jù)的語(yǔ)義或結(jié)構(gòu)信息。

特點(diǎn):

  1. 低維稠密表示:嵌入通常將數(shù)據(jù)從高維稀疏表示(如詞袋模型)映射到低維稠密空間。
  2. 語(yǔ)義相關(guān)性:嵌入向量在低維空間中保留了數(shù)據(jù)的語(yǔ)義相似性(如詞語(yǔ)間的關(guān)系)。
  3. 通過(guò)學(xué)習(xí)生成:嵌入通常由神經(jīng)網(wǎng)絡(luò)通過(guò)優(yōu)化學(xué)習(xí)得到,如詞嵌入(word2vec、GloVe)或句嵌入(BERT)。
  4. 應(yīng)用領(lǐng)域:
  • 自然語(yǔ)言處理(如單詞或句子的語(yǔ)義表示)
  • 推薦系統(tǒng)(如用戶或物品的特征表示)
  • 圖數(shù)據(jù)分析(如節(jié)點(diǎn)嵌入)

例子:

  • 使用word2vec將單詞 "king" 和 "queen" 嵌入為向量,這些向量可以捕捉性別和王室關(guān)系。
  • 使用BERT將句子嵌入為向量,用于捕捉句子級(jí)別的語(yǔ)義信息。

向量化(Vectorization)

定義:
向量化是一種將數(shù)據(jù)轉(zhuǎn)換為向量形式的過(guò)程,通常用于將非數(shù)值數(shù)據(jù)轉(zhuǎn)化為數(shù)值形式,便于機(jī)器學(xué)習(xí)模型處理。

特點(diǎn):

  1. 數(shù)值化的操作:向量化主要是將原始數(shù)據(jù)表示為可以直接輸入模型的數(shù)值向量。
  2. 不一定學(xué)習(xí):向量化可以是簡(jiǎn)單的規(guī)則轉(zhuǎn)換,而不需要通過(guò)訓(xùn)練得到。
  3. 可能是高維稀疏向量:向量化的結(jié)果不一定是稠密向量,常見(jiàn)的高維稀疏向量化方法包括詞袋模型和TF-IDF。
  4. 應(yīng)用領(lǐng)域:
  • 特征工程(如將文本、圖像、或其他數(shù)據(jù)轉(zhuǎn)化為數(shù)值特征)
  • 數(shù)據(jù)預(yù)處理(如編碼分類變量)

例子:

  • 詞袋模型將句子 "I like apples" 表示為一個(gè)詞頻向量:??[1, 1, 1, 0, 0, 0]??(假設(shè)詞匯表是??[I, like, apples, oranges, bananas, grapes]??)。
  • 使用TF-IDF表示文檔特征。

核心區(qū)別

維度

嵌入(Embedding)

向量化(Vectorization)

目的

學(xué)習(xí)低維稠密語(yǔ)義表示

將數(shù)據(jù)轉(zhuǎn)換為數(shù)值向量,可能稀疏,也可能稠密

是否需要學(xué)習(xí)

需要(通常通過(guò)神經(jīng)網(wǎng)絡(luò)或優(yōu)化算法學(xué)習(xí))

不需要(可以基于規(guī)則或統(tǒng)計(jì)方法生成)

語(yǔ)義表示能力

保留語(yǔ)義關(guān)系和相似性

可能不保留語(yǔ)義,僅是特征的機(jī)械化表示

典型方法

word2vec、GloVe、BERT、node2vec

詞袋模型(BoW)、TF-IDF、獨(dú)熱編碼(One-hot Encoding)

結(jié)果向量維度

通常低維且稠密

通常是高維且稀疏

總結(jié)

  • 嵌入更注重語(yǔ)義特征,能夠通過(guò)學(xué)習(xí)捕捉數(shù)據(jù)之間的深層關(guān)系,是一種“智能化”的表示方法。
  • 向量化更注重?cái)?shù)據(jù)表示的直接性,通常是基于規(guī)則或統(tǒng)計(jì)的“機(jī)械化”過(guò)程。

兩者可以結(jié)合使用。例如,向量化生成初始特征表示,而嵌入通過(guò)深度學(xué)習(xí)進(jìn)一步優(yōu)化表示質(zhì)量。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/eisOBrLQb1UL5dLC25HTrA??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦