自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解讀文本嵌入:語義表達的練習(xí)

原創(chuàng)
開發(fā) 前端
文本處理方法的演變導(dǎo)致了文本嵌入的出現(xiàn),從詞匯的語義表達到句子嵌入,多種距離度量方法可以幫助理解文本是否具有相似的意義,文本嵌入的可視化可以幫助我們了解數(shù)據(jù)的內(nèi)在模式,常見的應(yīng)用示例包括聚類、分類以及基于大模型的RAG等。

文本轉(zhuǎn)換成機器可理解格式的最早版本之一是 ASCII碼,這種方法有助于渲染和傳輸文本,但不能編碼單詞的意義,其標(biāo)準(zhǔn)的搜索技術(shù)是關(guān)鍵字搜索,尋找包含特定單詞或 N-gram的所有文檔。如今,我們可以計算單詞、句子甚至圖像的嵌入。嵌入也是數(shù)字的向量,但它們可以捕捉意義。因此,可以使用它們進行語義搜索,甚至處理不同語言的文檔。

1. 文本嵌入的演變

將文本轉(zhuǎn)換為向量的最基本方法是使用詞袋模型(bag of words,BoW)。獲得一個單詞向量的第一步是將文本分割成單詞(標(biāo)記) ,然后將單詞減少到它們的基本形式。例如,“ running”將轉(zhuǎn)換為“ run”,這個過程稱為詞干分析。我們可以使用NLTK 來觀察這個過程。

from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize

text = ' target text for Bow model'

# tokenization - splitting text into words
words = word_tokenize(text)
print(words)

stemmer = SnowballStemmer(language = "english")
stemmed_words = list(map(lambda x: stemmer.stem(x), words))
print(stemmed_words)

現(xiàn)在,有了所有單詞的基本形式列表。下一步是計算它們的頻率,創(chuàng)建一個向量。

import collections
bag_of_words = collections.Counter(stemmed_words)
print(bag_of_words)

這種方法非?;?,而且沒有考慮到詞語的語義,略有改進的版本是 TF-IDF ,這是兩個度量的乘法。

TF顯示文檔中單詞的頻率。最常見的計算方法是將文檔中的詞匯的原始計數(shù)除以文檔中的詞匯(單詞)總數(shù)。然而,還有許多其他方法,如原始計數(shù)、布爾“頻率”和不同的標(biāo)準(zhǔn)化方法。IDF表示單詞提供的信息量。例如,單詞“ a”或“ that”不會提供關(guān)于文檔主題的任何其他信息。它被計算為文檔總數(shù)與包含單詞的文檔總數(shù)之比的對數(shù)。IDF 越接近于0ーー這個詞越常見,它提供的信息就越少。

最后,將得到常見單詞的權(quán)重較低的向量,而在文檔中多次出現(xiàn)的罕見單詞的權(quán)重較高。這個策略會給出一個更好的結(jié)果,但是它仍然不能捕獲語義。

這種方法的一個問題是會產(chǎn)生稀疏向量。由于向量的長度等于語料庫的大小,將有巨大的向量。但是,句子一般不會有超過50個獨特的單詞,向量中大量的值將為0,不編碼任何信息。

有名的密集向量表示方法之一是 word2vec,由谷歌于2013年在 Mikolov 等人的論文“Efficient Estimation of Word Representations in Vector Space”中提出。文章中提到了兩種不同的 word2vec 方法: “CBoW”和“Skip-gram”。

密集向量表示的核心思想是訓(xùn)練兩種模型: 編碼器和解碼器。例如,在Skip-gram情況下,我們可以將“國慶節(jié)”傳遞給編碼器。然后,編碼器將產(chǎn)生一個向量,我們傳遞給解碼器期望得到單詞“快樂”“?!薄澳恪?。這個模型開始考慮單詞的意思,因為它是根據(jù)單詞的上下文進行訓(xùn)練的。然而,它忽略了詞語的表面形式。這個缺點后來在 GloVe 中得到了一定的解決。

word2vec 只能處理單詞,但我們希望編碼整個句子,于是人們引入了Transformer。在論文“ Attention Is All You Need”中,transformer能夠產(chǎn)生信息密集的矢量,并成為現(xiàn)代語言模型的主導(dǎo)技術(shù)。

Transformers 允許使用相同的基礎(chǔ)模型,并針對不同的用例對其進行微調(diào),而無需重新訓(xùn)練基礎(chǔ)模型,這導(dǎo)致了預(yù)訓(xùn)練模型的興起。第一個流行的模型之一是 BERT ,是基于transformer的雙向編碼器表示。BERT 仍然在類似 word2vec 的token級別上運行,獲得句子嵌入的簡單方法可能是取所有向量的平均值。不幸的是,這種方法并沒有顯示出良好的性能。在論文“Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”中,解決了句子嵌入的計算問題。

然而, 句子的嵌入 或者說句子的語義表達是個大課題, 還需要進一步深入研究。

2.文本嵌入的計算

如今,已經(jīng)有很多的嵌入模型可以供我們參考和使用,例如 OpenAI 的text-embedding-ada-002和text-embedding-3-large,當(dāng)然,我們也可以通過Huggingface的嵌入模型排行榜進行選擇并探索。

from openai import OpenAI
client = OpenAI()

def get_embedding(text, model="text-embedding-3-small"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [text], model=model)\
       .data[0].embedding

get_embedding("Here is TEXT what we want ..... ")

結(jié)果,我們得到了一個1536維的浮點數(shù)向量, 然后,我們可以為所有的數(shù)據(jù)計算向量,并展開分析,一個主要的目標(biāo)是了解句子之間的意義有多接近。我們可以計算向量之間的距離,較小的距離相當(dāng)于較近的意義。

假設(shè)有兩個文本的嵌入是vector1 和vector2, 可以使用不同的度量標(biāo)準(zhǔn)來衡量兩個向量之間的距離:

  • 歐式距離
  • 曼哈頓距離
  • 向量點積
  • 余弦距離

2.1 歐式距離

定義兩點(或向量)之間距離的直觀方法是歐式距離,或者叫 L2范數(shù)。我們可以直接使用python或者利用 numpy 函數(shù)來計算這個度量。

import numpy as np
L2_py = sum(list(map(lambda x, y: (x - y) ** 2, vector1, vector2))) ** 0.5
L2_np = np.linalg.norm((np.array(vector1) - np.array(vector2)), ord = 2)

2.2 曼哈頓距離

另一個常用的距離是 L1標(biāo)準(zhǔn)距離或曼哈頓距離,是以紐約曼哈頓島來命名的。這個島上的街道有網(wǎng)格布局,曼哈頓兩點之間的最短路線是跟著網(wǎng)格走的 L1距離。我們同樣可以使用python或者利用 numpy 函數(shù)來計算這個度量。

L1_py = sum(list(map(lambda x, y: abs(x - y), vector1, vector2)))
L1_np = np.linalg.norm((np.array(vector1) - np.array(vector2)), ord = 1)

2.3 向量點積

觀察向量間距離的另一種方法是計算點積。

sum(list(map(lambda x, y: x*y, vector1, vector2)))
np.dot(vector1, vector2)

點積需要從幾何上進行理解。一方面,它顯示向量是否指向一個方向。另一方面,結(jié)果高度依賴于矢量的大小。例如,計算兩對(1,1)向量之間的點積為2, 計算兩對(10,10)向量之間的點積為20,在這兩種情況下,向量是共線的,但是點積在第二種情況下要大十倍。

2.4 余弦距離

余弦距離是由向量的大小(或范數(shù))歸一化的點積。我們可以用前面的方法計算余弦距離,還可以利用Sklearn。

dot_product = sum(list(map(lambda x, y: x*y, vector1, vector2)))
norm_vector1 = sum(list(map(lambda x: x ** 2, vector1))) ** 0.5
norm_vector2 = sum(list(map(lambda x: x ** 2, vector2))) ** 0.5

cs_py=dot_product/norm_vector1/norm_vector2
print(cs_py)

from sklearn.metrics.pairwise import cosine_similarity

cs_sk = cosine_similarity(
  np.array(vector1).reshape(1, -1), 
  np.array(vector2).reshape(1, -1))[0][0]
print(cs_sk)

cosine_similarity 函數(shù)需要2D 數(shù)組,所以需要將向量轉(zhuǎn)化為數(shù)組的形式。余弦距離等于兩個向量之間的余弦。向量越接近,度量值就越高。

我們可以使用任何距離來比較所有的文本嵌入。然而,對于自然語言處理的任務(wù),一般的做法通常是使用余弦距離,因為:

  • 余弦距離在 -1和1之間,而 L1和 L2是無界的,所以更容易解釋。
  • 從實際角度來看,計算歐幾里得度量點積比計算平方根更有效。
  • 余弦距離受維數(shù)災(zāi)難的影響較小。

其中,“維數(shù)災(zāi)難”是指維度越高,矢量之間的距離分布越窄。

3. 文本嵌入的可視化

理解數(shù)據(jù)的最好方法就是將它們可視化。不幸的是,如果文本嵌入有1536個維度,理解數(shù)據(jù)會非常困難。然而,我們可以使用降維技術(shù)在二維空間中做向量投影。

最基本的降維技術(shù)是 PCA (主成分分析) ,我們將嵌入轉(zhuǎn)換成一個2D numpy 數(shù)組,然后將其傳遞給 sklearn。

import numpy as np
from sklearn.decomposition import PCA

embeddings_array = np.array(df.embedding.values.tolist())
print(embeddings_array.shape)

pca_model = PCA(n_components = 2)
pca_model.fit(embeddings_array)

pca_embeddings_values = pca_model.transform(embeddings_array)
print(pca_embeddings_values.shape)

因此得到了一個矩陣,可以很容易地把它做成在一個散點圖。

fig = px.scatter(
    x = pca_embeddings_values[:,0], 
    y = pca_embeddings_values[:,1],
    color = df.topic.values,
    hover_name = df.full_text.values,
    title = 'PCA embeddings', width = 800, height = 600,
    color_discrete_sequence = plotly.colors.qualitative.Alphabet_r
)

fig.update_layout(
    xaxis_title = 'first component', 
    yaxis_title = 'second component')
fig.show()

PCA是一種線性算法,而現(xiàn)實生活中大多數(shù)關(guān)系是非線性的。因此,由于非線性的原因,可以嘗試使用一個非線性算法 t-SNE。

from sklearn.manifold import TSNE
tsne_model = TSNE(n_compnotallow=2, random_state=42)
tsne_embeddings_values = tsne_model.fit_transform(embeddings_array)

fig = px.scatter(
    x = tsne_embeddings_values[:,0], 
    y = tsne_embeddings_values[:,1],
    color = df.topic.values,
    hover_name = df.full_text.values,
    title = 't-SNE embeddings', width = 800, height = 600,
    color_discrete_sequence = plotly.colors.qualitative.Alphabet_r
)

fig.update_layout(
    xaxis_title = 'first component', 
    yaxis_title = 'second component')
fig.show()

此外,還可以制作三維空間的投影,并將其可視化。

4. 文本嵌入的應(yīng)用示例

文本嵌入的主要目的不是將文本編碼為數(shù)字向量,或者僅僅為了將其可視化。我們可以從捕捉文本含義的能力中受益匪淺。

4.1 聚類

聚類是一種非監(jiān)督式學(xué)習(xí)的技術(shù),它允許將數(shù)據(jù)分成不帶任何初始標(biāo)簽的組,可以幫助理解數(shù)據(jù)中的內(nèi)部結(jié)構(gòu)模式。最基本的聚類算法是K-Means,應(yīng)用時需要指定聚類的數(shù)目,可以使用輪廓得分來定義最佳的聚類。例如,嘗試 聚類數(shù)量k 介于2和50之間,對于每個 k,訓(xùn)練一個模型并計算輪廓分?jǐn)?shù)。輪廓得分越高,聚類效果越好。

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import tqdm

silhouette_scores = []
for k in tqdm.tqdm(range(2, 51)):
    kmeans = KMeans(n_clusters=k, 
                    random_state=42, 
                    n_init = 'auto').fit(embeddings_array)
    kmeans_labels = kmeans.labels_
    silhouette_scores.append(
        {
            'k': k,
            'silhouette_score': silhouette_score(embeddings_array, 
                kmeans_labels, metric = 'cosine')
        }
    )

fig = px.line(pd.DataFrame(silhouette_scores).set_index('k'),
       title = '<b>Silhouette scores </b>',
       labels = {'value': 'silhoutte score'}, 
       color_discrete_sequence = plotly.colors.qualitative.Alphabet)
fig.update_layout(showlegend = False)

如果有實際文本的主題標(biāo)簽,我們可以用它來評估聚類結(jié)果的好壞。

4.2 分類

同樣,文本嵌入可以用于分類或回歸任務(wù)。例如,預(yù)測客戶評論的情緒(分類)或 NPS 評分(回歸)。分類和回歸是監(jiān)督式學(xué)習(xí),所以需要有數(shù)據(jù)標(biāo)簽。為了正確評估分類模型的性能,我們將數(shù)據(jù)集劃分為訓(xùn)練集和測試集(80% 比20%)。然后,在一個訓(xùn)練集上訓(xùn)練模型,并在一個測試集上測量質(zhì)量。

以隨機森林分類器為例:

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
class_model = RandomForestClassifier(max_depth = 5)

# defining features and target
X = embeddings_array
y = df.topic

# splitting data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state = 49, test_size=0.2, stratify=y)

# fit & predict 
class_model.fit(X_train, y_train)
y_pred = class_model.predict(X_test)

然后,我們計算一個混淆矩陣,理想的情況下所有非對角線的元素應(yīng)該是0。

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

fig = px.imshow(
  cm, x = class_model.classes_,
  y = class_model.classes_, text_auto='d', 
  aspect="auto", 
  labels=dict(
      x="predicted label", y="true label", 
      color="cases"), 
  color_continuous_scale='pubugn',
  title = '<b>Confusion matrix</b>', height = 550)

fig.show()

我們還可以使用嵌入來發(fā)現(xiàn)數(shù)據(jù)中的異常。例如,在可視化的圖像上,看到一些問題與它們的聚類相去甚遠,那些就可能是異常的數(shù)據(jù)。

4.3 RAG

隨著 LLM 最近越來越流行,文本嵌入在 RAG 用例中得到了廣泛的應(yīng)用。當(dāng)有很多文檔需要檢索增強生成時,而我們卻不能將它們?nèi)總鬟f給 LLM,因為:

  • LLM 對上下文大小有限制(例如,GPT-4 Turbo 的上下文大小是128K)。
  • 由于需要為token付費,所以傳遞所有信息的成本更高。
  • 在更大的上下,LLM 顯示出的性能較差。

為了能夠使用廣泛的知識庫,我們可以利用 RAG 方法:

  • 計算所有文檔的嵌入,并將它們存儲在向量存儲器中。
  • 當(dāng)?shù)玫揭粋€用戶請求時,可以計算它的嵌入并從存儲中檢索該請求的相關(guān)文檔。
  • 只將相關(guān)文檔傳遞給 LLM 以獲得最終答案。

5. 一句話小結(jié)

文本處理方法的演變導(dǎo)致了文本嵌入的出現(xiàn),從詞匯的語義表達到句子嵌入,多種距離度量方法可以幫助理解文本是否具有相似的意義,文本嵌入的可視化可以幫助我們了解數(shù)據(jù)的內(nèi)在模式,常見的應(yīng)用示例包括聚類、分類以及基于大模型的RAG等。

責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2010-03-29 10:45:48

HTML 5

2024-05-10 08:33:17

AILLM大語言模型

2009-12-09 10:12:28

嵌入式Linux

2025-02-05 07:26:45

2021-11-16 15:37:43

AI 數(shù)據(jù)人工智能

2024-09-14 15:19:11

2017-08-04 08:06:15

CVPR 2017論文圖像語義分割

2009-08-10 09:54:19

.NET Lambda

2019-09-20 13:34:35

蘇寧文本匹配自然語言

2024-05-09 08:11:04

OllamaGo訓(xùn)練文本

2020-10-16 17:00:16

正則表達式字符Python

2024-04-07 14:48:00

模型訓(xùn)練

2010-02-23 13:47:51

Python正則表達式

2009-11-30 17:22:24

PHP正則表達式多行匹

2010-02-01 14:26:50

C++讀寫文本文件

2010-01-18 17:37:32

VB.NET文本框處理

2025-02-12 10:17:12

2010-03-03 13:22:08

Python正則表達式

2018-02-27 15:41:27

IOT語義操作性

2010-06-23 17:42:28

Linux Bison
點贊
收藏

51CTO技術(shù)棧公眾號