自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="sxirl"></blockquote>}<sub id="sxirl"><p id="sxirl"><li id="sxirl"></li></p></sub>

<sub id="sxirl"><p id="sxirl"></p></sub>

<sub id="sxirl"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

解讀文本嵌入：語義表達的練習(xí)

原創(chuàng)

作者：曹洪偉 2024-09-29 00:00:02

開發(fā) 前端

文本處理方法的演變導(dǎo)致了文本嵌入的出現(xiàn)，從詞匯的語義表達到句子嵌入，多種距離度量方法可以幫助理解文本是否具有相似的意義，文本嵌入的可視化可以幫助我們了解數(shù)據(jù)的內(nèi)在模式，常見的應(yīng)用示例包括聚類、分類以及基于大模型的RAG等。

文本轉(zhuǎn)換成機器可理解格式的最早版本之一是 ASCII碼，這種方法有助于渲染和傳輸文本，但不能編碼單詞的意義，其標(biāo)準(zhǔn)的搜索技術(shù)是關(guān)鍵字搜索，尋找包含特定單詞或 N-gram的所有文檔。如今，我們可以計算單詞、句子甚至圖像的嵌入。嵌入也是數(shù)字的向量，但它們可以捕捉意義。因此，可以使用它們進行語義搜索，甚至處理不同語言的文檔。

1. 文本嵌入的演變

將文本轉(zhuǎn)換為向量的最基本方法是使用詞袋模型（bag of words，BoW）。獲得一個單詞向量的第一步是將文本分割成單詞(標(biāo)記) ，然后將單詞減少到它們的基本形式。例如，“ running”將轉(zhuǎn)換為“ run”，這個過程稱為詞干分析。我們可以使用NLTK 來觀察這個過程。

from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize

text = ' target text for Bow model'

# tokenization - splitting text into words
words = word_tokenize(text)
print(words)

stemmer = SnowballStemmer(language = "english")
stemmed_words = list(map(lambda x: stemmer.stem(x), words))
print(stemmed_words)

現(xiàn)在，有了所有單詞的基本形式列表。下一步是計算它們的頻率，創(chuàng)建一個向量。

import collections
bag_of_words = collections.Counter(stemmed_words)
print(bag_of_words)

這種方法非?；?，而且沒有考慮到詞語的語義，略有改進的版本是 TF-IDF ，這是兩個度量的乘法。

TF顯示文檔中單詞的頻率。最常見的計算方法是將文檔中的詞匯的原始計數(shù)除以文檔中的詞匯(單詞)總數(shù)。然而，還有許多其他方法，如原始計數(shù)、布爾“頻率”和不同的標(biāo)準(zhǔn)化方法。IDF表示單詞提供的信息量。例如，單詞“ a”或“ that”不會提供關(guān)于文檔主題的任何其他信息。它被計算為文檔總數(shù)與包含單詞的文檔總數(shù)之比的對數(shù)。IDF 越接近于0ーー這個詞越常見，它提供的信息就越少。

最后，將得到常見單詞的權(quán)重較低的向量，而在文檔中多次出現(xiàn)的罕見單詞的權(quán)重較高。這個策略會給出一個更好的結(jié)果，但是它仍然不能捕獲語義。

這種方法的一個問題是會產(chǎn)生稀疏向量。由于向量的長度等于語料庫的大小，將有巨大的向量。但是，句子一般不會有超過50個獨特的單詞，向量中大量的值將為0，不編碼任何信息。

有名的密集向量表示方法之一是 word2vec，由谷歌于2013年在 Mikolov 等人的論文“Efficient Estimation of Word Representations in Vector Space”中提出。文章中提到了兩種不同的 word2vec 方法: “CBoW”和“Skip-gram”。

密集向量表示的核心思想是訓(xùn)練兩種模型: 編碼器和解碼器。例如，在Skip-gram情況下，我們可以將“國慶節(jié)”傳遞給編碼器。然后，編碼器將產(chǎn)生一個向量，我們傳遞給解碼器期望得到單詞“快樂”“?！薄澳恪?。這個模型開始考慮單詞的意思，因為它是根據(jù)單詞的上下文進行訓(xùn)練的。然而，它忽略了詞語的表面形式。這個缺點后來在 GloVe 中得到了一定的解決。

word2vec 只能處理單詞，但我們希望編碼整個句子，于是人們引入了Transformer。在論文“ Attention Is All You Need”中，transformer能夠產(chǎn)生信息密集的矢量，并成為現(xiàn)代語言模型的主導(dǎo)技術(shù)。

Transformers 允許使用相同的基礎(chǔ)模型，并針對不同的用例對其進行微調(diào)，而無需重新訓(xùn)練基礎(chǔ)模型，這導(dǎo)致了預(yù)訓(xùn)練模型的興起。第一個流行的模型之一是 BERT ，是基于transformer的雙向編碼器表示。BERT 仍然在類似 word2vec 的token級別上運行，獲得句子嵌入的簡單方法可能是取所有向量的平均值。不幸的是，這種方法并沒有顯示出良好的性能。在論文“Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”中，解決了句子嵌入的計算問題。

然而，句子的嵌入或者說句子的語義表達是個大課題，還需要進一步深入研究。

2.文本嵌入的計算

如今，已經(jīng)有很多的嵌入模型可以供我們參考和使用，例如 OpenAI 的text-embedding-ada-002和text-embedding-3-large，當(dāng)然，我們也可以通過Huggingface的嵌入模型排行榜進行選擇并探索。

from openai import OpenAI
client = OpenAI()

def get_embedding(text, model="text-embedding-3-small"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [text], model=model)\
       .data[0].embedding

get_embedding("Here is TEXT what we want ..... ")

結(jié)果，我們得到了一個1536維的浮點數(shù)向量, 然后，我們可以為所有的數(shù)據(jù)計算向量，并展開分析，一個主要的目標(biāo)是了解句子之間的意義有多接近。我們可以計算向量之間的距離，較小的距離相當(dāng)于較近的意義。

假設(shè)有兩個文本的嵌入是vector1 和vector2，可以使用不同的度量標(biāo)準(zhǔn)來衡量兩個向量之間的距離:

歐式距離
曼哈頓距離
向量點積
余弦距離

2.1 歐式距離

定義兩點(或向量)之間距離的直觀方法是歐式距離，或者叫 L2范數(shù)。我們可以直接使用python或者利用 numpy 函數(shù)來計算這個度量。

import numpy as np
L2_py = sum(list(map(lambda x, y: (x - y) ** 2, vector1, vector2))) ** 0.5
L2_np = np.linalg.norm((np.array(vector1) - np.array(vector2)), ord = 2)

2.2 曼哈頓距離

另一個常用的距離是 L1標(biāo)準(zhǔn)距離或曼哈頓距離，是以紐約曼哈頓島來命名的。這個島上的街道有網(wǎng)格布局，曼哈頓兩點之間的最短路線是跟著網(wǎng)格走的 L1距離。我們同樣可以使用python或者利用 numpy 函數(shù)來計算這個度量。

L1_py = sum(list(map(lambda x, y: abs(x - y), vector1, vector2)))
L1_np = np.linalg.norm((np.array(vector1) - np.array(vector2)), ord = 1)

2.3 向量點積

觀察向量間距離的另一種方法是計算點積。

sum(list(map(lambda x, y: x*y, vector1, vector2)))
np.dot(vector1, vector2)

點積需要從幾何上進行理解。一方面，它顯示向量是否指向一個方向。另一方面，結(jié)果高度依賴于矢量的大小。例如，計算兩對（1，1）向量之間的點積為2，計算兩對（10，10）向量之間的點積為20，在這兩種情況下，向量是共線的，但是點積在第二種情況下要大十倍。

2.4 余弦距離

余弦距離是由向量的大小(或范數(shù))歸一化的點積。我們可以用前面的方法計算余弦距離，還可以利用Sklearn。

dot_product = sum(list(map(lambda x, y: x*y, vector1, vector2)))
norm_vector1 = sum(list(map(lambda x: x ** 2, vector1))) ** 0.5
norm_vector2 = sum(list(map(lambda x: x ** 2, vector2))) ** 0.5

cs_py=dot_product/norm_vector1/norm_vector2
print(cs_py)

from sklearn.metrics.pairwise import cosine_similarity

cs_sk = cosine_similarity(
  np.array(vector1).reshape(1, -1), 
  np.array(vector2).reshape(1, -1))[0][0]
print(cs_sk)

cosine_similarity 函數(shù)需要2D 數(shù)組，所以需要將向量轉(zhuǎn)化為數(shù)組的形式。余弦距離等于兩個向量之間的余弦。向量越接近，度量值就越高。

我們可以使用任何距離來比較所有的文本嵌入。然而，對于自然語言處理的任務(wù)，一般的做法通常是使用余弦距離，因為：

余弦距離在 -1和1之間，而 L1和 L2是無界的，所以更容易解釋。
從實際角度來看，計算歐幾里得度量點積比計算平方根更有效。
余弦距離受維數(shù)災(zāi)難的影響較小。

其中，“維數(shù)災(zāi)難”是指維度越高，矢量之間的距離分布越窄。

3. 文本嵌入的可視化

理解數(shù)據(jù)的最好方法就是將它們可視化。不幸的是，如果文本嵌入有1536個維度，理解數(shù)據(jù)會非常困難。然而，我們可以使用降維技術(shù)在二維空間中做向量投影。

最基本的降維技術(shù)是 PCA (主成分分析) ，我們將嵌入轉(zhuǎn)換成一個2D numpy 數(shù)組，然后將其傳遞給 sklearn。

import numpy as np
from sklearn.decomposition import PCA

embeddings_array = np.array(df.embedding.values.tolist())
print(embeddings_array.shape)

pca_model = PCA(n_components = 2)
pca_model.fit(embeddings_array)

pca_embeddings_values = pca_model.transform(embeddings_array)
print(pca_embeddings_values.shape)

因此得到了一個矩陣，可以很容易地把它做成在一個散點圖。

fig = px.scatter(
    x = pca_embeddings_values[:,0], 
    y = pca_embeddings_values[:,1],
    color = df.topic.values,
    hover_name = df.full_text.values,
    title = 'PCA embeddings', width = 800, height = 600,
    color_discrete_sequence = plotly.colors.qualitative.Alphabet_r
)

fig.update_layout(
    xaxis_title = 'first component', 
    yaxis_title = 'second component')
fig.show()

PCA是一種線性算法，而現(xiàn)實生活中大多數(shù)關(guān)系是非線性的。因此，由于非線性的原因，可以嘗試使用一個非線性算法 t-SNE。

from sklearn.manifold import TSNE
tsne_model = TSNE(n_compnotallow=2, random_state=42)
tsne_embeddings_values = tsne_model.fit_transform(embeddings_array)

fig = px.scatter(
    x = tsne_embeddings_values[:,0], 
    y = tsne_embeddings_values[:,1],
    color = df.topic.values,
    hover_name = df.full_text.values,
    title = 't-SNE embeddings', width = 800, height = 600,
    color_discrete_sequence = plotly.colors.qualitative.Alphabet_r
)

fig.update_layout(
    xaxis_title = 'first component', 
    yaxis_title = 'second component')
fig.show()

此外，還可以制作三維空間的投影，并將其可視化。

4. 文本嵌入的應(yīng)用示例

文本嵌入的主要目的不是將文本編碼為數(shù)字向量，或者僅僅為了將其可視化。我們可以從捕捉文本含義的能力中受益匪淺。

4.1 聚類

聚類是一種非監(jiān)督式學(xué)習(xí)的技術(shù)，它允許將數(shù)據(jù)分成不帶任何初始標(biāo)簽的組，可以幫助理解數(shù)據(jù)中的內(nèi)部結(jié)構(gòu)模式。最基本的聚類算法是K-Means，應(yīng)用時需要指定聚類的數(shù)目，可以使用輪廓得分來定義最佳的聚類。例如，嘗試聚類數(shù)量k 介于2和50之間，對于每個 k，訓(xùn)練一個模型并計算輪廓分?jǐn)?shù)。輪廓得分越高，聚類效果越好。

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import tqdm

silhouette_scores = []
for k in tqdm.tqdm(range(2, 51)):
    kmeans = KMeans(n_clusters=k, 
                    random_state=42, 
                    n_init = 'auto').fit(embeddings_array)
    kmeans_labels = kmeans.labels_
    silhouette_scores.append(
        {
            'k': k,
            'silhouette_score': silhouette_score(embeddings_array, 
                kmeans_labels, metric = 'cosine')
        }
    )

fig = px.line(pd.DataFrame(silhouette_scores).set_index('k'),
       title = '<b>Silhouette scores </b>',
       labels = {'value': 'silhoutte score'}, 
       color_discrete_sequence = plotly.colors.qualitative.Alphabet)
fig.update_layout(showlegend = False)

如果有實際文本的主題標(biāo)簽，我們可以用它來評估聚類結(jié)果的好壞。

4.2 分類

同樣，文本嵌入可以用于分類或回歸任務(wù)。例如，預(yù)測客戶評論的情緒(分類)或 NPS 評分(回歸)。分類和回歸是監(jiān)督式學(xué)習(xí)，所以需要有數(shù)據(jù)標(biāo)簽。為了正確評估分類模型的性能，我們將數(shù)據(jù)集劃分為訓(xùn)練集和測試集(80% 比20%)。然后，在一個訓(xùn)練集上訓(xùn)練模型，并在一個測試集上測量質(zhì)量。

以隨機森林分類器為例：

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
class_model = RandomForestClassifier(max_depth = 5)

# defining features and target
X = embeddings_array
y = df.topic

# splitting data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state = 49, test_size=0.2, stratify=y)

# fit & predict 
class_model.fit(X_train, y_train)
y_pred = class_model.predict(X_test)

然后，我們計算一個混淆矩陣，理想的情況下所有非對角線的元素應(yīng)該是0。

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

fig = px.imshow(
  cm, x = class_model.classes_,
  y = class_model.classes_, text_auto='d', 
  aspect="auto", 
  labels=dict(
      x="predicted label", y="true label", 
      color="cases"), 
  color_continuous_scale='pubugn',
  title = '<b>Confusion matrix</b>', height = 550)

fig.show()

我們還可以使用嵌入來發(fā)現(xiàn)數(shù)據(jù)中的異常。例如，在可視化的圖像上，看到一些問題與它們的聚類相去甚遠，那些就可能是異常的數(shù)據(jù)。

4.3 RAG

隨著 LLM 最近越來越流行，文本嵌入在 RAG 用例中得到了廣泛的應(yīng)用。當(dāng)有很多文檔需要檢索增強生成時，而我們卻不能將它們?nèi)總鬟f給 LLM，因為：

LLM 對上下文大小有限制(例如，GPT-4 Turbo 的上下文大小是128K)。
由于需要為token付費，所以傳遞所有信息的成本更高。
在更大的上下文中，LLM 顯示出的性能較差。

為了能夠使用廣泛的知識庫，我們可以利用 RAG 方法:

計算所有文檔的嵌入，并將它們存儲在向量存儲器中。
當(dāng)?shù)玫揭粋€用戶請求時，可以計算它的嵌入并從存儲中檢索該請求的相關(guān)文檔。
只將相關(guān)文檔傳遞給 LLM 以獲得最終答案。

5. 一句話小結(jié)

文本處理方法的演變導(dǎo)致了文本嵌入的出現(xiàn)，從詞匯的語義表達到句子嵌入，多種距離度量方法可以幫助理解文本是否具有相似的意義，文本嵌入的可視化可以幫助我們了解數(shù)據(jù)的內(nèi)在模式，常見的應(yīng)用示例包括聚類、分類以及基于大模型的RAG等。

責(zé)任編輯：武曉燕來源：喔家ArchiSelf

文本嵌入語義表達聚類

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營