解讀文本嵌入:語義表達的練習(xí)
原創(chuàng)文本轉(zhuǎn)換成機器可理解格式的最早版本之一是 ASCII碼,這種方法有助于渲染和傳輸文本,但不能編碼單詞的意義,其標(biāo)準(zhǔn)的搜索技術(shù)是關(guān)鍵字搜索,尋找包含特定單詞或 N-gram的所有文檔。如今,我們可以計算單詞、句子甚至圖像的嵌入。嵌入也是數(shù)字的向量,但它們可以捕捉意義。因此,可以使用它們進行語義搜索,甚至處理不同語言的文檔。
1. 文本嵌入的演變
將文本轉(zhuǎn)換為向量的最基本方法是使用詞袋模型(bag of words,BoW)。獲得一個單詞向量的第一步是將文本分割成單詞(標(biāo)記) ,然后將單詞減少到它們的基本形式。例如,“ running”將轉(zhuǎn)換為“ run”,這個過程稱為詞干分析。我們可以使用NLTK 來觀察這個過程。
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize
text = ' target text for Bow model'
# tokenization - splitting text into words
words = word_tokenize(text)
print(words)
stemmer = SnowballStemmer(language = "english")
stemmed_words = list(map(lambda x: stemmer.stem(x), words))
print(stemmed_words)
現(xiàn)在,有了所有單詞的基本形式列表。下一步是計算它們的頻率,創(chuàng)建一個向量。
import collections
bag_of_words = collections.Counter(stemmed_words)
print(bag_of_words)
這種方法非?;?,而且沒有考慮到詞語的語義,略有改進的版本是 TF-IDF ,這是兩個度量的乘法。
TF顯示文檔中單詞的頻率。最常見的計算方法是將文檔中的詞匯的原始計數(shù)除以文檔中的詞匯(單詞)總數(shù)。然而,還有許多其他方法,如原始計數(shù)、布爾“頻率”和不同的標(biāo)準(zhǔn)化方法。IDF表示單詞提供的信息量。例如,單詞“ a”或“ that”不會提供關(guān)于文檔主題的任何其他信息。它被計算為文檔總數(shù)與包含單詞的文檔總數(shù)之比的對數(shù)。IDF 越接近于0ーー這個詞越常見,它提供的信息就越少。
最后,將得到常見單詞的權(quán)重較低的向量,而在文檔中多次出現(xiàn)的罕見單詞的權(quán)重較高。這個策略會給出一個更好的結(jié)果,但是它仍然不能捕獲語義。
這種方法的一個問題是會產(chǎn)生稀疏向量。由于向量的長度等于語料庫的大小,將有巨大的向量。但是,句子一般不會有超過50個獨特的單詞,向量中大量的值將為0,不編碼任何信息。
有名的密集向量表示方法之一是 word2vec,由谷歌于2013年在 Mikolov 等人的論文“Efficient Estimation of Word Representations in Vector Space”中提出。文章中提到了兩種不同的 word2vec 方法: “CBoW”和“Skip-gram”。
密集向量表示的核心思想是訓(xùn)練兩種模型: 編碼器和解碼器。例如,在Skip-gram情況下,我們可以將“國慶節(jié)”傳遞給編碼器。然后,編碼器將產(chǎn)生一個向量,我們傳遞給解碼器期望得到單詞“快樂”“?!薄澳恪?。這個模型開始考慮單詞的意思,因為它是根據(jù)單詞的上下文進行訓(xùn)練的。然而,它忽略了詞語的表面形式。這個缺點后來在 GloVe 中得到了一定的解決。
word2vec 只能處理單詞,但我們希望編碼整個句子,于是人們引入了Transformer。在論文“ Attention Is All You Need”中,transformer能夠產(chǎn)生信息密集的矢量,并成為現(xiàn)代語言模型的主導(dǎo)技術(shù)。
Transformers 允許使用相同的基礎(chǔ)模型,并針對不同的用例對其進行微調(diào),而無需重新訓(xùn)練基礎(chǔ)模型,這導(dǎo)致了預(yù)訓(xùn)練模型的興起。第一個流行的模型之一是 BERT ,是基于transformer的雙向編碼器表示。BERT 仍然在類似 word2vec 的token級別上運行,獲得句子嵌入的簡單方法可能是取所有向量的平均值。不幸的是,這種方法并沒有顯示出良好的性能。在論文“Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”中,解決了句子嵌入的計算問題。
然而, 句子的嵌入 或者說句子的語義表達是個大課題, 還需要進一步深入研究。
2.文本嵌入的計算
如今,已經(jīng)有很多的嵌入模型可以供我們參考和使用,例如 OpenAI 的text-embedding-ada-002和text-embedding-3-large,當(dāng)然,我們也可以通過Huggingface的嵌入模型排行榜進行選擇并探索。
from openai import OpenAI
client = OpenAI()
def get_embedding(text, model="text-embedding-3-small"):
text = text.replace("\n", " ")
return client.embeddings.create(input = [text], model=model)\
.data[0].embedding
get_embedding("Here is TEXT what we want ..... ")
結(jié)果,我們得到了一個1536維的浮點數(shù)向量, 然后,我們可以為所有的數(shù)據(jù)計算向量,并展開分析,一個主要的目標(biāo)是了解句子之間的意義有多接近。我們可以計算向量之間的距離,較小的距離相當(dāng)于較近的意義。
假設(shè)有兩個文本的嵌入是vector1 和vector2, 可以使用不同的度量標(biāo)準(zhǔn)來衡量兩個向量之間的距離:
- 歐式距離
- 曼哈頓距離
- 向量點積
- 余弦距離
2.1 歐式距離
定義兩點(或向量)之間距離的直觀方法是歐式距離,或者叫 L2范數(shù)。我們可以直接使用python或者利用 numpy 函數(shù)來計算這個度量。
import numpy as np
L2_py = sum(list(map(lambda x, y: (x - y) ** 2, vector1, vector2))) ** 0.5
L2_np = np.linalg.norm((np.array(vector1) - np.array(vector2)), ord = 2)
2.2 曼哈頓距離
另一個常用的距離是 L1標(biāo)準(zhǔn)距離或曼哈頓距離,是以紐約曼哈頓島來命名的。這個島上的街道有網(wǎng)格布局,曼哈頓兩點之間的最短路線是跟著網(wǎng)格走的 L1距離。我們同樣可以使用python或者利用 numpy 函數(shù)來計算這個度量。
L1_py = sum(list(map(lambda x, y: abs(x - y), vector1, vector2)))
L1_np = np.linalg.norm((np.array(vector1) - np.array(vector2)), ord = 1)
2.3 向量點積
觀察向量間距離的另一種方法是計算點積。
sum(list(map(lambda x, y: x*y, vector1, vector2)))
np.dot(vector1, vector2)
點積需要從幾何上進行理解。一方面,它顯示向量是否指向一個方向。另一方面,結(jié)果高度依賴于矢量的大小。例如,計算兩對(1,1)向量之間的點積為2, 計算兩對(10,10)向量之間的點積為20,在這兩種情況下,向量是共線的,但是點積在第二種情況下要大十倍。
2.4 余弦距離
余弦距離是由向量的大小(或范數(shù))歸一化的點積。我們可以用前面的方法計算余弦距離,還可以利用Sklearn。
dot_product = sum(list(map(lambda x, y: x*y, vector1, vector2)))
norm_vector1 = sum(list(map(lambda x: x ** 2, vector1))) ** 0.5
norm_vector2 = sum(list(map(lambda x: x ** 2, vector2))) ** 0.5
cs_py=dot_product/norm_vector1/norm_vector2
print(cs_py)
from sklearn.metrics.pairwise import cosine_similarity
cs_sk = cosine_similarity(
np.array(vector1).reshape(1, -1),
np.array(vector2).reshape(1, -1))[0][0]
print(cs_sk)
cosine_similarity 函數(shù)需要2D 數(shù)組,所以需要將向量轉(zhuǎn)化為數(shù)組的形式。余弦距離等于兩個向量之間的余弦。向量越接近,度量值就越高。
我們可以使用任何距離來比較所有的文本嵌入。然而,對于自然語言處理的任務(wù),一般的做法通常是使用余弦距離,因為:
- 余弦距離在 -1和1之間,而 L1和 L2是無界的,所以更容易解釋。
- 從實際角度來看,計算歐幾里得度量點積比計算平方根更有效。
- 余弦距離受維數(shù)災(zāi)難的影響較小。
其中,“維數(shù)災(zāi)難”是指維度越高,矢量之間的距離分布越窄。
3. 文本嵌入的可視化
理解數(shù)據(jù)的最好方法就是將它們可視化。不幸的是,如果文本嵌入有1536個維度,理解數(shù)據(jù)會非常困難。然而,我們可以使用降維技術(shù)在二維空間中做向量投影。
最基本的降維技術(shù)是 PCA (主成分分析) ,我們將嵌入轉(zhuǎn)換成一個2D numpy 數(shù)組,然后將其傳遞給 sklearn。
import numpy as np
from sklearn.decomposition import PCA
embeddings_array = np.array(df.embedding.values.tolist())
print(embeddings_array.shape)
pca_model = PCA(n_components = 2)
pca_model.fit(embeddings_array)
pca_embeddings_values = pca_model.transform(embeddings_array)
print(pca_embeddings_values.shape)
因此得到了一個矩陣,可以很容易地把它做成在一個散點圖。
fig = px.scatter(
x = pca_embeddings_values[:,0],
y = pca_embeddings_values[:,1],
color = df.topic.values,
hover_name = df.full_text.values,
title = 'PCA embeddings', width = 800, height = 600,
color_discrete_sequence = plotly.colors.qualitative.Alphabet_r
)
fig.update_layout(
xaxis_title = 'first component',
yaxis_title = 'second component')
fig.show()
PCA是一種線性算法,而現(xiàn)實生活中大多數(shù)關(guān)系是非線性的。因此,由于非線性的原因,可以嘗試使用一個非線性算法 t-SNE。
from sklearn.manifold import TSNE
tsne_model = TSNE(n_compnotallow=2, random_state=42)
tsne_embeddings_values = tsne_model.fit_transform(embeddings_array)
fig = px.scatter(
x = tsne_embeddings_values[:,0],
y = tsne_embeddings_values[:,1],
color = df.topic.values,
hover_name = df.full_text.values,
title = 't-SNE embeddings', width = 800, height = 600,
color_discrete_sequence = plotly.colors.qualitative.Alphabet_r
)
fig.update_layout(
xaxis_title = 'first component',
yaxis_title = 'second component')
fig.show()
此外,還可以制作三維空間的投影,并將其可視化。
4. 文本嵌入的應(yīng)用示例
文本嵌入的主要目的不是將文本編碼為數(shù)字向量,或者僅僅為了將其可視化。我們可以從捕捉文本含義的能力中受益匪淺。
4.1 聚類
聚類是一種非監(jiān)督式學(xué)習(xí)的技術(shù),它允許將數(shù)據(jù)分成不帶任何初始標(biāo)簽的組,可以幫助理解數(shù)據(jù)中的內(nèi)部結(jié)構(gòu)模式。最基本的聚類算法是K-Means,應(yīng)用時需要指定聚類的數(shù)目,可以使用輪廓得分來定義最佳的聚類。例如,嘗試 聚類數(shù)量k 介于2和50之間,對于每個 k,訓(xùn)練一個模型并計算輪廓分?jǐn)?shù)。輪廓得分越高,聚類效果越好。
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import tqdm
silhouette_scores = []
for k in tqdm.tqdm(range(2, 51)):
kmeans = KMeans(n_clusters=k,
random_state=42,
n_init = 'auto').fit(embeddings_array)
kmeans_labels = kmeans.labels_
silhouette_scores.append(
{
'k': k,
'silhouette_score': silhouette_score(embeddings_array,
kmeans_labels, metric = 'cosine')
}
)
fig = px.line(pd.DataFrame(silhouette_scores).set_index('k'),
title = '<b>Silhouette scores </b>',
labels = {'value': 'silhoutte score'},
color_discrete_sequence = plotly.colors.qualitative.Alphabet)
fig.update_layout(showlegend = False)
如果有實際文本的主題標(biāo)簽,我們可以用它來評估聚類結(jié)果的好壞。
4.2 分類
同樣,文本嵌入可以用于分類或回歸任務(wù)。例如,預(yù)測客戶評論的情緒(分類)或 NPS 評分(回歸)。分類和回歸是監(jiān)督式學(xué)習(xí),所以需要有數(shù)據(jù)標(biāo)簽。為了正確評估分類模型的性能,我們將數(shù)據(jù)集劃分為訓(xùn)練集和測試集(80% 比20%)。然后,在一個訓(xùn)練集上訓(xùn)練模型,并在一個測試集上測量質(zhì)量。
以隨機森林分類器為例:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
class_model = RandomForestClassifier(max_depth = 5)
# defining features and target
X = embeddings_array
y = df.topic
# splitting data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(
X, y, random_state = 49, test_size=0.2, stratify=y)
# fit & predict
class_model.fit(X_train, y_train)
y_pred = class_model.predict(X_test)
然后,我們計算一個混淆矩陣,理想的情況下所有非對角線的元素應(yīng)該是0。
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
fig = px.imshow(
cm, x = class_model.classes_,
y = class_model.classes_, text_auto='d',
aspect="auto",
labels=dict(
x="predicted label", y="true label",
color="cases"),
color_continuous_scale='pubugn',
title = '<b>Confusion matrix</b>', height = 550)
fig.show()
我們還可以使用嵌入來發(fā)現(xiàn)數(shù)據(jù)中的異常。例如,在可視化的圖像上,看到一些問題與它們的聚類相去甚遠,那些就可能是異常的數(shù)據(jù)。
4.3 RAG
隨著 LLM 最近越來越流行,文本嵌入在 RAG 用例中得到了廣泛的應(yīng)用。當(dāng)有很多文檔需要檢索增強生成時,而我們卻不能將它們?nèi)總鬟f給 LLM,因為:
- LLM 對上下文大小有限制(例如,GPT-4 Turbo 的上下文大小是128K)。
- 由于需要為token付費,所以傳遞所有信息的成本更高。
- 在更大的上下文中,LLM 顯示出的性能較差。
為了能夠使用廣泛的知識庫,我們可以利用 RAG 方法:
- 計算所有文檔的嵌入,并將它們存儲在向量存儲器中。
- 當(dāng)?shù)玫揭粋€用戶請求時,可以計算它的嵌入并從存儲中檢索該請求的相關(guān)文檔。
- 只將相關(guān)文檔傳遞給 LLM 以獲得最終答案。
5. 一句話小結(jié)
文本處理方法的演變導(dǎo)致了文本嵌入的出現(xiàn),從詞匯的語義表達到句子嵌入,多種距離度量方法可以幫助理解文本是否具有相似的意義,文本嵌入的可視化可以幫助我們了解數(shù)據(jù)的內(nèi)在模式,常見的應(yīng)用示例包括聚類、分類以及基于大模型的RAG等。