為什么有了大模型還需要用Embedding模型?
不知道大家有沒有想過這個(gè)問題?
我這兩天對(duì)這個(gè)問題還深入思考了一下,思考的初衷是來源于現(xiàn)在這么多的開源大模型,而且挺多是多模態(tài)場(chǎng)景,而Embedding模型相對(duì)單模且英文語料居多,如果能復(fù)用大模型的output layer,是不是會(huì)加速手頭上的實(shí)驗(yàn)進(jìn)展。
但思考后覺得效果應(yīng)該是比不上原生的Embedding模型,有空再專門測(cè)試一下看看。
可能主要有以下幾點(diǎn)原因:
- 像LLM模型都是預(yù)測(cè)next token,那么針對(duì)next token的預(yù)測(cè),模型肯定更加關(guān)注在這個(gè)token附近的信息,那么對(duì)應(yīng)這個(gè)Embedding也更多是這附近的局部信息。而我們需要的Embedding表征,是輸入句子的全局表征,而不是“你好嗎,我吃飯了,你可以出來了嗎?”這句話里,對(duì)其中“你可以出來了嗎”做的局部信息特征映射。
- 目前比較好的Embedding模型都用到了對(duì)比學(xué)習(xí),這種學(xué)習(xí)方式能夠更精確地學(xué)習(xí)的全局Eembedding特征,如果用LLM也可以在下游接一個(gè)自監(jiān)督訓(xùn)練器,效果也會(huì)很不錯(cuò),就是成本有點(diǎn)高。最近有一篇paper也可供參考:《Improving Text Embeddings with Large Language Models》
對(duì)比學(xué)習(xí)目標(biāo)是,學(xué)習(xí)一個(gè)這樣的特征提取器,在它提取的特征所構(gòu)建的 embedding 空間中,同類樣本的 embedding 互相靠近,而不同類樣本的embedding相互遠(yuǎn)離。通常,同類樣本對(duì)互稱為正樣本(positive sample),不同類樣本對(duì)互稱為負(fù)樣本(negative sample)。
本文轉(zhuǎn)載自 ??沐白AI筆記??,作者: 楊沐白
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)

回復(fù)
相關(guān)推薦