自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="twy6b"><span id="twy6b"></span></meter>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

大模型語義分析之嵌入(Embedding)模型原創(chuàng)

發(fā)布于 2024-12-26 16:18

瀏覽

0收藏

“ 嵌入是大模型的基礎(chǔ)，而嵌入的底層結(jié)構(gòu)就是向量，而表示方式就是矩陣 ”

嵌入——Embedding，可能有些人了解過這個詞，也可能沒了解過這個詞；但不管怎么說，嵌入在大模型技術(shù)中扮演著非常重要的角色；它是很多上層技術(shù)的基礎(chǔ)。

大模型的底層數(shù)學(xué)結(jié)構(gòu)是向量，而由于計算機(jī)只能進(jìn)行數(shù)值計算；因此向量在計算機(jī)中是通過矩陣結(jié)構(gòu)進(jìn)行表示的，優(yōu)點(diǎn)就在于計算簡單；并且能進(jìn)行升維和降維操作。

嵌入就是把數(shù)據(jù)（包括文本，圖像，音視頻等多種模態(tài)的數(shù)據(jù)）向量化表示的技術(shù)?。?！

大模型之嵌入——Embedding

今天在研究RAG技術(shù)的時候，一直在思考一個問題，嵌入；在RAG的流程中，第一步是文檔加載，第二步就是文檔切片然后調(diào)用嵌入模型把文檔轉(zhuǎn)化為向量模式。

所以，這里就產(chǎn)生了一個問題，那就是這個嵌入過程是什么樣的？簡單來說就是怎么把文本或圖片等多種模態(tài)的數(shù)據(jù)，通過嵌入模型轉(zhuǎn)化為向量數(shù)據(jù)？

嵌入模型不僅僅只是把文本或圖片轉(zhuǎn)換成向量模式，還有更重要的一點(diǎn)就是要保證嵌入文本的語義關(guān)系。所以，這個都是怎么實(shí)現(xiàn)的？

大模型語義分析之嵌入(Embedding)模型-AI.x社區(qū)

在文檔分割的過程中，有一個很重要的環(huán)節(jié)就是文檔切分，文檔切分的不同方式直接影響到嵌入向量的語義效果；因此，在RAG中嵌入模型很重要，文檔切分也同樣重要。

在大模型中，比如以Transformer架構(gòu)為例，其使用了自注意力機(jī)制來保證文檔語義的連貫性；但文檔數(shù)據(jù)輸入大模型之前，同樣必須轉(zhuǎn)化為向量格式的數(shù)據(jù)才能被大模型所識別，然后進(jìn)行處理。

但文檔在輸入大模型之前轉(zhuǎn)換的向量是沒有語義關(guān)系的；所以，大家是否發(fā)現(xiàn)大模型訓(xùn)練和嵌入大模型的區(qū)別？

普通大模型訓(xùn)練是學(xué)習(xí)文檔中的語義關(guān)系；而嵌入模型是接受一個文檔作為輸入，然后根據(jù)自己習(xí)得的參數(shù)對文檔進(jìn)行語義轉(zhuǎn)換，然后輸出一段有語義關(guān)系的向量數(shù)據(jù)。

而文檔中語義之間的關(guān)系，經(jīng)過向量化之后是通過向量之間的數(shù)學(xué)關(guān)系來表示的；比如歐式距離，余弦值等。

大模型語義分析之嵌入(Embedding)模型-AI.x社區(qū)

關(guān)于文檔向量化的過程，除了采用嵌入模型之外，還有其它多種方式來實(shí)現(xiàn)；比如說，One-Hot獨(dú)熱編碼和詞袋模型等；只不過熱獨(dú)編碼和詞袋模型無法保證文檔的語義關(guān)系，雖然其也構(gòu)建了詞匯表，但每個詞都是獨(dú)立的，沒有任何數(shù)學(xué)上的關(guān)系體現(xiàn)。

這篇文章說是介紹嵌入，不如說是自己思考問題的記錄；今天看了大半天的嵌入問題，也查了很多資料；但總覺得是在霧里看花，很多問題都不明白，也抓不著重點(diǎn)。

記錄幾個問題：

嵌入是怎么理解語義的？

大模型是怎么理解語義的？

分塊對語義的影響以及原因是什么？

大模型訓(xùn)練的參數(shù)與語義理解的關(guān)系？

向量矩陣 embedding transformer架構(gòu)之間的關(guān)系是什么？

本文轉(zhuǎn)載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/oD5naQ6jOnIqCTDXJvM-7w??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

大模型語義分析

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

如何借助假設(shè)文檔嵌入改進(jìn)語義搜索？

51CTO內(nèi)容精選 ? 3129瀏覽 ? 0回復(fù)
利用LLM本身訓(xùn)練SoTA embedding模型

arnoldzhw ? 3855瀏覽 ? 0回復(fù)
OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維

PaperAgent ? 4906瀏覽 ? 0回復(fù)
大模型應(yīng)用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 4353瀏覽 ? 0回復(fù)
常見幾種大語言模型壓縮技術(shù)分析詳解

AIGC觀察者 ? 2821瀏覽 ? 0回復(fù)
大模型學(xué)習(xí)方法之——大模型技術(shù)學(xué)習(xí)路線

AI探索時代 ? 3879瀏覽 ? 0回復(fù)
大模型技術(shù)學(xué)習(xí)之——大模型常用架構(gòu)以及技術(shù)難點(diǎn)

AI探索時代 ? 3453瀏覽 ? 0回復(fù)
大模型開發(fā)之算子

AI探索時代 ? 7927瀏覽 ? 0回復(fù)
大模型微調(diào)方法之QLoRA

shizhi02 ? 2219瀏覽 ? 0回復(fù)
大模型體驗(yàn)之Qwen2模型

一起AI技術(shù) ? 2690瀏覽 ? 0回復(fù)
大模型之Agent的初步了解

一起AI技術(shù) ? 2005瀏覽 ? 0回復(fù)
大模型之深入探索RAG流程

一起AI技術(shù) ? 2423瀏覽 ? 0回復(fù)
為什么有了大模型還需要用Embedding模型？

石映飛云 ? 1817瀏覽 ? 0回復(fù)
大模型的嵌入——Embedding與向量——Ve ctor

AI探索時代 ? 2898瀏覽 ? 0回復(fù)
大模型之嵌入與向量化的區(qū)別是什么？

AI探索時代 ? 2014瀏覽 ? 0回復(fù)
大模型前置處理之——特征提取

AI探索時代 ? 2172瀏覽 ? 0回復(fù)
RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路

大模型自然語言處理 ? 961瀏覽 ? 0回復(fù)
從零開始微調(diào)Embedding模型：基于BERT的實(shí)戰(zhàn)教程

AI悠閑區(qū) ? 791瀏覽 ? 0回復(fù)
騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

CourseAI ? 735瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：云計算與大模型訓(xùn)練的結(jié)合

下一篇：大模型的嵌入——Embedding與向量——Ve ctor

社區(qū)精華內(nèi)容

目錄