自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<del id="tvw8g"><ul id="tvw8g"></ul></del>

<del id="tvw8g"><b id="tvw8g"><small id="tvw8g"></small></b></del>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

大模型底座之向量化，以及向量化的原理原創(chuàng)

AI探索時(shí)代

發(fā)布于 2025-1-3 16:44

瀏覽

0收藏

“ 向量化是一切大模型技術(shù)的基礎(chǔ)，大模型中的一切都是向量?！?/strong>

在之前的文章曾不止一次的講過向量，向量作為大模型的基礎(chǔ)數(shù)據(jù)格式，其重要性不言而喻；但大部分人對向量還是沒有一個深刻的認(rèn)識。

所以，今天我們就來討論一個問題，那就是向量化，大模型的入口。

向量化

向量的概念這里就不解釋了，有問題的可以看之前的文章，或者自己去找一下向量，矩陣的內(nèi)容看看。

先來討論第一個問題，為什么要向量化？

原因在于計(jì)算機(jī)無法直接處理非數(shù)值性計(jì)算，所以的計(jì)算都需要轉(zhuǎn)換成數(shù)值運(yùn)算才行；但數(shù)值計(jì)算的方式有很多，為什么會選擇向量作為載體？

原因就在于向量的幾個基本特性：

第一就是向量便于計(jì)算機(jī)進(jìn)行處理；
第二就是向量能夠表示文本，圖像等之間的語義關(guān)系
第三就是使用矩陣來表示向量，計(jì)算效率更高

什么是向量化？

簡單來說向量化就是把其它格式的數(shù)據(jù)轉(zhuǎn)換為向量形式，這里的其它格式包括我們常見的一切格式的數(shù)據(jù)，文本，圖像，視頻，音頻等等；因此，可以直接把向量化理解為一種數(shù)據(jù)格式轉(zhuǎn)換的技術(shù)。

在大模型中哪些地方需要進(jìn)行向量化？

簡單來說，任何需要輸入到大模型的數(shù)據(jù)都需要向量化；其次，需要記錄語義關(guān)系的也都需要向量化，比如RAG，向量數(shù)據(jù)庫等。

眾所周知，大模型是由一個輸入層，一個隱藏層，一個輸出層組成；而其中隱藏層包括一個或多個神經(jīng)網(wǎng)絡(luò)層。其中，輸入層需要做的一件事就是把輸入數(shù)據(jù)向量化，只有這樣才能被隱藏層接受和處理。

記住一句話，在大模型中一切都是向量。

那怎么實(shí)現(xiàn)向量化？

在不同的技術(shù)階段，向量化的方式也有所不同；以文本向量化來說，文本向量化一般有三種方式：

one-hot編碼
詞匯映射(Word2Vec)
Word Embedding(廣義上Word2Vec也屬于Word Embedding的一種)

詞嵌入是文本向量化的一種常見方式，一般情況下會將一個單詞映射到一個高維向量中來代表這個詞，這就是詞向量。

而文本嵌入層的作用就是，將文本中詞匯的數(shù)字表示轉(zhuǎn)變?yōu)楦呔S的向量表示，旨在高維空間捕捉詞匯間的關(guān)系。

Embedding 可以說是目前比較常見的一種向量化的方式，各大模型服務(wù)商，以及開源社區(qū)都發(fā)布了大量的Embedding模型來提供給用戶使用；而Embedding嵌入就是一種經(jīng)過專門訓(xùn)練的用來向量化數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型。

只不過Embedding嵌入模型經(jīng)過矩陣算法的優(yōu)化，比傳統(tǒng)的向量化方式效率更高，效果更好。

??https://cloud.tencent.com/developer/article/1749306??

而且，Embedding的應(yīng)用非常廣泛，其不僅是大模型的基礎(chǔ)技術(shù)之一；事實(shí)上，Embedding也是大模型技術(shù)的應(yīng)用場景之一。比如在圖像搜索，推薦系統(tǒng)，廣告，搜索等業(yè)務(wù)中，Embedding都發(fā)揮著重要的作用。

了解了文本向量化的工具之后，那么思考一下圖像和視頻是怎么實(shí)現(xiàn)向量化的？

在圖像向量化的過程中，卷積神經(jīng)網(wǎng)絡(luò)和自編碼器都是用于圖像向量化的有效工具；前者通過訓(xùn)練提取圖像特征并轉(zhuǎn)換為向量；后者則學(xué)習(xí)圖像的壓縮編碼以生成低維向量表示。

卷積神經(jīng)網(wǎng)絡(luò)（CNN）：通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型，我們可以從原始圖像數(shù)據(jù)中提取特征，并將其表示為向量。例如，使用預(yù)訓(xùn)練的模型（如VGG16, ResNet）的特定層作為特征提取器。
自編碼器（Autoencoders）：這是一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)，用于學(xué)習(xí)輸入數(shù)據(jù)的有效編碼。在圖像向量化中，自編碼器可以學(xué)習(xí)從圖像到低維向量的映射

本文轉(zhuǎn)載自公眾號AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/ot6no8efUu4CztLJEpcU2A??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽
大模型
向量化

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報(bào)
舉報(bào)

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

目前最優(yōu)的LLM PTQ量化算法——OmniQuant

angel ? 6544瀏覽 ? 0回復(fù)
字節(jié)開源大模型量化新思路，2-bit量化模型精度齊平fp16

輕薄滴假象 ? 3112瀏覽 ? 0回復(fù)
量化大模型退化嚴(yán)重？ETH北航字節(jié)推出LoRA新范式 | ICML 2024

Crystalcxt ? 2258瀏覽 ? 0回復(fù)
大模型為什么要微調(diào)？以及大模型微調(diào)的原理是什么？

AI探索時(shí)代 ? 6025瀏覽 ? 0回復(fù)
向量——人工智能技術(shù)的基石結(jié)構(gòu)

AI探索時(shí)代 ? 3936瀏覽 ? 1回復(fù)
多模態(tài)大模型的實(shí)現(xiàn)原理，以及技術(shù)難點(diǎn)

AI探索時(shí)代 ? 4533瀏覽 ? 0回復(fù)
大模型技術(shù)學(xué)習(xí)之——大模型常用架構(gòu)以及技術(shù)難點(diǎn)

AI探索時(shí)代 ? 3453瀏覽 ? 0回復(fù)
「模型量化技術(shù)」可視化指南：A Visual Guide to Quantization

Baihai_IDP ? 3114瀏覽 ? 0回復(fù)
視頻生成類大模型實(shí)現(xiàn)原理以及應(yīng)用和難點(diǎn)

AI探索時(shí)代 ? 3490瀏覽 ? 0回復(fù)
快手自研Spark向量化引擎正式發(fā)布，性能提升200%

快手技術(shù) ? 2106瀏覽 ? 0回復(fù)
Jina CLIP v2：為多模態(tài)RAG設(shè)計(jì)的向量模型

kede96 ? 2986瀏覽 ? 0回復(fù)
RAG與本地知識庫，向量數(shù)據(jù)庫，以及知識圖譜的聯(lián)系與區(qū)別

AI探索時(shí)代 ? 4782瀏覽 ? 0回復(fù)
再談大模型向量，由向量檢索引起的思考

AI探索時(shí)代 ? 1772瀏覽 ? 0回復(fù)
大模型檢索增強(qiáng)生成之向量數(shù)據(jù)庫的問題

AI探索時(shí)代 ? 2084瀏覽 ? 0回復(fù)
大模型的嵌入——Embedding與向量——Ve ctor

AI探索時(shí)代 ? 2898瀏覽 ? 0回復(fù)
大模型之嵌入與向量化的區(qū)別是什么？

AI探索時(shí)代 ? 2014瀏覽 ? 0回復(fù)
AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師

魯班模錘1 ? 964瀏覽 ? 0回復(fù)
RAG實(shí)戰(zhàn) | 向量數(shù)據(jù)庫LanceDB指南

周末程序猿 ? 1427瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域的核心優(yōu)化手段之一：向量化

每天五分鐘玩轉(zhuǎn)人工智能 ? 443瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)
王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)
Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)
Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)
只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：什么是序列到序列(Seq2Seq)模型？以及為什么圖像理解領(lǐng)域主要使用的是CNN網(wǎng)絡(luò)而不是Transformer網(wǎng)絡(luò)？

下一篇：大模型之神經(jīng)網(wǎng)絡(luò)特征提取綜述

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷