自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="23zk0"><tt id="23zk0"></tt></blockquote>

<menuitem id="23zk0"><ul id="23zk0"><small id="23zk0"></small></ul></menuitem>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧

發(fā)布于 2024-9-5 12:50

瀏覽

0收藏

今天給大家分享JinaAI提出的一個(gè)新的技巧。

正常在處理大規(guī)模數(shù)據(jù)建索引的時(shí)候，一般我們需要先對(duì)文檔進(jìn)行分塊，建立向量索引。而這個(gè)分塊大小，設(shè)置的都是比較短的，比如512。一方面是早期bert的處理長(zhǎng)度的限制，另一個(gè)方面是如果文本太長(zhǎng)，包含的信息就越多，那么可能比較難用一個(gè)向量來表征出來。

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧-AI.x社區(qū) 圖片

對(duì)于前者，如果持續(xù)關(guān)注向量模型的同學(xué)可以發(fā)現(xiàn)，無論是開源的BGE系列，還是閉源的API，都在往一個(gè)較長(zhǎng)的上下文靠齊（比如說8192）。那這就有一些矛盾了，如果工業(yè)界只需要512的上下文的向量模型，為什么還要往更長(zhǎng)的8192模型發(fā)展呢？

對(duì)于傳統(tǒng)的分塊，類似于固定長(zhǎng)度的分塊。帶來的一個(gè)比較大的問題是，上下文缺失。就像下圖一樣，一個(gè)句子的主語在段落開頭，后面的段落/句子中，有一些代詞比如 It's， The city等等來表示主語。這種情況下確實(shí)主語的句子基本上就變得比較斷章取義了~

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧-AI.x社區(qū) 圖片

與先分塊后向量化不同，JinaAI最新提出的“Late Chunking”方法是一個(gè)相反的步驟，首先將整個(gè)文本或盡可能多的文本輸入到嵌入模型中。在輸出層會(huì)為每個(gè)token生成一個(gè)向量表示，其中包含整個(gè)文本的文本信息。然后我們可以按照需要的塊大小對(duì)對(duì)向量進(jìn)行聚合得到每個(gè)chunk的embedding。這樣的優(yōu)勢(shì)是，充分利用長(zhǎng)上下文模型的優(yōu)勢(shì)，同時(shí)又不會(huì)讓每個(gè)塊的信息過多，干擾向量表征。

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧-AI.x社區(qū) 圖片

在測(cè)試中，在所有情況下，與常規(guī)的分塊相比，Late Chunking提高了召回ndcg@10。在某些情況下，它的性能也優(yōu)于將整個(gè)文檔編碼為單個(gè)嵌入。并且，文檔越長(zhǎng)，Late Chunking策略就越有效。

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧-AI.x社區(qū) 圖片

開源的實(shí)驗(yàn)代碼：??https://colab.research.google.com/drive/15vNZb6AsU7byjYoaEtXuNu567JWNzXOz?usp=sharing&ref=jina-ai-gmbh.ghost.io??

本文轉(zhuǎn)載自 ??探索AGI??，作者：獼猴桃

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實(shí)踐

Syrupup ? 4246瀏覽 ? 0回復(fù)
RAG 的未來 - 自動(dòng)文檔檢索

探索AGI ? 2154瀏覽 ? 0回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級(jí)碼力”！

AI.x社區(qū)官方賬號(hào) ? 33.0w瀏覽 ? 148回復(fù)
一個(gè)輕量級(jí)RAG文本切塊項(xiàng)目Chonkie

PaperAgent ? 2454瀏覽 ? 0回復(fù)
微調(diào)大型語言模型（LLM）的五個(gè)技巧

51CTO內(nèi)容精選 ? 2250瀏覽 ? 0回復(fù)
一文教你如何永久使用Cursor技巧！

唐克 ? 3.3w瀏覽 ? 1回復(fù)
減少LLM幻覺的五大技巧和方法

51CTO內(nèi)容精選 ? 1897瀏覽 ? 0回復(fù)
十個(gè)Cursor智能編程技巧，從小白到高手

小虎哦哦 ? 4677瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 2331瀏覽 ? 0回復(fù)
DeepSearcher 開源：告別傳統(tǒng) RAG，私有數(shù)據(jù)+DeepSeek，打造本地版 Deep Research

玄姐聊AGI ? 3666瀏覽 ? 0回復(fù)
10個(gè)超級(jí)實(shí)用的DeepSeek提問技巧

數(shù)師兄 ? 1488瀏覽 ? 0回復(fù)
傳統(tǒng)分塊已死？Agentic Chunking拯救語義斷裂，實(shí)測(cè)RAG準(zhǔn)確率飆升40%，LLM開發(fā)者必看！

AI博物院 ? 2579瀏覽 ? 0回復(fù)
DeepSearcher 開源：告別傳統(tǒng) RAG，私有數(shù)據(jù)+DeepSeek，打造本地版 Deep Research

玄姐聊AGI ? 2873瀏覽 ? 0回復(fù)
文檔解析神器MinerU：2.5萬星標(biāo)！支持GPU加速，輕松應(yīng)對(duì)復(fù)雜文檔

AI博物院 ? 4303瀏覽 ? 0回復(fù)
PromptPro：AI提示詞管理神器，從此告別雜亂無章！

Halo咯咯 ? 2256瀏覽 ? 0回復(fù)
GenAI紅隊(duì)：將LLM置于網(wǎng)絡(luò)安全測(cè)試中的技巧和技術(shù)

51CTO內(nèi)容精選 ? 968瀏覽 ? 0回復(fù)
TeapotLLM，讓AI告別“胡言亂語”

Halo咯咯 ? 1270瀏覽 ? 0回復(fù)
掌握這5個(gè)技巧，讓你的大模型交互更高效！

Halo咯咯 ? 1002瀏覽 ? 0回復(fù)
騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

CourseAI ? 739瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Anthropic開源Agentic Coding最佳實(shí)踐！ 8天前發(fā)布
英偉達(dá)押注Agent新基建！AI專屬搜索引擎問世 2025-04-10 06:40:23發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Agent的進(jìn)化：RAISE如何讓AI更聰明？

下一篇：一款由知識(shí)圖譜引擎驅(qū)動(dòng)的創(chuàng)新Agent框架

社區(qū)精華內(nèi)容

目錄