自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<xmp id="bhrgg"><rp id="bhrgg"></rp></xmp>

<blockquote id="bhrgg"><i id="bhrgg"></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備原創(chuàng) 精華

發(fā)布于 2024-11-13 09:10

瀏覽

0收藏

前言

在私有領(lǐng)域知識問答和企業(yè)知識管理領(lǐng)域，結(jié)合檢索增強型生成模型（Retrieval-Augmented Generation, RAG）大模型（Large Language Model, LLM）已成為一種趨勢。然而，在RAG系統(tǒng)的文檔預(yù)處理階段和檢索階段，經(jīng)常碰到三個主要問題。

企業(yè)內(nèi)部常常積累了大量包含PDF格式的文檔，這些文檔的解析精度不足，嚴(yán)重制約了基于專業(yè)知識的問答系統(tǒng)的性能。因此，提高這些PDF文件的解析質(zhì)量，對于構(gòu)建高效的RAG系統(tǒng)至關(guān)重要。
構(gòu)建起一個完備的智能文檔解析服務(wù)后，需要一個有效的評測工具來有評測文檔的解析質(zhì)量，而不是主觀的通過肉眼感知。
用戶查詢通過text embedding向量模型快速、準(zhǔn)確、有效從知識庫中檢索出相關(guān)知識片段，使得LLM回答準(zhǔn)確。

本文將先探討下文檔解析的準(zhǔn)確性對RAG系統(tǒng)的影響；然后介紹下智能文檔解析關(guān)鍵技術(shù)，并介紹閉源的通用文檔解析服務(wù)——TextIn，還介紹了一款開源的文檔解析質(zhì)量評測工具-Markdown Tester，最后介紹下合合信息開發(fā)的向量表征模型-acge_text_embedding。

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

RAG一般流程

一、文檔解析的準(zhǔn)確性對RAG系統(tǒng)的影響

在RAG的預(yù)處理階段，文檔解析的準(zhǔn)確性是至關(guān)重要的。如果文檔解析不準(zhǔn)確，這將直接影響到后續(xù)的檢索和生成階段，導(dǎo)致整個RAG系統(tǒng)的性能下降。以下是文檔解析不準(zhǔn)確可能帶來的具體問題及其影響：

內(nèi)容識別錯誤：如果文檔中的文本、圖像或格式被錯誤識別，將導(dǎo)致原始信息的丟失或錯誤。例如：（1）表格數(shù)據(jù)可能被錯誤地解析為普通文本，表格的行列關(guān)系混亂等：導(dǎo)致表格數(shù)值類問題無法進行精準(zhǔn)的回答和RAG系統(tǒng)可能無法正確理解數(shù)據(jù)間的關(guān)聯(lián)性。（2）圖像中的文字（OCR）被錯誤識別：如果文檔中的文本或圖像被錯誤識別，系統(tǒng)接收到的數(shù)據(jù)質(zhì)量會下降，這將影響系統(tǒng)生成的輸出質(zhì)量。
布局信息丟失：PDF文件的布局信息，如頁面布局、段落、標(biāo)題層級等，在解析過程中可能會丟失，這會影響對文檔結(jié)構(gòu)的把握，進而影響分塊（chunks）。為了適應(yīng)模型的輸入要求，文檔需要被分割成小塊。如果分塊策略不當(dāng)，可能會導(dǎo)致語義信息的丟失，影響模型對文檔內(nèi)容的理解。
編碼問題：PDF文件可能包含多種字符編碼、水印等，一些pdf解析工具不能正確處理這些編碼，可能會導(dǎo)致亂碼。亂碼的文本內(nèi)容如果解析出來混合在文本中，會給知識庫帶來大量的噪聲，這也會影響RAG系統(tǒng)的性能。
文檔復(fù)雜性：（1）復(fù)雜的文檔結(jié)構(gòu)，如多欄布局、閱讀順序恢復(fù)、混合文本和圖像等，可能會給解析帶來額外的挑戰(zhàn)，增加解析錯誤的風(fēng)險。（2）文檔元素的復(fù)雜性：文檔中包含各種元素類型，如：段落、表格、公式和圖表。錯誤的解析這些元素內(nèi)容，也會給RAG系統(tǒng)的知識庫帶來大量噪聲。

因此，對于C端文檔問答的RAG系統(tǒng)應(yīng)用產(chǎn)品，迫切的需要對文檔進行精準(zhǔn)解析。理想情況下，文檔解析器應(yīng)具備以下關(guān)鍵特征：

文檔結(jié)構(gòu)識別：能夠靈活地將頁面劃分為不同類型的內(nèi)容塊，如標(biāo)題、段落、表格、公式和圖表。這確保了劃分的文本塊是完整和獨立的語義單元。
文檔內(nèi)元素準(zhǔn)確解析：在文檔結(jié)構(gòu)識別之后，識別出來的內(nèi)容塊準(zhǔn)確解析，如：OCR準(zhǔn)確無誤的將標(biāo)題、段落解析成文本內(nèi)容；表格識別解析精確：尤其是數(shù)值類文檔問答敏感的場景；公式能夠準(zhǔn)確的解析成Latex格式。
在復(fù)雜文檔布局中保持魯棒性：即使是在文檔頁面布局復(fù)雜的情況下也能保證解析效果，如多列頁面、無邊框表格甚至合并單元格的表格。

二、文檔解析的技術(shù)路線

對于簡單的文檔解析，langchain 和 llama_index 中集成了各種基于規(guī)則引擎的解析工具（如：解析pdf的pdfplumber，pyPDF2等）或者簡單的開源的ocr工具（如：paddleocr），能夠?qū)Χ喾N文件類型進行解析。

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

解析工具常出現(xiàn)的問題

對于復(fù)雜的文檔解析,常基于深度學(xué)習(xí)的方法進行解析，在上篇文章中（《??【文檔智能 & RAG】RAG增強之路：增強PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路??》）也講解了文檔解析的一些關(guān)鍵的開源技術(shù)路徑及方案。

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

文檔內(nèi)容解析路徑

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

智能文檔（文本內(nèi)容）技術(shù)路線

然而，對于通用文檔解析而言還存在著一些挑戰(zhàn)：

2.1 版式分析

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

版式分析

版面分析指的是對文檔進行區(qū)域劃分，通過bounding box定位其中的關(guān)鍵區(qū)域，如：文字、標(biāo)題、表格、圖片等。

版式分析的優(yōu)勢：

1.通過大量標(biāo)注的數(shù)據(jù)，準(zhǔn)確的劃分出文檔關(guān)鍵區(qū)域。如：

文本區(qū)域：頁眉、頁腳、標(biāo)題、段落、頁碼、腳注、圖片標(biāo)題、表格標(biāo)題等
表格
公式
圖片

2.能對復(fù)雜的版式進行區(qū)塊識別

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

復(fù)雜版式

版式分析的缺點，目前基本都是通過目標(biāo)檢測的形式進行版式分析，因此其挑戰(zhàn)也是伴隨著特定場景的標(biāo)注數(shù)據(jù)，尤其是通用場景的版式分析，難度巨大。

2.2 表格識別與解析

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

表格識別與解析的難點一般如下：

表格的多樣性和復(fù)雜性：表格的形式多種多樣，包括有線表、無線表和少線表，這使得檢測和分割單元格變得復(fù)雜。
表格單元格的合并與拆分：某些表格中的單元格可能跨行或跨列，甚至跨頁，需要準(zhǔn)確識別這些合并的單元格并將其恢復(fù)成標(biāo)準(zhǔn)單元格。
表格內(nèi)容的識別和解析：表格中可能包含圖像、公式、符號等非文本內(nèi)容，需要將它們轉(zhuǎn)換成文本或保留格式。
表格結(jié)構(gòu)的表示和輸出：不同的應(yīng)用場景可能需要不同的表格結(jié)構(gòu)表示方式，如 HTML、JSON、CSV 等，需要將識別結(jié)果轉(zhuǎn)換成適合目標(biāo)應(yīng)用的格式，并保留數(shù)據(jù)和樣式信息。

2.3 公式識別與解析

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

公式識別類型

數(shù)學(xué)公式識別與解析是一個技術(shù)挑戰(zhàn)性很高的領(lǐng)域，主要難點包括：

公式結(jié)構(gòu)的復(fù)雜性：數(shù)學(xué)公式往往包含復(fù)雜的嵌套結(jié)構(gòu)，這些結(jié)構(gòu)的識別需要算法能夠準(zhǔn)確理解公式的層次關(guān)系，例如多層的分?jǐn)?shù)、根號等。
形近字的識別難度：在手寫識別中，相似形狀的字符如大寫X和小寫x，大寫Z和數(shù)字2，希臘字母γ和字母r等容易混淆，增加了識別的難度。
非常規(guī)符號的識別：比賽中添加的非常規(guī)符號組合可能會與公式混淆，增加了識別的復(fù)雜度。

2.4 閱讀順序

由于文檔布局的復(fù)雜性，包括多欄、嵌套表格、不規(guī)則的文本框等，這增加了閱讀順序恢復(fù)的難度。往期中也介紹了閱讀順序相關(guān)內(nèi)容（《??【文檔智能】符合人類閱讀順序的文檔模型-LayoutReader及非官方權(quán)重開源??》）

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

多列布局閱讀順序恢復(fù)

小結(jié)：以上文檔解析的每個環(huán)節(jié)無論是數(shù)據(jù)標(biāo)注、模型訓(xùn)練、實驗，都需要投入巨大的成本和精細化的優(yōu)化，在工業(yè)落地場景，在保證解析效果的同時，還需要關(guān)注文檔的解析速度。尤其是OCR過程，文字密集型文檔的解析速度影響特別大。

三、TextIn

針對以上痛點，筆者深度體驗了一下合合信息自研文檔解析技術(shù)-TextIn。該技術(shù)深度融合了文字識別（OCR）、計算機圖形圖像技術(shù)以及智能圖像處理引擎，使得紙質(zhì)文檔或圖片中的文字信息能夠迅速、精準(zhǔn)地轉(zhuǎn)化為計算機易于處理的文本格式。

TextIn文檔智能關(guān)鍵技術(shù)如下：

3.1 版面分析關(guān)鍵技術(shù) Layout-engine

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

3.2 文檔樹提取關(guān)鍵技術(shù) Catalog-engine

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

3.3 解析體驗

測試樣例：

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

TextIn解析輸出：

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

TextIn解析結(jié)果

可以看到，TextIn將pdf文件解析成markdown格式，并將標(biāo)題、段落、行內(nèi)公式及行間公式準(zhǔn)確解析。

值得關(guān)注的是，標(biāo)題，段落的準(zhǔn)確解析、并按照閱讀順序進行輸出，這是生成文檔目錄及文檔樹的基礎(chǔ)。

快速上手代碼：

import requests
import json

def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

class TextinOcr(object):
    def __init__(self, app_id, app_secret):
        self._app_id = app_id
        self._app_secret = app_secret
        self.host = 'https://api.textin.com'

    def recognize_pdf2md(self, image, options):
        """
        pdf to markdown
        :param options: request params
        :param image: file bytes
        :return: response

        options = {
            'pdf_pwd': None,
            'dpi': 72,
            'page_start': 0,
            'page_count': 24,
            'apply_document_tree': 0,
            'markdown_details': 0,
            'table_flavor': 'md',
            'get_image': 'none',
            'parse_mode': 'auto',
        }
        """


        url = self.host + '/ai/service/v1/pdf_to_markdown'
        headers = {
            'x-ti-app-id': self._app_id,
            'x-ti-secret-code': self._app_secret
        }

        return requests.post(url, data=image, headers=headers, params=options)

def write_file(markdown_result, filepath = 'test.md'):
    f = open(filepath, 'w')
    f.write(markdown_result)
    f.close()

if __name__ == "__main__":
    textin = TextinOcr('app-id', 'app-secret')
    image = get_file_content('test.pdf')
    resp = textin.recognize_pdf2md(image, {
        'page_start': 0,
        'page_count': 14,
        'table_flavor': 'html',
        'parse_mode': 'auto',
        'apply_document_tree': 1,
        'markdown_details': 1,
        # 'get_image': 1,
    })
    print("request time: ", resp.elapsed.total_seconds())
    json_data = json.loads(resp.text)
    write_file(json_data['result']['markdown'], 'test2.md')

3.4 一個解析引擎速度的重要性

目前，基于多模態(tài)大模型技術(shù)的快速發(fā)展，文檔解析可以通過多模態(tài)大模型進行解決，如：gpt-4o等，但是，基于多模態(tài)大模型的解決方案，成本大、非常耗時、容易產(chǎn)生幻覺問題，尤其是表格的解析，數(shù)值上的幻覺問題是災(zāi)難性的。

筆者在體驗TextIn時，感覺解析速度非?？?，這對于RAG系統(tǒng)的增益可以從離線和在線兩個方面展開講：

離線模式

數(shù)據(jù)預(yù)處理: 在離線模式下，解析引擎可以預(yù)先處理和索引大量文檔，為在線查詢做好準(zhǔn)備。
定期更新知識庫：可以定期更新模型和索引，以適應(yīng)新的數(shù)據(jù)和需求變化。

2. 在線模式

c端用戶通過網(wǎng)頁知識空間上傳新的文件時，在線模式允許解析引擎實時響應(yīng)用戶查詢，提供即時的文檔解析服務(wù)。
用戶體驗: 用戶期望快速且準(zhǔn)確的響應(yīng)，因此解析引擎的速度和準(zhǔn)確性在在線模式下尤為重要。

4、文檔解析評測工具-Markdown Tester

在文檔解析中，有了解析工具后，對于開發(fā)者，針對文檔解析的解析效果，需要一款比較好用的評價工具來客觀對解析效果進行評價；對于購買解析服務(wù)的c端客戶，同樣也需要評價文檔解析服務(wù)的效果，在自建數(shù)據(jù)集上先評測一下，然后有針對性的進行解析服務(wù)選購。因此，下面介紹一下 Markdown Tester：

該評測工具用于評價markdown文檔相似性，從段落、標(biāo)題、表格和公式四個維度進行評價，相關(guān)評價指標(biāo)的定義如下表：

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

段落、標(biāo)題、表格和公式四個維度定義

對于RAG中文檔解析，必須強調(diào)為什么使用markdown進行表示：Markdown格式因其簡潔性和易于解析的特點，?被廣泛認(rèn)為是LLM（?大型語言模型）?友好的文檔格式。?Markdown通過明確的標(biāo)記語法，?幫助模型更好地理解文檔結(jié)構(gòu)和內(nèi)容，?從而提高信息提取的準(zhǔn)確性和效率。?特別在存在大量公式、?表格的學(xué)術(shù)論文場景下，?Markdown可能是更合適的格式選擇。?這種格式選擇的原因主要包括：?

結(jié)構(gòu)化信息的保留：?Markdown能夠很好地保留結(jié)構(gòu)化信息（非常適合需要保留標(biāo)題層級、?公式和表格等結(jié)構(gòu)信息的場景），?這對于需要精確提取和分析文本內(nèi)容的場景尤為重要。?
易于解析：?Markdown的簡潔性和明確的標(biāo)記語法使得它易于被計算機程序解析和處理，?這對于自動化文檔處理和數(shù)據(jù)分析任務(wù)非常有利。?
支持場景多：?Markdown作為一種輕量級標(biāo)記語言，?被廣泛用于編寫文檔、?筆記、?博客文章、?技術(shù)文檔等場景。

4.1 使用方法

step1:

git clone https://github.com/intsig/markdown_tester.git
cd markdown_tester
./install.sh

step2:
Markdown Tester的倉庫中給出了一些22份文檔的grounding truth用于評測各種解析工具效果。待測評樣本按照下述方式放置：

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

step3:

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

4.2 運行效果

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

對比表格

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

對比雷達圖-可視化

筆者在評測過程中發(fā)現(xiàn)，自研模型對于識別準(zhǔn)確率較高，但召回率普遍不行。

五、text embedding在RAG環(huán)節(jié)的作用

由于LLM固有的問題，如：LLM的知識不是實時更新的；LLM無法回答私域知識問題。因為，LLM的專長在于生成和理解復(fù)雜的自然語言查詢。嵌入模型（比如Embedding）的專長在于將文本映射到高維空間中，以便進行相似性比較；生成可用于高效檢索的密集向量。

因此，目前主流的實現(xiàn)方式都是通過RAG的方式對上述問題進行解決。text embedding在RAG中充當(dāng)重要的角色，主要有以下幾個作用：

捕捉語義信息：文本嵌入將文本轉(zhuǎn)換為數(shù)值向量，這些向量能夠捕捉到文本的語義信息。
增強上下文理解：在RAG系統(tǒng)中，文本嵌入幫助模型掌握輸入查詢的上下文，并在NLP任務(wù)的檢索階段提取相關(guān)信息。通過這種方式，模型能夠更好地理解和處理非結(jié)構(gòu)化文本中的模糊性和可變性。
提高檢索性能：有效的文本嵌入能夠顯著提升RAG系統(tǒng)的性能。例如，不同的嵌入模型帶來的效果也不盡相同，選擇合適的嵌入模型可以優(yōu)化模型的檢索性能。此外，結(jié)合知識圖譜和文本嵌入，可以實現(xiàn)結(jié)構(gòu)化知識和非結(jié)構(gòu)化文本的無縫融合，從而產(chǎn)生信息更豐富、上下文相關(guān)的響應(yīng)。并且，文本嵌入增強了對自然語言中歧義和可變性的適應(yīng)能力，使RAG模型能夠更好地應(yīng)對模糊和多義的表達。這在處理開放域問答等復(fù)雜任務(wù)時尤為重要。

下面介紹一個效果比較好的文本向量嵌入的表征模型-acge_text_embedding

5.1 acge_text_embedding

acge_text_embedding是由合合信息研發(fā)的向量表征模型，技術(shù)架構(gòu)上，acge_text_embedding采用了俄羅斯套娃表示學(xué)習(xí)（Matryoshka Representation Learning，MRL）編碼不同粒度的信息，并讓一個編碼能夠適應(yīng)不同計算資源的下游任務(wù)。MRL的目的是學(xué)習(xí)許多個小于等于的前維表征，即總維度的前維。在訓(xùn)練時，MRL根據(jù)指定維度的向量來計算多個。

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備-AI.x社區(qū)

一種比較高效的做法是將每個投射頭看成是一個大投射頭的的一部分，即，這種做法在大輸出空間時尤其重要，稱之為Efficient Matryoshka Representation Learning (MRL–E)。

因此，該表示學(xué)習(xí)框架的核心思想是學(xué)習(xí)不同粒度的信息，允許一個嵌入向量在保持準(zhǔn)確性和豐富性的同時，適應(yīng)不同計算資源的需求，并可以無縫地適應(yīng)大多數(shù)表示學(xué)習(xí)框架，并且可以擴展到多種標(biāo)準(zhǔn)計算機視覺和自然語言處理任務(wù)。

acge_text_embedding通過應(yīng)用多模態(tài)表示學(xué)習(xí)（MRL）技術(shù)，能夠?qū)崿F(xiàn)一次訓(xùn)練過程，從而獲得豐富多樣的表征維度。特別值得一提的是，自適應(yīng)粗粒度到細粒度表示（acge）模型，它采用了一種層次化的方法，從宏觀到微觀逐步深化表征的深度和精度。這種方法不僅在推理和部署階段無需額外成本，還提供了一種靈活且高效的表征方式。在具體的實踐應(yīng)用中，為了更好地適應(yīng)不同任務(wù)的需求，acge模型采用了策略學(xué)習(xí)的訓(xùn)練方法。這種方法通過針對性地調(diào)整學(xué)習(xí)策略，顯著提升了模型在檢索、聚類和排序等任務(wù)上的性能表現(xiàn)。此外，模型還引入了持續(xù)學(xué)習(xí)的訓(xùn)練機制，有效解決了神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中可能出現(xiàn)的災(zāi)難性遺忘問題。這使得模型能夠在訓(xùn)練迭代中達到更加優(yōu)秀的收斂狀態(tài)，為持續(xù)優(yōu)化和提升模型性能奠定了基礎(chǔ)。

5.2 acge_text_embedding使用

在sentence-transformer庫中的使用：

from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

在sentence-transformer庫中的使用方法，選取不同的維度：

from sklearn.preprocessing import normalize
from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
embeddings = model.encode(sentences, normalize_embeddings=False)
matryoshka_dim = 1024
embeddings = embeddings[..., :matryoshka_dim]  # Shrink the embedding dimensions
embeddings = normalize(embeddings, norm="l2", axis=1)
print(embeddings.shape)
# => (2, 1024)

5.3 acge_text_embedding優(yōu)點總結(jié)

性能優(yōu)勢：

acge模型較小，占用資源少；
模型輸入文本長度為1024，滿足絕大部分場景的需求
acge模型支持可變輸出維度，能夠根據(jù)具體場景去合理分配資源。

框架優(yōu)勢：

對比學(xué)習(xí)技術(shù)，通過最小化正對之間的距離和最大化負對之間的距離來呈現(xiàn)文本語義表示。
數(shù)據(jù)挖掘，構(gòu)造多場景、數(shù)量龐大的數(shù)據(jù)集提升模型泛化能力，挑選高質(zhì)量數(shù)據(jù)集加快模型收斂。
多任務(wù)混合訓(xùn)練，多l(xiāng)oss適配場景，適應(yīng)各種下游任務(wù)
MRL訓(xùn)練，訓(xùn)練可變維度的嵌入，提高了處理速度，降低了存儲需求
持續(xù)學(xué)習(xí), 改善引入新數(shù)據(jù)后模型災(zāi)難性遺忘問題

總結(jié)

本文主要探討了檢索增強型生成模型（RAG）在私有領(lǐng)域知識問答和企業(yè)知識管理中的應(yīng)用，重點分析了文檔解析的準(zhǔn)確性對RAG系統(tǒng)性能的影響，介紹了智能文檔解析的關(guān)鍵技術(shù)，并介紹了合合信息自研的文檔解析服務(wù)TextIn，以及開源的文檔解析質(zhì)量評測工具Markdown Tester。此外，還介紹了合合信息開發(fā)的文本向量嵌入模型acge_text_embedding，強調(diào)了其在RAG系統(tǒng)中的作用和優(yōu)勢。整體而言，文檔解析的準(zhǔn)確性、速度和質(zhì)量對RAG系統(tǒng)的性能至關(guān)重要，而TextIn和acge_text_embedding等工具能夠顯著提升文檔解析的效果和效率。

參考文獻

Markdown Tester：https://github.com/intsig/markdown_tester
TextIn：https://www.textin.com/experience/pdf_to_markdown?from=acg-github
acge_text_embedding：https://huggingface.co/aspire/acge_text_embedding

本文轉(zhuǎn)載自公眾號哎呀AIYA

原文鏈接：??https://mp.weixin.qq.com/s/T4CU19NeUf9tGNge8ls6Ow??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

LangFriend：一款能記住你的日記應(yīng)用

ermulong ? 3182瀏覽 ? 0回復(fù)
神器Pandas AI: 一款智能做數(shù)據(jù)分析的工具！

開發(fā)者阿橙 ? 4127瀏覽 ? 0回復(fù)
六款超火的AI繪圖軟件推薦！總有一款AI適合你！

行走的小非 ? 6906瀏覽 ? 0回復(fù)
Gptpdf：一個簡單巧妙的復(fù)雜Pdf解析工具，提升RAG效果

Syrupup ? 5309瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 4763瀏覽 ? 0回復(fù)
RAPTOR 檢索樹再次進一步提升RAG性能的設(shè)計思路

AIGC觀察者 ? 3622瀏覽 ? 0回復(fù)
一款由知識圖譜引擎驅(qū)動的創(chuàng)新Agent框架

探索AGI ? 2867瀏覽 ? 0回復(fù)
一款好用的開源工具，高效實現(xiàn)Reranker

恰似驚鴻 ? 3385瀏覽 ? 0回復(fù)
RAG文檔解析器，核心技術(shù)剖析

小虎哦哦 ? 2974瀏覽 ? 0回復(fù)
文檔概要索引，簡單提升檢索性能的新選擇

恰似驚鴻 ? 2171瀏覽 ? 0回復(fù)
Adaptive-RAG：性能提升50%以上的高效RAG策略

大語言模型論文跟蹤 ? 2270瀏覽 ? 0回復(fù)
Pandas AI: 一款可以智能做數(shù)據(jù)分析的工具！

Halo咯咯 ? 3014瀏覽 ? 0回復(fù)
Fooocus：一款開箱即用的圖片生成軟件

sword_hero ? 2936瀏覽 ? 0回復(fù)
開發(fā)一款大模型需要經(jīng)過哪些步驟？開發(fā)一款大模型的完整流程

AI探索時代 ? 3493瀏覽 ? 0回復(fù)
2025年企業(yè)必備的25款AI工具

Halo咯咯 ? 4739瀏覽 ? 0回復(fù)
GPT?4.5發(fā)布：一款迄今為止最大、最貴的模型

Halo咯咯 ? 2181瀏覽 ? 0回復(fù)
RAG項目必備！文檔解析神器MinerU：2.5萬星標(biāo)！支持GPU加速，輕松應(yīng)對復(fù)雜文檔

AI博物院 ? 4320瀏覽 ? 0回復(fù)
ViDoRAG：提升視覺RAG性能10%

大語言模型論文跟蹤 ? 1596瀏覽 ? 0回復(fù)
有一款神器！深入探索Transformer語言模型的可視化工具BertViz

智駐未來 ? 774瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM-R：基于RAG和層次化Agent落地案例解析 2024-11-15 09:58:18發(fā)布
騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主 2024-11-06 15:58:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主

下一篇： LLM-R：基于RAG和層次化Agent落地案例解析

社區(qū)精華內(nèi)容

目錄

<cite id="cyxty"></cite>

<sub id="cyxty"><rt id="cyxty"></rt></sub>