自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="nyzir"><rt id="nyzir"><form id="nyzir"></form></rt></em>

<cite id="nyzir"><rp id="nyzir"></rp></cite>

<p id="nyzir"></p>

<cite id="nyzir"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

從RAG到多模態(tài)搜索看OpenAI的技術(shù)演進

原創(chuàng) 精選

作者：崔皓 2023-12-22 08:00:00

本文探討了信息檢索與文本生成領域的最新進展，特別關注了OpenAI的RAG模型及其在文本內(nèi)容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型，這一模型標志著從結(jié)構(gòu)化搜索向非結(jié)構(gòu)化搜索的重大轉(zhuǎn)變，能夠有效處理和解釋多模態(tài)信息，如圖片、表格和文本。

作者 | 崔皓

審校 | 重樓

摘要

本文探討了信息檢索與文本生成領域的最新進展，特別關注了OpenAI的RAG模型及其在文本內(nèi)容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型，這一模型標志著從結(jié)構(gòu)化搜索向非結(jié)構(gòu)化搜索的重大轉(zhuǎn)變，能夠有效處理和解釋多模態(tài)信息，如圖片、表格和文本。通過實際案例分析，文章展示了如何利用這些技術(shù)進行企業(yè)文檔管理、學術(shù)研究和媒體內(nèi)容分析，為讀者提供了關于如何運用這些先進技術(shù)進行多模態(tài)數(shù)據(jù)處理的深入見解。

開篇

在人工智能的領域內(nèi)，信息檢索與文本生成一直是兩個重要的研究方向。OpenAI的RAG（Retrieval-Augmented Generation）模型，作為這一領域的突破性成果，成功地將神經(jīng)網(wǎng)絡的文本生成能力與大規(guī)模數(shù)據(jù)集的檢索功能結(jié)合起來。這一創(chuàng)新不僅提升了文本生成模型的準確性和信息豐富度，而且解決了傳統(tǒng)模型在應對復雜查詢時的局限性。

RAG模型的主流應用體現(xiàn)在文本內(nèi)容的搜索上，例如企業(yè)知識庫的檢索。通過文本加載、切割、嵌入、索引等方法建立輸入與目標的相關性，最終將搜索結(jié)果呈現(xiàn)給用戶。然而，隨著信息類型的多樣化，傳統(tǒng)的文本搜索已經(jīng)不能滿足所有的需求。

此時，OpenAI推出了gpt-4-vision-preview模型，這不僅是技術(shù)上的一大躍進，更標志著從結(jié)構(gòu)化搜索走向非結(jié)構(gòu)化搜索的重要轉(zhuǎn)變。該模型具備處理和解釋多模態(tài)信息的能力，無論是圖片、表格還是文本，都能夠被有效地摘要和搜索。這一進步極大地擴展了RAG功能的外延，為多模態(tài)數(shù)據(jù)處理開辟了新的道路。

例如，在企業(yè)文檔管理方面，gpt-4-vision-preview可以分析含有圖表和文本的PDF格式文檔，如合同和報告，提供精準的摘要和關鍵信息提取。在學術(shù)研究領域，這一技術(shù)能自動整理和分析學術(shù)論文中的數(shù)據(jù)和圖像，極大提升研究效率。而在媒體內(nèi)容分析上，新聞報道中的圖片與文本內(nèi)容可以被整合分析，為媒體從業(yè)者提供更深入的洞察。

今天我會通過這篇文章，手把手帶大家如何實現(xiàn)對一個多模態(tài)PDF的分析和搜索。

場景分析

那么今天的主角就要登場了，如下圖所示，這個PDF文件是一個典型的財經(jīng)市場分析報告，包含了豐富的文字、圖表和數(shù)據(jù)。

財經(jīng)市場分析報告

報告不僅包含了詳細的文本描述，如市場趨勢的分析和預測，還包括了大量的圖表和數(shù)據(jù)，如股票市場的指數(shù)、固定收益產(chǎn)品的收益率和關鍵利率等。這些圖表和數(shù)據(jù)在理解整個市場情況中起著至關重要的作用。

然而，人工處理這類多模態(tài)的PDF文件常常是耗時且勞力密集的。分析師需要仔細閱讀文本，解讀圖表和數(shù)據(jù)，并將這些信息綜合起來以形成完整的市場觀點。這個過程不僅耗時，還容易出錯，特別是在處理大量復雜數(shù)據(jù)時。

傳統(tǒng)的RAG模型在處理這類多模態(tài)PDF文件時顯得力不從心。盡管RAG在處理和生成基于文本的信息方面表現(xiàn)出色，但它主要針對文字內(nèi)容進行搜索和生成，對于非文本元素，如圖表和數(shù)據(jù)，其處理能力有限。這就意味著，在使用RAG模型進行信息檢索時，對于包含非文本元素的復雜PDF文件，它可能無法充分理解和利用文件中的所有信息。

因此，針對這種業(yè)務場景就需要使用OpenAI推出的多模態(tài)的處理方式，利用GPT-4-Vision-Preview模型處理文本、圖表和數(shù)據(jù)，以提供更加全面和準確的分析。從而提高分析效率，還能減少由于人工處理的錯誤而造成的風險。

技術(shù)分析

在多模態(tài)PDF文檔處理中，首要挑戰(zhàn)是識別文檔中的非結(jié)構(gòu)化信息，如圖片、表格和文字。這里我們需要使用unstructured庫，它提供了用于攝取和預處理圖像和文本文檔的開源組件，如PDF、HTML、Word文檔等。它的主要用途是簡化和優(yōu)化大型語言模型（LLMs）的數(shù)據(jù)處理工作流程。unstructured的模塊化功能和連接器形成了一個簡化數(shù)據(jù)攝取和預處理的一致系統(tǒng)，使其適應不同平臺，有效地將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化輸出。

除此之外，為了更好處理PDF文檔，我們還引入了poppler-utils工具，它被用來提取圖片和文本。特別是其中的pdfimages和pdftotext工具，分別用于從PDF中提取嵌入的圖像和全部文本，這對于多模態(tài)PDF的分析至關重要。

備注：Poppler是一個PDF文檔渲染庫，可以使用兩種后端進行繪制，分別是Cairo和Splash。這兩種后端的特性有所不同，Poppler的功能也可能依賴于它使用的后端。此外，還有一個基于Qt4的繪圖框架“Arthur”的后端，但這個后端不完整且已停止開發(fā)。Poppler為Glib和Qt5提供綁定，這些綁定提供了對Poppler后端的接口，盡管Qt5綁定只支持Splash和Arthur后端。Cairo后端支持矢量圖形的抗鋸齒和透明對象，但不支持平滑位圖圖像如掃描文檔，并且不依賴于X Window系統(tǒng)，因此Poppler可以在Wayland、Windows或macOS等平臺上運行。Splash后端支持位圖的縮小過濾。Poppler還附帶一個文本渲染后端，可通過命令行工具pdftotext調(diào)用，用于在命令行中搜索PDF中的字符串，例如使用grep工具。

解決了圖片、表格和問題的提取問題之后，在將圖片和表格內(nèi)容轉(zhuǎn)換為可分析的文本格式方面，Tesseract-OCR工具發(fā)揮了關鍵作用。盡管Tesseract不能直接處理PDF文件，但它可以將轉(zhuǎn)換為.tiff格式的PDF文件中的圖像轉(zhuǎn)換為文本。這個過程是處理多模態(tài)PDF的關鍵環(huán)節(jié)，使得原本以圖像或表格形式存在的信息轉(zhuǎn)化為可供進一步分析的文本形式。

當然除了上面提到的識別和分離PDF元素的技術(shù)之外，例如：向量存儲、向量索引器等技術(shù)也會用到，由于在傳統(tǒng)的RAG 中經(jīng)常用到，這里就不贅述了。

代碼實現(xiàn)

經(jīng)過場景和技術(shù)分析之后，我們了解到如果需要對PDF進行多模態(tài)的分析和查詢，首先是要對其中的圖片、表格、文字進行識別。這里我們會引入unstructured 、Poppler庫以及Tesseract-OCR工具。有了這些工具的加持讓我們的編碼過程更加如虎添翼。

安裝庫和工具

!pip install langchain unstructured[all-docs] pydantic lxml openai chromadb tiktoken -q -U
!apt-get install poppler-utils tesseract-ocr

上面的庫有幾個之前沒有提到的，這里做一下說明。

pydantic：用于數(shù)據(jù)驗證和設置管理。
lxml： XML和HTML處理庫。
openai：與OpenAI的API進行交互。
chromadb：用于向量數(shù)據(jù)庫管理或數(shù)據(jù)存儲。

提取PDF信息

既然工具都準備好了，接下來就是處理PDF 的內(nèi)容了，代碼如下：

from typing import Any

from pydantic import BaseModel
from unstructured.partition.pdf import partition_pdf

# 設置存放圖像的路徑
images_path = "./images"

# 調(diào)用 partition_pdf 函數(shù)處理PDF文件，提取其中的元素
raw_pdf_elements = partition_pdf(
    filename="weekly-market-recap.pdf",           # 指定要處理的PDF文件名
    extract_images_in_pdf=True,                   # 設置為True以從PDF中提取圖像
    infer_table_structure=True,                   # 設置為True以推斷PDF中的表格結(jié)構(gòu)
    chunking_strategy="by_title",                 # 設置文檔切分策略為按標題切分
    max_characters=4000,                          # 設置每個塊的最大字符數(shù)為4000
    new_after_n_chars=3800,                       # 在達到3800字符后開始新的塊
    combine_text_under_n_chars=2000,              # 將少于2000字符的文本組合在一起
    image_output_dir_path=images_path,            # 指定輸出圖像的目錄路徑
)

這段Python代碼使用了pydantic和unstructured庫來處理PDF文件。下面是代碼的逐行解釋：

images_path = "./images"：設置一個變量images_path，用于存放從PDF中提取的圖像。

接下來調(diào)用partition_pdf函數(shù)，這個函數(shù)用于處理PDF文件并提取其中的元素：

filename="weekly-market-recap.pdf"：指定要處理的PDF文件名。
extract_images_in_pdf=True：設置為True以從PDF中提取圖像。
infer_table_structure=True：設置為True以推斷PDF中的表格結(jié)構(gòu)。
chunking_strategy="by_title"：設置文檔切分策略為按標題切分。
max_characters=4000：設置每個塊的最大字符數(shù)為4000。
new_after_n_chars=3800：在達到3800字符后開始新的塊。
combine_text_under_n_chars=2000：將少于2000字符的文本組合在一起。
image_output_dir_path=images_path：指定輸出圖像的目錄路徑。

可以通過命令獲取PDF圖片的信息，由于通過上面代碼將圖片保存到images目錄下面了，所以通過如下代碼展示圖片。

from IPython.display import Image
Image('images/figure-1-1.jpg')

從PDF 中抽取的圖片信息

為圖片信息產(chǎn)生摘要

下面這段代碼定義了一個名為ImageSummarizer的類，用于生成圖像內(nèi)容的摘要信息。

# 引入所需的庫
import base64
import os

# 從langchain包導入ChatOpenAI類和HumanMessage模塊
from langchain.chat_models import ChatOpenAI
from langchain.schema.messages import HumanMessage

# 定義圖像摘要類
class ImageSummarizer:

    # 初始化函數(shù)，設置圖像路徑
    def __init__(self, image_path) -> None:
        self.image_path = image_path
        self.prompt = """你的任務是將圖像內(nèi)容生成摘要信息，以便檢索。
        這些摘要將被嵌入并用于檢索原始圖像。請給出一個簡潔的圖像摘要，以便于檢索優(yōu)化。
"""

    # 定義函數(shù)將圖像轉(zhuǎn)換為base64編碼
    def base64_encode_image(self):
        with open(self.image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode("utf-8")

    # 定義摘要函數(shù)
    def summarize(self, prompt = None):
        # 獲取圖像的base64編碼數(shù)據(jù)
        base64_image_data = self.base64_encode_image()
        # 創(chuàng)建ChatOpenAI對象，使用gpt-4-vision預覽模型，最大token數(shù)為1000
        chat = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=1000)

        # 調(diào)用chat對象的invoke方法，發(fā)送包含文本和圖像的消息
        response = chat.invoke(
            [
                #人類提示語的輸入
                HumanMessage(
                    content=[
                        {
                            "type": "text",
                            "text": prompt if prompt else self.prompt
                        },
                        {
                            "type": "image_url",
                            "image_url": {"url": f"data:image/jpeg;base64,{base64_image_data}"},
                        },
                    ]
                )
            ]
        )
        # 返回base64編碼的圖像數(shù)據(jù)和響應內(nèi)容
        return base64_image_data, response.content

以下是代碼的詳細解釋：

1.導入庫

導入base64和os庫，用于圖像編碼和操作系統(tǒng)相關功能。

從Langchain包中導入ChatOpenAI類和HumanMessage模塊，這些用于與OpenAI的聊天模型交互。

2.定義圖像摘要類 ImageSummarizer

__init__方法初始化圖像路徑和摘要生成的提示語。

base64_encode_image方法將圖像文件讀取并轉(zhuǎn)換為base64編碼，這種編碼格式適用于在網(wǎng)絡上傳輸圖像，便于圖片信息與GPT模型交互。

3. 定義摘要函數(shù) summarize

使用base64_encode_image方法獲取圖像的base64編碼數(shù)據(jù)。

創(chuàng)建ChatOpenAI對象，指定使用gpt-4-vision-preview模型，最大token數(shù)設為1000，用于處理圖像摘要任務。

使用chat.invoke方法，向模型發(fā)送包含文本提示和圖像數(shù)據(jù)的消息。文本提示用于指導模型生成圖像的摘要。

創(chuàng)建summarize函數(shù)的目的就是為了給圖片生成摘要，接下來就是調(diào)用該函數(shù)。下面這段代碼創(chuàng)建圖像數(shù)據(jù)和圖像摘要的列表，并遍歷指定路徑下的所有文件以生成這些信息。

# 創(chuàng)建圖像數(shù)據(jù)和圖像摘要的列表
image_data_list = []
image_summary_list = []

# 遍歷指定路徑下的所有文件
for img_file in sorted(os.listdir(images_path)):
    # 檢查文件擴展名是否為.jpg
    if img_file.endswith(".jpg"):
        # 創(chuàng)建ImageSummarizer對象
        summarizer = ImageSummarizer(os.path.join(images_path, img_file))
        # 調(diào)用summarize方法生成摘要
        data, summary = summarizer.summarize()
        # 將base64編碼的圖像數(shù)據(jù)添加到列表
        image_data_list.append(data)
        # 將圖像摘要添加到列表
        image_summary_list.append(summary)

代碼解釋：

1. 初始化列表

image_data_list和image_summary_list兩個列表被創(chuàng)建用于存儲圖像的base64編碼數(shù)據(jù)和對應的圖像摘要。

2.遍歷指定路徑下的所有文件

使用os.listdir(images_path)列出指定路徑（images_path）下的所有文件，并使用sorted函數(shù)對文件名進行排序。

3. 檢查和處理每個文件

通過if img_file.endswith(".jpg")檢查文件擴展名是否為.jpg，以確保只處理圖像文件。

對于每個.jpg文件，創(chuàng)建ImageSummarizer對象，傳入圖像的完整路徑。

調(diào)用summarize方法生成該圖像的摘要。

將返回的base64編碼圖像數(shù)據(jù)添加到image_data_list列表。

將返回的圖像摘要添加到image_summary_list列表。

最終會生成兩個列表：一個包含了圖像文件的base64編碼數(shù)據(jù)，另一個包含了相應的圖像摘要，這些信息可以用于圖像檢索或其他處理。

我們通過如下代碼來查看圖片的摘要信息

image_summary_list

輸出結(jié)果如下：

['這個圖像包含了三個不同的圖表，提供了有關假日銷售增長、各行業(yè)一周和年迄今(YTD)的表現(xiàn)對比的數(shù)據(jù)。\n\n第一個圖表是一個柱狀圖，標題為“Holiday sales growth is set to return to its pre-pandemic pace”，展示了2010年至2023年間11月和12月銷售同比增長的實際數(shù)據(jù)和預測數(shù)據(jù)。藍色柱子代表實際數(shù)據(jù)，條紋柱子代表預測數(shù)據(jù)，藍色虛線代表2010-2019年平均增長率，綠色虛線代表2020-2022年平均增長率。\n\n第二個圖表是一個色塊圖，分為兩部分，展示了“V”, “B”, 和 “G”在不同的尺度（大、中、?。┫碌?周和年迄今(YTD)的表現(xiàn)。數(shù)值在色塊內(nèi)以白色文字顯示。\n\n第三個圖表是兩個并列的柱狀圖，分別顯示了不同行業(yè)在1周和年迄今(YTD)的表現(xiàn)。左側(cè)的藍色柱狀圖展示了一周的變化，右側(cè)的綠色柱狀圖展示了年迄今的變化。圖表的Y軸代表了百分比變化，X軸列出了不同的行業(yè)。\n\n摘要：三個圖表顯示假日銷售增長預計將恢復至疫情前水平，不同市場尺度（大、中、?。┑?周和年迄今表現(xiàn)，以及不同行業(yè)的1周和年迄今表現(xiàn)數(shù)據(jù)。']

從結(jié)果可以看出GPT-4-Vision-Preview 模型對圖片是能夠識別，并且對一些細節(jié)也能夠把控。

識別表格和文本信息

圖片、表格和文本信息組成了PDF的完整內(nèi)容，在識別了圖片信息之后，就需要對表格和文本信息下手了。

下面這段代碼定義了處理PDF文檔元素的過程。

# 定義一個基本模型Element，用于存儲文檔元素的類型和文本內(nèi)容
class Element(BaseModel):
    type: str
    text: Any

# 創(chuàng)建表格元素和文本元素的空列表
#表格信息
table_elements = []
#文本信息
text_elements = []

# 遍歷從PDF中分割出的所有元素
for element in raw_pdf_elements:
    # 判斷元素是否為表格：非結(jié)構(gòu)化-文檔-元素-表格
    if "unstructured.documents.elements.Table" in str(type(element)):
        # 如果是表格，將其添加到表格元素列表
        table_elements.append(Element(type="table", text=str(element)))
    # 判斷元素是否為復合元素
    elif "unstructured.documents.elements.CompositeElement" in str(type(element)):
        # 如果是復合元素，將其添加到文本元素列表
        text_elements.append(Element(type="text", text=str(element)))

代碼解釋如下：

1.定義Element基本模型

使用pydantic的BaseModel定義了一個名為Element的類，用于存儲文檔元素的類型（如表格或文本）和文本內(nèi)容。這個類使用類型注解str和Any定義了兩個屬性：type（元素類型）和text（元素內(nèi)容）。

2. 創(chuàng)建空列表以存儲表格和文本元素

table_elements和text_elements分別用于存儲表格信息和文本信息。

3. 遍歷PDF中的元素

對于從PDF文件中分割出的每個元素（在raw_pdf_elements中），代碼通過判斷元素的類型來分類處理：

如果元素是表格（unstructured.documents.elements.Table），則創(chuàng)建Element對象，并將其類型設為"table"，文本內(nèi)容設為元素的字符串表示，然后將此對象添加到table_elements列表。

如果元素是復合元素（unstructured.documents.elements.CompositeElement），則以相似的方式處理，將其類型設為"text"，并添加到text_elements列表。

在對PDF文檔中的不同元素進行分類和存儲，接下來就需要對其進行處理，對這些表格和文字進行總結(jié)。代碼如下：

# 導入所需模塊
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser

# 定義用于生成總結(jié)的提示文本
prompt_text = """
  您負責簡潔地總結(jié)表格或文本塊，中文輸出。:
  {element}
"""
# 從模板創(chuàng)建提示
prompt = ChatPromptTemplate.from_template(prompt_text)

# 創(chuàng)建總結(jié)鏈，結(jié)合提示和GPT-3.5模型
summarize_chain = {"element": lambda x: x} | prompt | ChatOpenAI(temperature=0, model="gpt-3.5-turbo") | StrOutputParser()

# 從表格元素中提取文本
tables = [i.text for i in table_elements]
# 使用總結(jié)鏈批量處理表格文本，設置最大并發(fā)數(shù)為5
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})

# 從文本元素中提取文本
texts = [i.text for i in text_elements]
# 使用總結(jié)鏈批量處理文本，設置最大并發(fā)數(shù)為5
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})

這段代碼用于生成表格和文本塊的總結(jié)，利用LangChain和GPT-3.5模型：

1.導入模塊

導入LangChain的ChatOpenAI、ChatPromptTemplate和StrOutputParser模塊。

2.定義生成總結(jié)的提示文本

定義了一個用于指導模型總結(jié)表格或文本塊的提示文本模板。

3.創(chuàng)建提示和總結(jié)鏈

使用ChatPromptTemplate.from_template根據(jù)定義的提示文本創(chuàng)建提示。

創(chuàng)建一個名為summarize_chain的總結(jié)鏈，該鏈結(jié)合了提示、GPT-3.5模型（由于生成總結(jié)的能力不需要用到GPT-4，為了節(jié)省Token使用GPT-3.5），和字符串輸出解析器（StrOutputParser）。

4.處理表格和文本元素

從table_elements中提取表格文本，使用summarize_chain.batch方法批量處理這些文本，最大并發(fā)數(shù)設為5。

從text_elements中提取文本塊文本，同樣使用summarize_chain.batch批量處理，最大并發(fā)數(shù)設為5。

我們將總結(jié)的內(nèi)容打印如下：

表格和文字摘要信息

創(chuàng)建索引器

好了，目前為止我們將PDF中的圖片、表格和文本信息都逐一抽取出來了，并針對這些信息生成了摘要，其目的是方便后續(xù)搜索，在做好這一系列準備之后就需要安排上索引器了。索引器顧名思義就是對被搜索信息添加上索引，方便搜索之用。

下面這段代碼創(chuàng)建了一個多向量檢索器，用于存儲和檢索文本、表格和圖像數(shù)據(jù)：

import uuid  # 導入uuid庫，用于生成唯一標識符

# 導入所需的langchain模塊
from langchain.embeddings import OpenAIEmbeddings
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.schema.document import Document
from langchain.storage import InMemoryStore
from langchain.vectorstores import Chroma

id_key = "doc_id"  # 設置文檔的唯一標識鍵

# 初始化多向量檢索器，初始為空，文字，圖片，表格
retriever = MultiVectorRetriever(
    vectorstore=Chroma(collection_name="summaries", embedding_function=OpenAIEmbeddings()),  # 使用OpenAI的嵌入方法
    docstore=InMemoryStore(),  # 使用內(nèi)存存儲文檔
    id_key=id_key,  # 設置文檔的唯一標識鍵
)

# 為文本添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in texts]  # 為每個文本生成一個唯一的UUID
# 創(chuàng)建文本的文檔對象并添加到檢索器
summary_texts = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})  # 將文本封裝為文檔對象
    for i, s in enumerate(text_summaries)
]
retriever.vectorstore.add_documents(summary_texts)  # 將文本文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, texts)))  # 將文本文檔的ID和內(nèi)容存儲在內(nèi)存存儲中

# 為表格添加唯一標識
table_ids = [str(uuid.uuid4()) for _ in tables]  # 為每個表格生成一個唯一的UUID
# 創(chuàng)建表格的文檔對象并添加到檢索器
summary_tables = [
    Document(page_content=s, metadata={id_key: table_ids[i]})  # 將表格封裝為文檔對象
    for i, s in enumerate(table_summaries)
]
retriever.vectorstore.add_documents(summary_tables)  # 將表格文檔添加到向量存儲中
retriever.docstore.mset(list(zip(table_ids, tables)))  # 將表格文檔的ID和內(nèi)容存儲在內(nèi)存存儲中

# 為圖像添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in image_data_list]  # 為每個圖像生成一個唯一的UUID
# 創(chuàng)建圖像的文檔對象并添加到檢索器
summary_images = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})  # 將圖像封裝為文檔對象
    for i, s in enumerate(image_summary_list)
]
retriever.vectorstore.add_documents(summary_images)  # 將圖像文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, image_data_list)))  # 將圖像文檔的ID和內(nèi)容存儲在內(nèi)存存儲中

代碼解釋：

1. 初始化多向量檢索器

使用Chroma作為向量存儲，它利用OpenAI嵌入方法將文檔轉(zhuǎn)換為向量形式。

使用InMemoryStore作為文檔存儲，這是一種將文檔存儲在內(nèi)存中的方法。

設置id_key為文檔的唯一標識鍵。

2. 處理文本數(shù)據(jù)

為每個文本創(chuàng)建唯一標識符（UUID）。

將文本總結(jié)封裝為Document對象，并添加到向量存儲和文檔存儲中。

3. 處理表格數(shù)據(jù)

類似地，為每個表格創(chuàng)建UUID。

將表格總結(jié)封裝為Document對象，并添加到向量存儲和文檔存儲中。

4. 處理圖像數(shù)據(jù)

為每個圖像創(chuàng)建UUID。

將圖像總結(jié)封裝為Document對象，并添加到向量存儲和文檔存儲中。

這段代碼建立了一個系統(tǒng)，可以存儲和檢索多種類型的文檔數(shù)據(jù)，包括文本、表格和圖像，利用唯一標識符來管理每個文檔。這對于處理和組織大量復雜數(shù)據(jù)非常有用。

生成多模態(tài)查詢提示語

下面這段代碼包含多個函數(shù)，用來處理和展示圖像與文本數(shù)據(jù)。

from PIL import Image
from IPython.display import HTML, display
import io
import re

# 顯示基于base64編碼的圖片
def plt_img_base64(img_base64):
    display(HTML(f''))

# 檢查base64數(shù)據(jù)是否為圖片
def is_image_data(b64data):
    """
    通過查看數(shù)據(jù)開頭來檢查base64數(shù)據(jù)是否為圖片
    """
    image_signatures = {
        b"\xFF\xD8\xFF": "jpg",
        b"\x89\x50\x4E\x47\x0D\x0A\x1A\x0A": "png",
        b"\x47\x49\x46\x38": "gif",
        b"\x52\x49\x46\x46": "webp",
    }
    try:
        header = base64.b64decode(b64data)[:8]  # 解碼并獲取前8個字節(jié)
        for sig, format in image_signatures.items():
            if header.startswith(sig):
                return True
        return False
    except Exception:
        return False

# 分離base64編碼的圖片和文本
def split_image_text_types(docs):
    """
    分離base64編碼的圖片和文本
    """
    b64_images = []
    texts = []
    for doc in docs:
        # 檢查文檔是否為Document類型并提取page_content
        if isinstance(doc, Document):
            doc = doc.page_content
        #是圖片
        if is_image_data(doc):
            b64_images.append(doc)
        else:
            texts.append(doc)
    return {"images": b64_images, "texts": texts}

# 根據(jù)數(shù)據(jù)生成提示信息
def img_prompt_func(data_dict):
    messages = []

    # 如果存在圖片，則添加到消息中
    #圖片的信息單獨拿出來， 需要和提示語一起傳給大模型的。
    if data_dict["context"]["images"]:
        for image in data_dict["context"]["images"]:
            image_message = {
                "type": "image_url",
                "image_url": {"url": f"data:image/jpeg;base64,{image}"},
            }
            messages.append(image_message)

    # 添加文本到消息
    formatted_texts = "\n".join(data_dict["context"]["texts"])
    text_message = {
        "type": "text",
        "text": (
            "You are financial analyst.\n"
            "You will be given a mixed of text, tables, and image(s) usually of charts or graphs.\n"
            "Use this information to answer the user question in the finance. \n"
            f"Question: {data_dict['question']}\n\n"
            "Text and / or tables:\n"
            f"{formatted_texts}"
        ),
    }
    messages.append(text_message)
    print(messages)
    return [HumanMessage(content=messages)]

代碼解釋：

1. 顯示基于base64編碼的圖片 (plt_img_base64)

這個函數(shù)的目的是顯示base64編碼的圖片。

2. 檢查base64數(shù)據(jù)是否為圖片 (is_image_data)

通過檢查base64編碼數(shù)據(jù)的開頭是否符合常見圖像格式（如JPEG, PNG, GIF, WEBP）的簽名來判斷數(shù)據(jù)是否為圖片。

3. 分離base64編碼的圖片和文本 (split_image_text_types)

此函數(shù)遍歷文檔集合，使用is_image_data函數(shù)來區(qū)分哪些是圖像數(shù)據(jù)，哪些是文本，然后將它們分別存儲在兩個列表中。

4. 根據(jù)數(shù)據(jù)生成提示信息 (img_prompt_func)

此函數(shù)生成用于向LangChain的大模型傳遞的消息。對于每個圖像，創(chuàng)建包含圖像URL的消息；對于文本數(shù)據(jù)，創(chuàng)建包含提示文本和問題的消息。

需要對"text"進行特別說明，它定義消息的具體文本內(nèi)容。

首先說明了用戶角色："You are financial analyst."（你是一名財務分析師）。

緊接著說明任務類型和數(shù)據(jù)格式："You will be given a mixed of text, tables, and image(s) usually of charts or graphs."（你將會得到包含文本、表格和圖像（通常是圖表或圖形）的混合數(shù)據(jù)）。

提示使用這些信息回答財務問題："Use this information to answer the user question in the finance."（使用這些信息來回答財務方面的用戶問題）。

{data_dict['question']}：這里{}內(nèi)的部分是Python字符串格式化的占位符，用于插入變量data_dict中的'question'鍵所對應的值，即用戶提出的問題。

"Text and / or tables:\n"：提示文本，說明接下來的內(nèi)容是文本和/或表格。

f"{formatted_texts}"：再次使用字符串格式化將變量formatted_texts（格式化后的文本數(shù)據(jù)）插入到消息中。

實現(xiàn)金融分析查詢

萬事俱備只欠東風，現(xiàn)在開始利用GPT-4-Vision-Preview模型進行推理了，我們嘗試對索引器提問，看看結(jié)果如何。

下面這段代碼實現(xiàn)了一個基于RAG（Retrieval Augmented Generation）模型的查詢處理管道。

from langchain.schema.runnable import RunnableLambda, RunnablePassthrough
# 創(chuàng)建ChatOpenAI模型實例
model = ChatOpenAI(temperature=0, model="gpt-4-vision-preview", max_tokens=1024)

# 構(gòu)建RAG（Retrieval Augmented Generation）管道
chain = (
    {
        "context": retriever | RunnableLambda(split_image_text_types), # 使用檢索器獲取內(nèi)容并分離圖片和文本
        "question": RunnablePassthrough(), # 傳遞問題
    }
    | RunnableLambda(img_prompt_func) # 根據(jù)圖片和文本生成提示信息
    | model # 使用ChatOpenAI模型生成回答
    | StrOutputParser() # 解析模型的字符串輸出
)

# 定義查詢問題
query = "Which year had the highest holiday sales growth?"

# 調(diào)用chain的invoke方法執(zhí)行查詢
chain.invoke(query)

代碼解釋：

1.創(chuàng)建ChatOpenAI模型實例

使用ChatOpenAI類創(chuàng)建模型實例，配置了溫度參數(shù)為0、使用的模型為gpt-4-vision-preview，最大token數(shù)設為1024。

2.構(gòu)建RAG管道 (chain)

retriever | RunnableLambda(split_image_text_types)：首先使用retriever檢索內(nèi)容，然后通過RunnableLambda調(diào)用split_image_text_types函數(shù)分離圖片和文本。

RunnablePassthrough()：用于直接傳遞查詢問題。

RunnableLambda(img_prompt_func)：根據(jù)檢索到的圖片和文本生成提示信息。

model：使用配置好的ChatOpenAI模型根據(jù)生成的提示信息生成回答。

StrOutputParser()：解析模型輸出的字符串。

3. 定義查詢問題 (query)

定義了一個字符串query作為查詢問題，例如：“Which year had the highest holiday sales growth?”（哪一年的假日銷售增長最高？）。

4. 執(zhí)行查詢 (chain.invoke(query))

調(diào)用chain的invoke方法執(zhí)行查詢，根據(jù)問題和檢索到的信息生成答案。

總的來說，這個代碼片段建立了一個復雜的查詢處理流程，結(jié)合了內(nèi)容檢索、數(shù)據(jù)分離、提示生成和模型回答，用于處理和回答基于文本和圖像數(shù)據(jù)的復雜問題。

來查看輸出的結(jié)果：

Based on the chart provided, the year with the highest holiday sales growth is 2021, with a growth rate of 12.7%. This is indicated by the tallest bar in the bar chart under the "Actual" section, which represents the actual year-over-year growth rate for November and December sales.

我們將其翻譯成中文如下：

根據(jù)提供的圖表，2021年的假日銷售增長率最高，為12.7%。這一點從“實心”部分的柱狀圖中最高的柱子可以看出，該柱子代表了11月和12月的年度同比增長率。

PDF中圖表部分與大模型回應對比

通過大模型的回應，再對比PDF中描述假日銷售增長率的柱狀圖，可以明顯發(fā)現(xiàn)2021年的增長率是最高的，為12.7%，并且對于柱子“實心”的描述也是正確的?？磥鞳penAI提供的多模態(tài)功能起到了作用。

總結(jié)

文章通過分析和實例演示，清晰地展示了OpenAI的最新技術(shù)在多模態(tài)數(shù)據(jù)處理方面的潛力和應用前景。通過對unstructured庫、Poppler工具和Tesseract-OCR工具的細致介紹和代碼實現(xiàn)的解讀，文章不僅為讀者提供了理論知識，也指導了如何實際操作和應用這些工具。文章的結(jié)論強調(diào)了gpt-4-vision-preview模型在提高分析效率和減少人工錯誤方面的價值。

作者介紹

崔皓，51CTO社區(qū)編輯，資深架構(gòu)師，擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗，10年分布式架構(gòu)經(jīng)驗。

責任編輯：華軒來源： 51CTO

OpenAI RAG模型人工智能

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="lntz5"></style>