自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從RAG到多模態(tài)搜索看OpenAI的技術(shù)演進

原創(chuàng) 精選
人工智能
本文探討了信息檢索與文本生成領域的最新進展,特別關注了OpenAI的RAG模型及其在文本內(nèi)容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型,這一模型標志著從結(jié)構(gòu)化搜索向非結(jié)構(gòu)化搜索的重大轉(zhuǎn)變,能夠有效處理和解釋多模態(tài)信息,如圖片、表格和文本。

作者 | 崔皓

審校 | 重樓

摘要

本文探討了信息檢索與文本生成領域的最新進展,特別關注了OpenAI的RAG模型及其在文本內(nèi)容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型,這一模型標志著從結(jié)構(gòu)化搜索向非結(jié)構(gòu)化搜索的重大轉(zhuǎn)變,能夠有效處理和解釋多模態(tài)信息,如圖片、表格和文本。通過實際案例分析,文章展示了如何利用這些技術(shù)進行企業(yè)文檔管理、學術(shù)研究和媒體內(nèi)容分析,為讀者提供了關于如何運用這些先進技術(shù)進行多模態(tài)數(shù)據(jù)處理的深入見解。

開篇

在人工智能的領域內(nèi),信息檢索與文本生成一直是兩個重要的研究方向。OpenAI的RAG(Retrieval-Augmented Generation)模型,作為這一領域的突破性成果,成功地將神經(jīng)網(wǎng)絡的文本生成能力與大規(guī)模數(shù)據(jù)集的檢索功能結(jié)合起來。這一創(chuàng)新不僅提升了文本生成模型的準確性和信息豐富度,而且解決了傳統(tǒng)模型在應對復雜查詢時的局限性。

RAG模型的主流應用體現(xiàn)在文本內(nèi)容的搜索上,例如企業(yè)知識庫的檢索。通過文本加載、切割、嵌入、索引等方法建立輸入與目標的相關性,最終將搜索結(jié)果呈現(xiàn)給用戶。然而,隨著信息類型的多樣化,傳統(tǒng)的文本搜索已經(jīng)不能滿足所有的需求。

此時,OpenAI推出了gpt-4-vision-preview模型,這不僅是技術(shù)上的一大躍進,更標志著從結(jié)構(gòu)化搜索走向非結(jié)構(gòu)化搜索的重要轉(zhuǎn)變。該模型具備處理和解釋多模態(tài)信息的能力,無論是圖片、表格還是文本,都能夠被有效地摘要和搜索。這一進步極大地擴展了RAG功能的外延,為多模態(tài)數(shù)據(jù)處理開辟了新的道路。

例如,在企業(yè)文檔管理方面,gpt-4-vision-preview可以分析含有圖表和文本的PDF格式文檔,如合同和報告,提供精準的摘要和關鍵信息提取。在學術(shù)研究領域,這一技術(shù)能自動整理和分析學術(shù)論文中的數(shù)據(jù)和圖像,極大提升研究效率。而在媒體內(nèi)容分析上,新聞報道中的圖片與文本內(nèi)容可以被整合分析,為媒體從業(yè)者提供更深入的洞察。

今天我會通過這篇文章,手把手帶大家如何實現(xiàn)對一個多模態(tài)PDF的分析和搜索。

場景分析

那么今天的主角就要登場了,如下圖所示,這個PDF文件是一個典型的財經(jīng)市場分析報告,包含了豐富的文字、圖表和數(shù)據(jù)。

財經(jīng)市場分析報告財經(jīng)市場分析報告

報告不僅包含了詳細的文本描述,如市場趨勢的分析和預測,還包括了大量的圖表和數(shù)據(jù),如股票市場的指數(shù)、固定收益產(chǎn)品的收益率和關鍵利率等。這些圖表和數(shù)據(jù)在理解整個市場情況中起著至關重要的作用。

然而,人工處理這類多模態(tài)的PDF文件常常是耗時且勞力密集的。分析師需要仔細閱讀文本,解讀圖表和數(shù)據(jù),并將這些信息綜合起來以形成完整的市場觀點。這個過程不僅耗時,還容易出錯,特別是在處理大量復雜數(shù)據(jù)時。

傳統(tǒng)的RAG模型在處理這類多模態(tài)PDF文件時顯得力不從心。盡管RAG在處理和生成基于文本的信息方面表現(xiàn)出色,但它主要針對文字內(nèi)容進行搜索和生成,對于非文本元素,如圖表和數(shù)據(jù),其處理能力有限。這就意味著,在使用RAG模型進行信息檢索時,對于包含非文本元素的復雜PDF文件,它可能無法充分理解和利用文件中的所有信息。

因此,針對這種業(yè)務場景就需要使用OpenAI推出的多模態(tài)的處理方式,利用GPT-4-Vision-Preview模型處理文本、圖表和數(shù)據(jù),以提供更加全面和準確的分析。從而提高分析效率,還能減少由于人工處理的錯誤而造成的風險。

技術(shù)分析

在多模態(tài)PDF文檔處理中,首要挑戰(zhàn)是識別文檔中的非結(jié)構(gòu)化信息,如圖片、表格和文字。這里我們需要使用unstructured庫,它提供了用于攝取和預處理圖像和文本文檔的開源組件,如PDF、HTML、Word文檔等。它的主要用途是簡化和優(yōu)化大型語言模型(LLMs)的數(shù)據(jù)處理工作流程。unstructured的模塊化功能和連接器形成了一個簡化數(shù)據(jù)攝取和預處理的一致系統(tǒng),使其適應不同平臺,有效地將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化輸出。

除此之外,為了更好處理PDF文檔,我們還引入了poppler-utils工具, 它被用來提取圖片和文本。特別是其中的pdfimages和pdftotext工具,分別用于從PDF中提取嵌入的圖像和全部文本,這對于多模態(tài)PDF的分析至關重要。

備注:Poppler是一個PDF文檔渲染庫,可以使用兩種后端進行繪制,分別是Cairo和Splash。這兩種后端的特性有所不同,Poppler的功能也可能依賴于它使用的后端。此外,還有一個基于Qt4的繪圖框架“Arthur”的后端,但這個后端不完整且已停止開發(fā)。Poppler為Glib和Qt5提供綁定,這些綁定提供了對Poppler后端的接口,盡管Qt5綁定只支持Splash和Arthur后端。Cairo后端支持矢量圖形的抗鋸齒和透明對象,但不支持平滑位圖圖像如掃描文檔,并且不依賴于X Window系統(tǒng),因此Poppler可以在Wayland、Windows或macOS等平臺上運行。Splash后端支持位圖的縮小過濾。Poppler還附帶一個文本渲染后端,可通過命令行工具pdftotext調(diào)用,用于在命令行中搜索PDF中的字符串,例如使用grep工具。

解決了圖片、表格和問題的提取問題之后,在將圖片和表格內(nèi)容轉(zhuǎn)換為可分析的文本格式方面,Tesseract-OCR工具發(fā)揮了關鍵作用。盡管Tesseract不能直接處理PDF文件,但它可以將轉(zhuǎn)換為.tiff格式的PDF文件中的圖像轉(zhuǎn)換為文本。這個過程是處理多模態(tài)PDF的關鍵環(huán)節(jié),使得原本以圖像或表格形式存在的信息轉(zhuǎn)化為可供進一步分析的文本形式。

當然除了上面提到的識別和分離PDF元素的技術(shù)之外,例如:向量存儲、向量索引器等技術(shù)也會用到,由于在傳統(tǒng)的RAG 中經(jīng)常用到,這里就不贅述了。

代碼實現(xiàn)

經(jīng)過場景和技術(shù)分析之后,我們了解到如果需要對PDF進行多模態(tài)的分析和查詢,首先是要對其中的圖片、表格、文字進行識別。這里我們會引入unstructured 、Poppler庫以及Tesseract-OCR工具。有了這些工具的加持讓我們的編碼過程更加如虎添翼。

安裝庫和工具

!pip install langchain unstructured[all-docs] pydantic lxml openai chromadb tiktoken -q -U
!apt-get install poppler-utils tesseract-ocr

上面的庫有幾個之前沒有提到的,這里做一下說明。

  • pydantic:用于數(shù)據(jù)驗證和設置管理。
  • lxml: XML和HTML處理庫。
  • openai:與OpenAI的API進行交互。
  • chromadb:用于向量數(shù)據(jù)庫管理或數(shù)據(jù)存儲。

提取PDF信息

既然工具都準備好了,接下來就是處理PDF 的內(nèi)容了,代碼如下:

from typing import Any

from pydantic import BaseModel
from unstructured.partition.pdf import partition_pdf

# 設置存放圖像的路徑
images_path = "./images"

# 調(diào)用 partition_pdf 函數(shù)處理PDF文件,提取其中的元素
raw_pdf_elements = partition_pdf(
    filename="weekly-market-recap.pdf",           # 指定要處理的PDF文件名
    extract_images_in_pdf=True,                   # 設置為True以從PDF中提取圖像
    infer_table_structure=True,                   # 設置為True以推斷PDF中的表格結(jié)構(gòu)
    chunking_strategy="by_title",                 # 設置文檔切分策略為按標題切分
    max_characters=4000,                          # 設置每個塊的最大字符數(shù)為4000
    new_after_n_chars=3800,                       # 在達到3800字符后開始新的塊
    combine_text_under_n_chars=2000,              # 將少于2000字符的文本組合在一起
    image_output_dir_path=images_path,            # 指定輸出圖像的目錄路徑
)

這段Python代碼使用了pydantic和unstructured庫來處理PDF文件。下面是代碼的逐行解釋:

images_path = "./images":設置一個變量images_path,用于存放從PDF中提取的圖像。

接下來調(diào)用partition_pdf函數(shù),這個函數(shù)用于處理PDF文件并提取其中的元素:

  • filename="weekly-market-recap.pdf":指定要處理的PDF文件名。
  • extract_images_in_pdf=True:設置為True以從PDF中提取圖像。
  • infer_table_structure=True:設置為True以推斷PDF中的表格結(jié)構(gòu)。
  • chunking_strategy="by_title":設置文檔切分策略為按標題切分。
  • max_characters=4000:設置每個塊的最大字符數(shù)為4000。
  • new_after_n_chars=3800:在達到3800字符后開始新的塊。
  • combine_text_under_n_chars=2000:將少于2000字符的文本組合在一起。
  • image_output_dir_path=images_path:指定輸出圖像的目錄路徑。

可以通過命令獲取PDF圖片的信息,由于通過上面代碼將圖片保存到images目錄下面了,所以通過如下代碼展示圖片。

from IPython.display import Image
Image('images/figure-1-1.jpg')

從PDF 中抽取的圖片信息從PDF 中抽取的圖片信息

為圖片信息產(chǎn)生摘要

下面這段代碼定義了一個名為ImageSummarizer的類,用于生成圖像內(nèi)容的摘要信息。

# 引入所需的庫
import base64
import os

# 從langchain包導入ChatOpenAI類和HumanMessage模塊
from langchain.chat_models import ChatOpenAI
from langchain.schema.messages import HumanMessage

# 定義圖像摘要類
class ImageSummarizer:

    # 初始化函數(shù),設置圖像路徑
    def __init__(self, image_path) -> None:
        self.image_path = image_path
        self.prompt = """你的任務是將圖像內(nèi)容生成摘要信息,以便檢索。
        這些摘要將被嵌入并用于檢索原始圖像。請給出一個簡潔的圖像摘要,以便于檢索優(yōu)化。
"""

    # 定義函數(shù)將圖像轉(zhuǎn)換為base64編碼
    def base64_encode_image(self):
        with open(self.image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode("utf-8")

    # 定義摘要函數(shù)
    def summarize(self, prompt = None):
        # 獲取圖像的base64編碼數(shù)據(jù)
        base64_image_data = self.base64_encode_image()
        # 創(chuàng)建ChatOpenAI對象,使用gpt-4-vision預覽模型,最大token數(shù)為1000
        chat = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=1000)

        # 調(diào)用chat對象的invoke方法,發(fā)送包含文本和圖像的消息
        response = chat.invoke(
            [
                #人類提示語的輸入
                HumanMessage(
                    content=[
                        {
                            "type": "text",
                            "text": prompt if prompt else self.prompt
                        },
                        {
                            "type": "image_url",
                            "image_url": {"url": f"data:image/jpeg;base64,{base64_image_data}"},
                        },
                    ]
                )
            ]
        )
        # 返回base64編碼的圖像數(shù)據(jù)和響應內(nèi)容
        return base64_image_data, response.content

以下是代碼的詳細解釋:

1.導入庫

導入base64和os庫,用于圖像編碼和操作系統(tǒng)相關功能。

從Langchain包中導入ChatOpenAI類和HumanMessage模塊,這些用于與OpenAI的聊天模型交互。

2.定義圖像摘要類 ImageSummarizer

__init__方法初始化圖像路徑和摘要生成的提示語。

base64_encode_image方法將圖像文件讀取并轉(zhuǎn)換為base64編碼,這種編碼格式適用于在網(wǎng)絡上傳輸圖像,便于圖片信息與GPT模型交互。

3. 定義摘要函數(shù) summarize

使用base64_encode_image方法獲取圖像的base64編碼數(shù)據(jù)。

創(chuàng)建ChatOpenAI對象,指定使用gpt-4-vision-preview模型,最大token數(shù)設為1000,用于處理圖像摘要任務。

使用chat.invoke方法,向模型發(fā)送包含文本提示和圖像數(shù)據(jù)的消息。文本提示用于指導模型生成圖像的摘要。

創(chuàng)建summarize函數(shù)的目的就是為了給圖片生成摘要,接下來就是調(diào)用該函數(shù)。下面這段代碼創(chuàng)建圖像數(shù)據(jù)和圖像摘要的列表,并遍歷指定路徑下的所有文件以生成這些信息。

# 創(chuàng)建圖像數(shù)據(jù)和圖像摘要的列表
image_data_list = []
image_summary_list = []

# 遍歷指定路徑下的所有文件
for img_file in sorted(os.listdir(images_path)):
    # 檢查文件擴展名是否為.jpg
    if img_file.endswith(".jpg"):
        # 創(chuàng)建ImageSummarizer對象
        summarizer = ImageSummarizer(os.path.join(images_path, img_file))
        # 調(diào)用summarize方法生成摘要
        data, summary = summarizer.summarize()
        # 將base64編碼的圖像數(shù)據(jù)添加到列表
        image_data_list.append(data)
        # 將圖像摘要添加到列表
        image_summary_list.append(summary)

代碼解釋:

1. 初始化列表

image_data_list和image_summary_list兩個列表被創(chuàng)建用于存儲圖像的base64編碼數(shù)據(jù)和對應的圖像摘要。

2.遍歷指定路徑下的所有文件

使用os.listdir(images_path)列出指定路徑(images_path)下的所有文件,并使用sorted函數(shù)對文件名進行排序。

3. 檢查和處理每個文件

通過if img_file.endswith(".jpg")檢查文件擴展名是否為.jpg,以確保只處理圖像文件。

對于每個.jpg文件,創(chuàng)建ImageSummarizer對象,傳入圖像的完整路徑。

調(diào)用summarize方法生成該圖像的摘要。

將返回的base64編碼圖像數(shù)據(jù)添加到image_data_list列表。

將返回的圖像摘要添加到image_summary_list列表。

最終會生成兩個列表:一個包含了圖像文件的base64編碼數(shù)據(jù),另一個包含了相應的圖像摘要,這些信息可以用于圖像檢索或其他處理。

我們通過如下代碼來查看圖片的摘要信息

image_summary_list

輸出結(jié)果如下:

['這個圖像包含了三個不同的圖表,提供了有關假日銷售增長、各行業(yè)一周和年迄今(YTD)的表現(xiàn)對比的數(shù)據(jù)。\n\n第一個圖表是一個柱狀圖,標題為“Holiday sales growth is set to return to its pre-pandemic pace”,展示了2010年至2023年間11月和12月銷售同比增長的實際數(shù)據(jù)和預測數(shù)據(jù)。藍色柱子代表實際數(shù)據(jù),條紋柱子代表預測數(shù)據(jù),藍色虛線代表2010-2019年平均增長率,綠色虛線代表2020-2022年平均增長率。\n\n第二個圖表是一個色塊圖,分為兩部分,展示了“V”, “B”, 和 “G”在不同的尺度(大、中、?。┫碌?周和年迄今(YTD)的表現(xiàn)。數(shù)值在色塊內(nèi)以白色文字顯示。\n\n第三個圖表是兩個并列的柱狀圖,分別顯示了不同行業(yè)在1周和年迄今(YTD)的表現(xiàn)。左側(cè)的藍色柱狀圖展示了一周的變化,右側(cè)的綠色柱狀圖展示了年迄今的變化。圖表的Y軸代表了百分比變化,X軸列出了不同的行業(yè)。\n\n摘要:三個圖表顯示假日銷售增長預計將恢復至疫情前水平,不同市場尺度(大、中、?。┑?周和年迄今表現(xiàn),以及不同行業(yè)的1周和年迄今表現(xiàn)數(shù)據(jù)。']

從結(jié)果可以看出GPT-4-Vision-Preview 模型對圖片是能夠識別,并且對一些細節(jié)也能夠把控。

識別表格和文本信息

圖片、表格和文本信息組成了PDF的完整內(nèi)容, 在識別了圖片信息之后,就需要對表格和文本信息下手了。

下面這段代碼定義了處理PDF文檔元素的過程。

# 定義一個基本模型Element,用于存儲文檔元素的類型和文本內(nèi)容
class Element(BaseModel):
    type: str
    text: Any

# 創(chuàng)建表格元素和文本元素的空列表
#表格信息
table_elements = []
#文本信息
text_elements = []

# 遍歷從PDF中分割出的所有元素
for element in raw_pdf_elements:
    # 判斷元素是否為表格:非結(jié)構(gòu)化-文檔-元素-表格
    if "unstructured.documents.elements.Table" in str(type(element)):
        # 如果是表格,將其添加到表格元素列表
        table_elements.append(Element(type="table", text=str(element)))
    # 判斷元素是否為復合元素
    elif "unstructured.documents.elements.CompositeElement" in str(type(element)):
        # 如果是復合元素,將其添加到文本元素列表
        text_elements.append(Element(type="text", text=str(element)))

代碼解釋如下:

1.定義Element基本模型

使用pydantic的BaseModel定義了一個名為Element的類,用于存儲文檔元素的類型(如表格或文本)和文本內(nèi)容。這個類使用類型注解str和Any定義了兩個屬性:type(元素類型)和text(元素內(nèi)容)。

2. 創(chuàng)建空列表以存儲表格和文本元素

table_elements和text_elements分別用于存儲表格信息和文本信息。

3. 遍歷PDF中的元素

對于從PDF文件中分割出的每個元素(在raw_pdf_elements中),代碼通過判斷元素的類型來分類處理:

如果元素是表格(unstructured.documents.elements.Table),則創(chuàng)建Element對象,并將其類型設為"table",文本內(nèi)容設為元素的字符串表示,然后將此對象添加到table_elements列表。

如果元素是復合元素(unstructured.documents.elements.CompositeElement),則以相似的方式處理,將其類型設為"text",并添加到text_elements列表。

在對PDF文檔中的不同元素進行分類和存儲,接下來就需要對其進行處理,對這些表格和文字進行總結(jié)。代碼如下:

# 導入所需模塊
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser

# 定義用于生成總結(jié)的提示文本
prompt_text = """
  您負責簡潔地總結(jié)表格或文本塊,中文輸出。:
  {element}
"""
# 從模板創(chuàng)建提示
prompt = ChatPromptTemplate.from_template(prompt_text)

# 創(chuàng)建總結(jié)鏈,結(jié)合提示和GPT-3.5模型
summarize_chain = {"element": lambda x: x} | prompt | ChatOpenAI(temperature=0, model="gpt-3.5-turbo") | StrOutputParser()

# 從表格元素中提取文本
tables = [i.text for i in table_elements]
# 使用總結(jié)鏈批量處理表格文本,設置最大并發(fā)數(shù)為5
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})

# 從文本元素中提取文本
texts = [i.text for i in text_elements]
# 使用總結(jié)鏈批量處理文本,設置最大并發(fā)數(shù)為5
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})

這段代碼用于生成表格和文本塊的總結(jié),利用LangChain和GPT-3.5模型:

1.導入模塊

導入LangChain的ChatOpenAI、ChatPromptTemplate和StrOutputParser模塊。

2.定義生成總結(jié)的提示文本

定義了一個用于指導模型總結(jié)表格或文本塊的提示文本模板。

3.創(chuàng)建提示和總結(jié)鏈

使用ChatPromptTemplate.from_template根據(jù)定義的提示文本創(chuàng)建提示。

創(chuàng)建一個名為summarize_chain的總結(jié)鏈,該鏈結(jié)合了提示、GPT-3.5模型(由于生成總結(jié)的能力不需要用到GPT-4,為了節(jié)省Token使用GPT-3.5),和字符串輸出解析器(StrOutputParser)。

4.處理表格和文本元素

從table_elements中提取表格文本,使用summarize_chain.batch方法批量處理這些文本,最大并發(fā)數(shù)設為5。

從text_elements中提取文本塊文本,同樣使用summarize_chain.batch批量處理,最大并發(fā)數(shù)設為5。

我們將總結(jié)的內(nèi)容打印如下:

表格和文字摘要信息表格和文字摘要信息

創(chuàng)建索引器

好了,目前為止我們將PDF中的圖片、表格和文本信息都逐一抽取出來了,并針對這些信息生成了摘要,其目的是方便后續(xù)搜索,在做好這一系列準備之后就需要安排上索引器了索引器顧名思義就是對被搜索信息添加上索引,方便搜索之用。

下面這段代碼創(chuàng)建了一個多向量檢索器,用于存儲和檢索文本、表格和圖像數(shù)據(jù):

import uuid  # 導入uuid庫,用于生成唯一標識符

# 導入所需的langchain模塊
from langchain.embeddings import OpenAIEmbeddings
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.schema.document import Document
from langchain.storage import InMemoryStore
from langchain.vectorstores import Chroma

id_key = "doc_id"  # 設置文檔的唯一標識鍵

# 初始化多向量檢索器,初始為空,文字,圖片,表格
retriever = MultiVectorRetriever(
    vectorstore=Chroma(collection_name="summaries", embedding_function=OpenAIEmbeddings()),  # 使用OpenAI的嵌入方法
    docstore=InMemoryStore(),  # 使用內(nèi)存存儲文檔
    id_key=id_key,  # 設置文檔的唯一標識鍵
)

# 為文本添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in texts]  # 為每個文本生成一個唯一的UUID
# 創(chuàng)建文本的文檔對象并添加到檢索器
summary_texts = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})  # 將文本封裝為文檔對象
    for i, s in enumerate(text_summaries)
]
retriever.vectorstore.add_documents(summary_texts)  # 將文本文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, texts)))  # 將文本文檔的ID和內(nèi)容存儲在內(nèi)存存儲中

# 為表格添加唯一標識
table_ids = [str(uuid.uuid4()) for _ in tables]  # 為每個表格生成一個唯一的UUID
# 創(chuàng)建表格的文檔對象并添加到檢索器
summary_tables = [
    Document(page_content=s, metadata={id_key: table_ids[i]})  # 將表格封裝為文檔對象
    for i, s in enumerate(table_summaries)
]
retriever.vectorstore.add_documents(summary_tables)  # 將表格文檔添加到向量存儲中
retriever.docstore.mset(list(zip(table_ids, tables)))  # 將表格文檔的ID和內(nèi)容存儲在內(nèi)存存儲中

# 為圖像添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in image_data_list]  # 為每個圖像生成一個唯一的UUID
# 創(chuàng)建圖像的文檔對象并添加到檢索器
summary_images = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})  # 將圖像封裝為文檔對象
    for i, s in enumerate(image_summary_list)
]
retriever.vectorstore.add_documents(summary_images)  # 將圖像文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, image_data_list)))  # 將圖像文檔的ID和內(nèi)容存儲在內(nèi)存存儲中

代碼解釋:

1. 初始化多向量檢索器

使用Chroma作為向量存儲,它利用OpenAI嵌入方法將文檔轉(zhuǎn)換為向量形式。

使用InMemoryStore作為文檔存儲,這是一種將文檔存儲在內(nèi)存中的方法。

設置id_key為文檔的唯一標識鍵。

2. 處理文本數(shù)據(jù)

為每個文本創(chuàng)建唯一標識符(UUID)。

將文本總結(jié)封裝為Document對象,并添加到向量存儲和文檔存儲中。

3. 處理表格數(shù)據(jù)

類似地,為每個表格創(chuàng)建UUID。

將表格總結(jié)封裝為Document對象,并添加到向量存儲和文檔存儲中。

4. 處理圖像數(shù)據(jù)

為每個圖像創(chuàng)建UUID。

將圖像總結(jié)封裝為Document對象,并添加到向量存儲和文檔存儲中。

這段代碼建立了一個系統(tǒng),可以存儲和檢索多種類型的文檔數(shù)據(jù),包括文本、表格和圖像,利用唯一標識符來管理每個文檔。這對于處理和組織大量復雜數(shù)據(jù)非常有用。

生成多模態(tài)查詢提示語

下面這段代碼包含多個函數(shù),用來處理和展示圖像與文本數(shù)據(jù)。

from PIL import Image
from IPython.display import HTML, display
import io
import re

# 顯示基于base64編碼的圖片
def plt_img_base64(img_base64):
    display(HTML(f''))

# 檢查base64數(shù)據(jù)是否為圖片
def is_image_data(b64data):
    """
    通過查看數(shù)據(jù)開頭來檢查base64數(shù)據(jù)是否為圖片
    """
    image_signatures = {
        b"\xFF\xD8\xFF": "jpg",
        b"\x89\x50\x4E\x47\x0D\x0A\x1A\x0A": "png",
        b"\x47\x49\x46\x38": "gif",
        b"\x52\x49\x46\x46": "webp",
    }
    try:
        header = base64.b64decode(b64data)[:8]  # 解碼并獲取前8個字節(jié)
        for sig, format in image_signatures.items():
            if header.startswith(sig):
                return True
        return False
    except Exception:
        return False

# 分離base64編碼的圖片和文本
def split_image_text_types(docs):
    """
    分離base64編碼的圖片和文本
    """
    b64_images = []
    texts = []
    for doc in docs:
        # 檢查文檔是否為Document類型并提取page_content
        if isinstance(doc, Document):
            doc = doc.page_content
        #是圖片
        if is_image_data(doc):
            b64_images.append(doc)
        else:
            texts.append(doc)
    return {"images": b64_images, "texts": texts}

# 根據(jù)數(shù)據(jù)生成提示信息
def img_prompt_func(data_dict):
    messages = []

    # 如果存在圖片,則添加到消息中
    #圖片的信息單獨拿出來, 需要和提示語一起傳給大模型的。
    if data_dict["context"]["images"]:
        for image in data_dict["context"]["images"]:
            image_message = {
                "type": "image_url",
                "image_url": {"url": f"data:image/jpeg;base64,{image}"},
            }
            messages.append(image_message)

    # 添加文本到消息
    formatted_texts = "\n".join(data_dict["context"]["texts"])
    text_message = {
        "type": "text",
        "text": (
            "You are financial analyst.\n"
            "You will be given a mixed of text, tables, and image(s) usually of charts or graphs.\n"
            "Use this information to answer the user question in the finance. \n"
            f"Question: {data_dict['question']}\n\n"
            "Text and / or tables:\n"
            f"{formatted_texts}"
        ),
    }
    messages.append(text_message)
    print(messages)
    return [HumanMessage(content=messages)]

代碼解釋:

1. 顯示基于base64編碼的圖片 (plt_img_base64)

這個函數(shù)的目的是顯示base64編碼的圖片。

2. 檢查base64數(shù)據(jù)是否為圖片 (is_image_data)

通過檢查base64編碼數(shù)據(jù)的開頭是否符合常見圖像格式(如JPEG, PNG, GIF, WEBP)的簽名來判斷數(shù)據(jù)是否為圖片。

3. 分離base64編碼的圖片和文本 (split_image_text_types)

此函數(shù)遍歷文檔集合,使用is_image_data函數(shù)來區(qū)分哪些是圖像數(shù)據(jù),哪些是文本,然后將它們分別存儲在兩個列表中。

4. 根據(jù)數(shù)據(jù)生成提示信息 (img_prompt_func)

此函數(shù)生成用于向LangChain的大模型傳遞的消息。對于每個圖像,創(chuàng)建包含圖像URL的消息;對于文本數(shù)據(jù),創(chuàng)建包含提示文本和問題的消息。

需要對"text"進行特別說明,它定義消息的具體文本內(nèi)容。

首先說明了用戶角色:"You are financial analyst."(你是一名財務分析師)。

緊接著說明任務類型和數(shù)據(jù)格式:"You will be given a mixed of text, tables, and image(s) usually of charts or graphs."(你將會得到包含文本、表格和圖像(通常是圖表或圖形)的混合數(shù)據(jù))。

提示使用這些信息回答財務問題:"Use this information to answer the user question in the finance."(使用這些信息來回答財務方面的用戶問題)。

{data_dict['question']}:這里{}內(nèi)的部分是Python字符串格式化的占位符,用于插入變量data_dict中的'question'鍵所對應的值,即用戶提出的問題。

"Text and / or tables:\n":提示文本,說明接下來的內(nèi)容是文本和/或表格。

f"{formatted_texts}":再次使用字符串格式化將變量formatted_texts(格式化后的文本數(shù)據(jù))插入到消息中。

實現(xiàn)金融分析查詢

萬事俱備只欠東風,現(xiàn)在開始利用GPT-4-Vision-Preview模型進行推理了, 我們嘗試對索引器提問,看看結(jié)果如何。

下面這段代碼實現(xiàn)了一個基于RAG(Retrieval Augmented Generation)模型的查詢處理管道。

from langchain.schema.runnable import RunnableLambda, RunnablePassthrough
# 創(chuàng)建ChatOpenAI模型實例
model = ChatOpenAI(temperature=0, model="gpt-4-vision-preview", max_tokens=1024)

# 構(gòu)建RAG(Retrieval Augmented Generation)管道
chain = (
    {
        "context": retriever | RunnableLambda(split_image_text_types), # 使用檢索器獲取內(nèi)容并分離圖片和文本
        "question": RunnablePassthrough(), # 傳遞問題
    }
    | RunnableLambda(img_prompt_func) # 根據(jù)圖片和文本生成提示信息
    | model # 使用ChatOpenAI模型生成回答
    | StrOutputParser() # 解析模型的字符串輸出
)

# 定義查詢問題
query = "Which year had the highest holiday sales growth?"

# 調(diào)用chain的invoke方法執(zhí)行查詢
chain.invoke(query)

代碼解釋:

1.創(chuàng)建ChatOpenAI模型實例

使用ChatOpenAI類創(chuàng)建模型實例,配置了溫度參數(shù)為0、使用的模型為gpt-4-vision-preview,最大token數(shù)設為1024。

2.構(gòu)建RAG管道 (chain)

retriever | RunnableLambda(split_image_text_types):首先使用retriever檢索內(nèi)容,然后通過RunnableLambda調(diào)用split_image_text_types函數(shù)分離圖片和文本。

RunnablePassthrough():用于直接傳遞查詢問題。

RunnableLambda(img_prompt_func):根據(jù)檢索到的圖片和文本生成提示信息。

model:使用配置好的ChatOpenAI模型根據(jù)生成的提示信息生成回答。

StrOutputParser():解析模型輸出的字符串。

3. 定義查詢問題 (query)

定義了一個字符串query作為查詢問題,例如:“Which year had the highest holiday sales growth?”(哪一年的假日銷售增長最高?)。

4. 執(zhí)行查詢 (chain.invoke(query))

調(diào)用chain的invoke方法執(zhí)行查詢,根據(jù)問題和檢索到的信息生成答案。

總的來說,這個代碼片段建立了一個復雜的查詢處理流程,結(jié)合了內(nèi)容檢索、數(shù)據(jù)分離、提示生成和模型回答,用于處理和回答基于文本和圖像數(shù)據(jù)的復雜問題。

來查看輸出的結(jié)果

Based on the chart provided, the year with the highest holiday sales growth is 2021, with a growth rate of 12.7%. This is indicated by the tallest bar in the bar chart under the "Actual" section, which represents the actual year-over-year growth rate for November and December sales.

我們將其翻譯成中文如下:

根據(jù)提供的圖表,2021年的假日銷售增長率最高,為12.7%。這一點從“實心”部分的柱狀圖中最高的柱子可以看出,該柱子代表了11月和12月的年度同比增長率。

PDF中圖表部分與大模型回應對比PDF中圖表部分與大模型回應對比

通過大模型的回應,再對比PDF中描述假日銷售增長率的柱狀圖,可以明顯發(fā)現(xiàn)2021年的增長率是最高的,為12.7%,并且對于柱子“實心”的描述也是正確的??磥鞳penAI提供的多模態(tài)功能起到了作用。

總結(jié)

文章通過分析和實例演示,清晰地展示了OpenAI的最新技術(shù)在多模態(tài)數(shù)據(jù)處理方面的潛力和應用前景。通過對unstructured庫、Poppler工具和Tesseract-OCR工具的細致介紹和代碼實現(xiàn)的解讀,文章不僅為讀者提供了理論知識,也指導了如何實際操作和應用這些工具。文章的結(jié)論強調(diào)了gpt-4-vision-preview模型在提高分析效率和減少人工錯誤方面的價值。

作者介紹

崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗,10年分布式架構(gòu)經(jīng)驗。

責任編輯:華軒 來源: 51CTO
相關推薦

2025-01-02 08:36:25

多模態(tài)RAG深度學習自然語言處理

2024-08-20 10:30:00

2025-04-22 07:00:00

2023-08-28 16:10:00

容器化DockerKubernetes

2022-01-12 07:06:42

DPU網(wǎng)卡GPU

2024-10-29 11:54:25

2022-06-10 07:42:37

搜索推薦架構(gòu)

2022-10-27 09:59:55

視音學習

2019-04-12 15:36:06

KubernetesReleaseWindows

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2023-11-14 11:40:00

OpenAI人工智能

2024-01-11 16:24:12

人工智能RAG

2025-02-06 13:50:06

2022-06-02 08:37:10

架構(gòu)DDDMVC

2017-10-30 09:09:41

2018-10-12 15:15:45

電商搜索算法

2015-04-07 11:05:15

VMwareOpenStack

2023-04-06 17:17:29

混合云Kubernetes多集群

2024-11-13 09:39:13

點贊
收藏

51CTO技術(shù)棧公眾號