作者 | 崔皓
審校 | 重樓
摘要
本文探討了信息檢索與文本生成領域的最新進展,特別關注了OpenAI的RAG模型及其在文本內(nèi)容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型,這一模型標志著從結(jié)構(gòu)化搜索向非結(jié)構(gòu)化搜索的重大轉(zhuǎn)變,能夠有效處理和解釋多模態(tài)信息,如圖片、表格和文本。通過實際案例分析,文章展示了如何利用這些技術(shù)進行企業(yè)文檔管理、學術(shù)研究和媒體內(nèi)容分析,為讀者提供了關于如何運用這些先進技術(shù)進行多模態(tài)數(shù)據(jù)處理的深入見解。
開篇
在人工智能的領域內(nèi),信息檢索與文本生成一直是兩個重要的研究方向。OpenAI的RAG(Retrieval-Augmented Generation)模型,作為這一領域的突破性成果,成功地將神經(jīng)網(wǎng)絡的文本生成能力與大規(guī)模數(shù)據(jù)集的檢索功能結(jié)合起來。這一創(chuàng)新不僅提升了文本生成模型的準確性和信息豐富度,而且解決了傳統(tǒng)模型在應對復雜查詢時的局限性。
RAG模型的主流應用體現(xiàn)在文本內(nèi)容的搜索上,例如企業(yè)知識庫的檢索。通過文本加載、切割、嵌入、索引等方法建立輸入與目標的相關性,最終將搜索結(jié)果呈現(xiàn)給用戶。然而,隨著信息類型的多樣化,傳統(tǒng)的文本搜索已經(jīng)不能滿足所有的需求。
此時,OpenAI推出了gpt-4-vision-preview模型,這不僅是技術(shù)上的一大躍進,更標志著從結(jié)構(gòu)化搜索走向非結(jié)構(gòu)化搜索的重要轉(zhuǎn)變。該模型具備處理和解釋多模態(tài)信息的能力,無論是圖片、表格還是文本,都能夠被有效地摘要和搜索。這一進步極大地擴展了RAG功能的外延,為多模態(tài)數(shù)據(jù)處理開辟了新的道路。
例如,在企業(yè)文檔管理方面,gpt-4-vision-preview可以分析含有圖表和文本的PDF格式文檔,如合同和報告,提供精準的摘要和關鍵信息提取。在學術(shù)研究領域,這一技術(shù)能自動整理和分析學術(shù)論文中的數(shù)據(jù)和圖像,極大提升研究效率。而在媒體內(nèi)容分析上,新聞報道中的圖片與文本內(nèi)容可以被整合分析,為媒體從業(yè)者提供更深入的洞察。
今天我會通過這篇文章,手把手帶大家如何實現(xiàn)對一個多模態(tài)PDF的分析和搜索。
場景分析
那么今天的主角就要登場了,如下圖所示,這個PDF文件是一個典型的財經(jīng)市場分析報告,包含了豐富的文字、圖表和數(shù)據(jù)。
財經(jīng)市場分析報告
報告不僅包含了詳細的文本描述,如市場趨勢的分析和預測,還包括了大量的圖表和數(shù)據(jù),如股票市場的指數(shù)、固定收益產(chǎn)品的收益率和關鍵利率等。這些圖表和數(shù)據(jù)在理解整個市場情況中起著至關重要的作用。
然而,人工處理這類多模態(tài)的PDF文件常常是耗時且勞力密集的。分析師需要仔細閱讀文本,解讀圖表和數(shù)據(jù),并將這些信息綜合起來以形成完整的市場觀點。這個過程不僅耗時,還容易出錯,特別是在處理大量復雜數(shù)據(jù)時。
傳統(tǒng)的RAG模型在處理這類多模態(tài)PDF文件時顯得力不從心。盡管RAG在處理和生成基于文本的信息方面表現(xiàn)出色,但它主要針對文字內(nèi)容進行搜索和生成,對于非文本元素,如圖表和數(shù)據(jù),其處理能力有限。這就意味著,在使用RAG模型進行信息檢索時,對于包含非文本元素的復雜PDF文件,它可能無法充分理解和利用文件中的所有信息。
因此,針對這種業(yè)務場景就需要使用OpenAI推出的多模態(tài)的處理方式,利用GPT-4-Vision-Preview模型處理文本、圖表和數(shù)據(jù),以提供更加全面和準確的分析。從而提高分析效率,還能減少由于人工處理的錯誤而造成的風險。
技術(shù)分析
在多模態(tài)PDF文檔處理中,首要挑戰(zhàn)是識別文檔中的非結(jié)構(gòu)化信息,如圖片、表格和文字。這里我們需要使用unstructured庫,它提供了用于攝取和預處理圖像和文本文檔的開源組件,如PDF、HTML、Word文檔等。它的主要用途是簡化和優(yōu)化大型語言模型(LLMs)的數(shù)據(jù)處理工作流程。unstructured的模塊化功能和連接器形成了一個簡化數(shù)據(jù)攝取和預處理的一致系統(tǒng),使其適應不同平臺,有效地將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化輸出。
除此之外,為了更好處理PDF文檔,我們還引入了poppler-utils工具, 它被用來提取圖片和文本。特別是其中的pdfimages和pdftotext工具,分別用于從PDF中提取嵌入的圖像和全部文本,這對于多模態(tài)PDF的分析至關重要。
備注:Poppler是一個PDF文檔渲染庫,可以使用兩種后端進行繪制,分別是Cairo和Splash。這兩種后端的特性有所不同,Poppler的功能也可能依賴于它使用的后端。此外,還有一個基于Qt4的繪圖框架“Arthur”的后端,但這個后端不完整且已停止開發(fā)。Poppler為Glib和Qt5提供綁定,這些綁定提供了對Poppler后端的接口,盡管Qt5綁定只支持Splash和Arthur后端。Cairo后端支持矢量圖形的抗鋸齒和透明對象,但不支持平滑位圖圖像如掃描文檔,并且不依賴于X Window系統(tǒng),因此Poppler可以在Wayland、Windows或macOS等平臺上運行。Splash后端支持位圖的縮小過濾。Poppler還附帶一個文本渲染后端,可通過命令行工具pdftotext調(diào)用,用于在命令行中搜索PDF中的字符串,例如使用grep工具。
解決了圖片、表格和問題的提取問題之后,在將圖片和表格內(nèi)容轉(zhuǎn)換為可分析的文本格式方面,Tesseract-OCR工具發(fā)揮了關鍵作用。盡管Tesseract不能直接處理PDF文件,但它可以將轉(zhuǎn)換為.tiff格式的PDF文件中的圖像轉(zhuǎn)換為文本。這個過程是處理多模態(tài)PDF的關鍵環(huán)節(jié),使得原本以圖像或表格形式存在的信息轉(zhuǎn)化為可供進一步分析的文本形式。
當然除了上面提到的識別和分離PDF元素的技術(shù)之外,例如:向量存儲、向量索引器等技術(shù)也會用到,由于在傳統(tǒng)的RAG 中經(jīng)常用到,這里就不贅述了。
代碼實現(xiàn)
經(jīng)過場景和技術(shù)分析之后,我們了解到如果需要對PDF進行多模態(tài)的分析和查詢,首先是要對其中的圖片、表格、文字進行識別。這里我們會引入unstructured 、Poppler庫以及Tesseract-OCR工具。有了這些工具的加持讓我們的編碼過程更加如虎添翼。
安裝庫和工具
!pip install langchain unstructured[all-docs] pydantic lxml openai chromadb tiktoken -q -U
!apt-get install poppler-utils tesseract-ocr
上面的庫有幾個之前沒有提到的,這里做一下說明。
- pydantic:用于數(shù)據(jù)驗證和設置管理。
- lxml: XML和HTML處理庫。
- openai:與OpenAI的API進行交互。
- chromadb:用于向量數(shù)據(jù)庫管理或數(shù)據(jù)存儲。
提取PDF信息
既然工具都準備好了,接下來就是處理PDF 的內(nèi)容了,代碼如下:
from typing import Any
from pydantic import BaseModel
from unstructured.partition.pdf import partition_pdf
# 設置存放圖像的路徑
images_path = "./images"
# 調(diào)用 partition_pdf 函數(shù)處理PDF文件,提取其中的元素
raw_pdf_elements = partition_pdf(
filename="weekly-market-recap.pdf", # 指定要處理的PDF文件名
extract_images_in_pdf=True, # 設置為True以從PDF中提取圖像
infer_table_structure=True, # 設置為True以推斷PDF中的表格結(jié)構(gòu)
chunking_strategy="by_title", # 設置文檔切分策略為按標題切分
max_characters=4000, # 設置每個塊的最大字符數(shù)為4000
new_after_n_chars=3800, # 在達到3800字符后開始新的塊
combine_text_under_n_chars=2000, # 將少于2000字符的文本組合在一起
image_output_dir_path=images_path, # 指定輸出圖像的目錄路徑
)
這段Python代碼使用了pydantic和unstructured庫來處理PDF文件。下面是代碼的逐行解釋:
images_path = "./images":設置一個變量images_path,用于存放從PDF中提取的圖像。
接下來調(diào)用partition_pdf函數(shù),這個函數(shù)用于處理PDF文件并提取其中的元素:
- filename="weekly-market-recap.pdf":指定要處理的PDF文件名。
- extract_images_in_pdf=True:設置為True以從PDF中提取圖像。
- infer_table_structure=True:設置為True以推斷PDF中的表格結(jié)構(gòu)。
- chunking_strategy="by_title":設置文檔切分策略為按標題切分。
- max_characters=4000:設置每個塊的最大字符數(shù)為4000。
- new_after_n_chars=3800:在達到3800字符后開始新的塊。
- combine_text_under_n_chars=2000:將少于2000字符的文本組合在一起。
- image_output_dir_path=images_path:指定輸出圖像的目錄路徑。
可以通過命令獲取PDF圖片的信息,由于通過上面代碼將圖片保存到images目錄下面了,所以通過如下代碼展示圖片。
from IPython.display import Image
Image('images/figure-1-1.jpg')
從PDF 中抽取的圖片信息
為圖片信息產(chǎn)生摘要
下面這段代碼定義了一個名為ImageSummarizer的類,用于生成圖像內(nèi)容的摘要信息。
# 引入所需的庫
import base64
import os
# 從langchain包導入ChatOpenAI類和HumanMessage模塊
from langchain.chat_models import ChatOpenAI
from langchain.schema.messages import HumanMessage
# 定義圖像摘要類
class ImageSummarizer:
# 初始化函數(shù),設置圖像路徑
def __init__(self, image_path) -> None:
self.image_path = image_path
self.prompt = """你的任務是將圖像內(nèi)容生成摘要信息,以便檢索。
這些摘要將被嵌入并用于檢索原始圖像。請給出一個簡潔的圖像摘要,以便于檢索優(yōu)化。
"""
# 定義函數(shù)將圖像轉(zhuǎn)換為base64編碼
def base64_encode_image(self):
with open(self.image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode("utf-8")
# 定義摘要函數(shù)
def summarize(self, prompt = None):
# 獲取圖像的base64編碼數(shù)據(jù)
base64_image_data = self.base64_encode_image()
# 創(chuàng)建ChatOpenAI對象,使用gpt-4-vision預覽模型,最大token數(shù)為1000
chat = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=1000)
# 調(diào)用chat對象的invoke方法,發(fā)送包含文本和圖像的消息
response = chat.invoke(
[
#人類提示語的輸入
HumanMessage(
content=[
{
"type": "text",
"text": prompt if prompt else self.prompt
},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{base64_image_data}"},
},
]
)
]
)
# 返回base64編碼的圖像數(shù)據(jù)和響應內(nèi)容
return base64_image_data, response.content
以下是代碼的詳細解釋:
1.導入庫
導入base64和os庫,用于圖像編碼和操作系統(tǒng)相關功能。
從Langchain包中導入ChatOpenAI類和HumanMessage模塊,這些用于與OpenAI的聊天模型交互。
2.定義圖像摘要類 ImageSummarizer
__init__方法初始化圖像路徑和摘要生成的提示語。
base64_encode_image方法將圖像文件讀取并轉(zhuǎn)換為base64編碼,這種編碼格式適用于在網(wǎng)絡上傳輸圖像,便于圖片信息與GPT模型交互。
3. 定義摘要函數(shù) summarize
使用base64_encode_image方法獲取圖像的base64編碼數(shù)據(jù)。
創(chuàng)建ChatOpenAI對象,指定使用gpt-4-vision-preview模型,最大token數(shù)設為1000,用于處理圖像摘要任務。
使用chat.invoke方法,向模型發(fā)送包含文本提示和圖像數(shù)據(jù)的消息。文本提示用于指導模型生成圖像的摘要。
創(chuàng)建summarize函數(shù)的目的就是為了給圖片生成摘要,接下來就是調(diào)用該函數(shù)。下面這段代碼創(chuàng)建圖像數(shù)據(jù)和圖像摘要的列表,并遍歷指定路徑下的所有文件以生成這些信息。
# 創(chuàng)建圖像數(shù)據(jù)和圖像摘要的列表
image_data_list = []
image_summary_list = []
# 遍歷指定路徑下的所有文件
for img_file in sorted(os.listdir(images_path)):
# 檢查文件擴展名是否為.jpg
if img_file.endswith(".jpg"):
# 創(chuàng)建ImageSummarizer對象
summarizer = ImageSummarizer(os.path.join(images_path, img_file))
# 調(diào)用summarize方法生成摘要
data, summary = summarizer.summarize()
# 將base64編碼的圖像數(shù)據(jù)添加到列表
image_data_list.append(data)
# 將圖像摘要添加到列表
image_summary_list.append(summary)
代碼解釋:
1. 初始化列表
image_data_list和image_summary_list兩個列表被創(chuàng)建用于存儲圖像的base64編碼數(shù)據(jù)和對應的圖像摘要。
2.遍歷指定路徑下的所有文件
使用os.listdir(images_path)列出指定路徑(images_path)下的所有文件,并使用sorted函數(shù)對文件名進行排序。
3. 檢查和處理每個文件
通過if img_file.endswith(".jpg")檢查文件擴展名是否為.jpg,以確保只處理圖像文件。
對于每個.jpg文件,創(chuàng)建ImageSummarizer對象,傳入圖像的完整路徑。
調(diào)用summarize方法生成該圖像的摘要。
將返回的base64編碼圖像數(shù)據(jù)添加到image_data_list列表。
將返回的圖像摘要添加到image_summary_list列表。
最終會生成兩個列表:一個包含了圖像文件的base64編碼數(shù)據(jù),另一個包含了相應的圖像摘要,這些信息可以用于圖像檢索或其他處理。
我們通過如下代碼來查看圖片的摘要信息
image_summary_list
輸出結(jié)果如下:
['這個圖像包含了三個不同的圖表,提供了有關假日銷售增長、各行業(yè)一周和年迄今(YTD)的表現(xiàn)對比的數(shù)據(jù)。\n\n第一個圖表是一個柱狀圖,標題為“Holiday sales growth is set to return to its pre-pandemic pace”,展示了2010年至2023年間11月和12月銷售同比增長的實際數(shù)據(jù)和預測數(shù)據(jù)。藍色柱子代表實際數(shù)據(jù),條紋柱子代表預測數(shù)據(jù),藍色虛線代表2010-2019年平均增長率,綠色虛線代表2020-2022年平均增長率。\n\n第二個圖表是一個色塊圖,分為兩部分,展示了“V”, “B”, 和 “G”在不同的尺度(大、中、?。┫碌?周和年迄今(YTD)的表現(xiàn)。數(shù)值在色塊內(nèi)以白色文字顯示。\n\n第三個圖表是兩個并列的柱狀圖,分別顯示了不同行業(yè)在1周和年迄今(YTD)的表現(xiàn)。左側(cè)的藍色柱狀圖展示了一周的變化,右側(cè)的綠色柱狀圖展示了年迄今的變化。圖表的Y軸代表了百分比變化,X軸列出了不同的行業(yè)。\n\n摘要:三個圖表顯示假日銷售增長預計將恢復至疫情前水平,不同市場尺度(大、中、?。┑?周和年迄今表現(xiàn),以及不同行業(yè)的1周和年迄今表現(xiàn)數(shù)據(jù)。']
從結(jié)果可以看出GPT-4-Vision-Preview 模型對圖片是能夠識別,并且對一些細節(jié)也能夠把控。
識別表格和文本信息
圖片、表格和文本信息組成了PDF的完整內(nèi)容, 在識別了圖片信息之后,就需要對表格和文本信息下手了。
下面這段代碼定義了處理PDF文檔元素的過程。
# 定義一個基本模型Element,用于存儲文檔元素的類型和文本內(nèi)容
class Element(BaseModel):
type: str
text: Any
# 創(chuàng)建表格元素和文本元素的空列表
#表格信息
table_elements = []
#文本信息
text_elements = []
# 遍歷從PDF中分割出的所有元素
for element in raw_pdf_elements:
# 判斷元素是否為表格:非結(jié)構(gòu)化-文檔-元素-表格
if "unstructured.documents.elements.Table" in str(type(element)):
# 如果是表格,將其添加到表格元素列表
table_elements.append(Element(type="table", text=str(element)))
# 判斷元素是否為復合元素
elif "unstructured.documents.elements.CompositeElement" in str(type(element)):
# 如果是復合元素,將其添加到文本元素列表
text_elements.append(Element(type="text", text=str(element)))
代碼解釋如下:
1.定義Element基本模型
使用pydantic的BaseModel定義了一個名為Element的類,用于存儲文檔元素的類型(如表格或文本)和文本內(nèi)容。這個類使用類型注解str和Any定義了兩個屬性:type(元素類型)和text(元素內(nèi)容)。
2. 創(chuàng)建空列表以存儲表格和文本元素
table_elements和text_elements分別用于存儲表格信息和文本信息。
3. 遍歷PDF中的元素
對于從PDF文件中分割出的每個元素(在raw_pdf_elements中),代碼通過判斷元素的類型來分類處理:
如果元素是表格(unstructured.documents.elements.Table),則創(chuàng)建Element對象,并將其類型設為"table",文本內(nèi)容設為元素的字符串表示,然后將此對象添加到table_elements列表。
如果元素是復合元素(unstructured.documents.elements.CompositeElement),則以相似的方式處理,將其類型設為"text",并添加到text_elements列表。
在對PDF文檔中的不同元素進行分類和存儲,接下來就需要對其進行處理,對這些表格和文字進行總結(jié)。代碼如下:
# 導入所需模塊
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser
# 定義用于生成總結(jié)的提示文本
prompt_text = """
您負責簡潔地總結(jié)表格或文本塊,中文輸出。:
{element}
"""
# 從模板創(chuàng)建提示
prompt = ChatPromptTemplate.from_template(prompt_text)
# 創(chuàng)建總結(jié)鏈,結(jié)合提示和GPT-3.5模型
summarize_chain = {"element": lambda x: x} | prompt | ChatOpenAI(temperature=0, model="gpt-3.5-turbo") | StrOutputParser()
# 從表格元素中提取文本
tables = [i.text for i in table_elements]
# 使用總結(jié)鏈批量處理表格文本,設置最大并發(fā)數(shù)為5
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})
# 從文本元素中提取文本
texts = [i.text for i in text_elements]
# 使用總結(jié)鏈批量處理文本,設置最大并發(fā)數(shù)為5
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})
這段代碼用于生成表格和文本塊的總結(jié),利用LangChain和GPT-3.5模型:
1.導入模塊
導入LangChain的ChatOpenAI、ChatPromptTemplate和StrOutputParser模塊。
2.定義生成總結(jié)的提示文本
定義了一個用于指導模型總結(jié)表格或文本塊的提示文本模板。
3.創(chuàng)建提示和總結(jié)鏈
使用ChatPromptTemplate.from_template根據(jù)定義的提示文本創(chuàng)建提示。
創(chuàng)建一個名為summarize_chain的總結(jié)鏈,該鏈結(jié)合了提示、GPT-3.5模型(由于生成總結(jié)的能力不需要用到GPT-4,為了節(jié)省Token使用GPT-3.5),和字符串輸出解析器(StrOutputParser)。
4.處理表格和文本元素
從table_elements中提取表格文本,使用summarize_chain.batch方法批量處理這些文本,最大并發(fā)數(shù)設為5。
從text_elements中提取文本塊文本,同樣使用summarize_chain.batch批量處理,最大并發(fā)數(shù)設為5。
我們將總結(jié)的內(nèi)容打印如下:
表格和文字摘要信息
創(chuàng)建索引器
好了,目前為止我們將PDF中的圖片、表格和文本信息都逐一抽取出來了,并針對這些信息生成了摘要,其目的是方便后續(xù)搜索,在做好這一系列準備之后就需要安排上索引器了。索引器顧名思義就是對被搜索信息添加上索引,方便搜索之用。
下面這段代碼創(chuàng)建了一個多向量檢索器,用于存儲和檢索文本、表格和圖像數(shù)據(jù):
import uuid # 導入uuid庫,用于生成唯一標識符
# 導入所需的langchain模塊
from langchain.embeddings import OpenAIEmbeddings
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.schema.document import Document
from langchain.storage import InMemoryStore
from langchain.vectorstores import Chroma
id_key = "doc_id" # 設置文檔的唯一標識鍵
# 初始化多向量檢索器,初始為空,文字,圖片,表格
retriever = MultiVectorRetriever(
vectorstore=Chroma(collection_name="summaries", embedding_function=OpenAIEmbeddings()), # 使用OpenAI的嵌入方法
docstore=InMemoryStore(), # 使用內(nèi)存存儲文檔
id_key=id_key, # 設置文檔的唯一標識鍵
)
# 為文本添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in texts] # 為每個文本生成一個唯一的UUID
# 創(chuàng)建文本的文檔對象并添加到檢索器
summary_texts = [
Document(page_content=s, metadata={id_key: doc_ids[i]}) # 將文本封裝為文檔對象
for i, s in enumerate(text_summaries)
]
retriever.vectorstore.add_documents(summary_texts) # 將文本文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, texts))) # 將文本文檔的ID和內(nèi)容存儲在內(nèi)存存儲中
# 為表格添加唯一標識
table_ids = [str(uuid.uuid4()) for _ in tables] # 為每個表格生成一個唯一的UUID
# 創(chuàng)建表格的文檔對象并添加到檢索器
summary_tables = [
Document(page_content=s, metadata={id_key: table_ids[i]}) # 將表格封裝為文檔對象
for i, s in enumerate(table_summaries)
]
retriever.vectorstore.add_documents(summary_tables) # 將表格文檔添加到向量存儲中
retriever.docstore.mset(list(zip(table_ids, tables))) # 將表格文檔的ID和內(nèi)容存儲在內(nèi)存存儲中
# 為圖像添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in image_data_list] # 為每個圖像生成一個唯一的UUID
# 創(chuàng)建圖像的文檔對象并添加到檢索器
summary_images = [
Document(page_content=s, metadata={id_key: doc_ids[i]}) # 將圖像封裝為文檔對象
for i, s in enumerate(image_summary_list)
]
retriever.vectorstore.add_documents(summary_images) # 將圖像文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, image_data_list))) # 將圖像文檔的ID和內(nèi)容存儲在內(nèi)存存儲中
代碼解釋:
1. 初始化多向量檢索器
使用Chroma作為向量存儲,它利用OpenAI嵌入方法將文檔轉(zhuǎn)換為向量形式。
使用InMemoryStore作為文檔存儲,這是一種將文檔存儲在內(nèi)存中的方法。
設置id_key為文檔的唯一標識鍵。
2. 處理文本數(shù)據(jù)
為每個文本創(chuàng)建唯一標識符(UUID)。
將文本總結(jié)封裝為Document對象,并添加到向量存儲和文檔存儲中。
3. 處理表格數(shù)據(jù)
類似地,為每個表格創(chuàng)建UUID。
將表格總結(jié)封裝為Document對象,并添加到向量存儲和文檔存儲中。
4. 處理圖像數(shù)據(jù)
為每個圖像創(chuàng)建UUID。
將圖像總結(jié)封裝為Document對象,并添加到向量存儲和文檔存儲中。
這段代碼建立了一個系統(tǒng),可以存儲和檢索多種類型的文檔數(shù)據(jù),包括文本、表格和圖像,利用唯一標識符來管理每個文檔。這對于處理和組織大量復雜數(shù)據(jù)非常有用。
生成多模態(tài)查詢提示語
下面這段代碼包含多個函數(shù),用來處理和展示圖像與文本數(shù)據(jù)。
from PIL import Image
from IPython.display import HTML, display
import io
import re
# 顯示基于base64編碼的圖片
def plt_img_base64(img_base64):
display(HTML(f''))
# 檢查base64數(shù)據(jù)是否為圖片
def is_image_data(b64data):
"""
通過查看數(shù)據(jù)開頭來檢查base64數(shù)據(jù)是否為圖片
"""
image_signatures = {
b"\xFF\xD8\xFF": "jpg",
b"\x89\x50\x4E\x47\x0D\x0A\x1A\x0A": "png",
b"\x47\x49\x46\x38": "gif",
b"\x52\x49\x46\x46": "webp",
}
try:
header = base64.b64decode(b64data)[:8] # 解碼并獲取前8個字節(jié)
for sig, format in image_signatures.items():
if header.startswith(sig):
return True
return False
except Exception:
return False
# 分離base64編碼的圖片和文本
def split_image_text_types(docs):
"""
分離base64編碼的圖片和文本
"""
b64_images = []
texts = []
for doc in docs:
# 檢查文檔是否為Document類型并提取page_content
if isinstance(doc, Document):
doc = doc.page_content
#是圖片
if is_image_data(doc):
b64_images.append(doc)
else:
texts.append(doc)
return {"images": b64_images, "texts": texts}
# 根據(jù)數(shù)據(jù)生成提示信息
def img_prompt_func(data_dict):
messages = []
# 如果存在圖片,則添加到消息中
#圖片的信息單獨拿出來, 需要和提示語一起傳給大模型的。
if data_dict["context"]["images"]:
for image in data_dict["context"]["images"]:
image_message = {
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image}"},
}
messages.append(image_message)
# 添加文本到消息
formatted_texts = "\n".join(data_dict["context"]["texts"])
text_message = {
"type": "text",
"text": (
"You are financial analyst.\n"
"You will be given a mixed of text, tables, and image(s) usually of charts or graphs.\n"
"Use this information to answer the user question in the finance. \n"
f"Question: {data_dict['question']}\n\n"
"Text and / or tables:\n"
f"{formatted_texts}"
),
}
messages.append(text_message)
print(messages)
return [HumanMessage(content=messages)]
代碼解釋:
1. 顯示基于base64編碼的圖片 (plt_img_base64)
這個函數(shù)的目的是顯示base64編碼的圖片。
2. 檢查base64數(shù)據(jù)是否為圖片 (is_image_data)
通過檢查base64編碼數(shù)據(jù)的開頭是否符合常見圖像格式(如JPEG, PNG, GIF, WEBP)的簽名來判斷數(shù)據(jù)是否為圖片。
3. 分離base64編碼的圖片和文本 (split_image_text_types)
此函數(shù)遍歷文檔集合,使用is_image_data函數(shù)來區(qū)分哪些是圖像數(shù)據(jù),哪些是文本,然后將它們分別存儲在兩個列表中。
4. 根據(jù)數(shù)據(jù)生成提示信息 (img_prompt_func)
此函數(shù)生成用于向LangChain的大模型傳遞的消息。對于每個圖像,創(chuàng)建包含圖像URL的消息;對于文本數(shù)據(jù),創(chuàng)建包含提示文本和問題的消息。
需要對"text"進行特別說明,它定義消息的具體文本內(nèi)容。
首先說明了用戶角色:"You are financial analyst."(你是一名財務分析師)。
緊接著說明任務類型和數(shù)據(jù)格式:"You will be given a mixed of text, tables, and image(s) usually of charts or graphs."(你將會得到包含文本、表格和圖像(通常是圖表或圖形)的混合數(shù)據(jù))。
提示使用這些信息回答財務問題:"Use this information to answer the user question in the finance."(使用這些信息來回答財務方面的用戶問題)。
{data_dict['question']}:這里{}內(nèi)的部分是Python字符串格式化的占位符,用于插入變量data_dict中的'question'鍵所對應的值,即用戶提出的問題。
"Text and / or tables:\n":提示文本,說明接下來的內(nèi)容是文本和/或表格。
f"{formatted_texts}":再次使用字符串格式化將變量formatted_texts(格式化后的文本數(shù)據(jù))插入到消息中。
實現(xiàn)金融分析查詢
萬事俱備只欠東風,現(xiàn)在開始利用GPT-4-Vision-Preview模型進行推理了, 我們嘗試對索引器提問,看看結(jié)果如何。
下面這段代碼實現(xiàn)了一個基于RAG(Retrieval Augmented Generation)模型的查詢處理管道。
from langchain.schema.runnable import RunnableLambda, RunnablePassthrough
# 創(chuàng)建ChatOpenAI模型實例
model = ChatOpenAI(temperature=0, model="gpt-4-vision-preview", max_tokens=1024)
# 構(gòu)建RAG(Retrieval Augmented Generation)管道
chain = (
{
"context": retriever | RunnableLambda(split_image_text_types), # 使用檢索器獲取內(nèi)容并分離圖片和文本
"question": RunnablePassthrough(), # 傳遞問題
}
| RunnableLambda(img_prompt_func) # 根據(jù)圖片和文本生成提示信息
| model # 使用ChatOpenAI模型生成回答
| StrOutputParser() # 解析模型的字符串輸出
)
# 定義查詢問題
query = "Which year had the highest holiday sales growth?"
# 調(diào)用chain的invoke方法執(zhí)行查詢
chain.invoke(query)
代碼解釋:
1.創(chuàng)建ChatOpenAI模型實例
使用ChatOpenAI類創(chuàng)建模型實例,配置了溫度參數(shù)為0、使用的模型為gpt-4-vision-preview,最大token數(shù)設為1024。
2.構(gòu)建RAG管道 (chain)
retriever | RunnableLambda(split_image_text_types):首先使用retriever檢索內(nèi)容,然后通過RunnableLambda調(diào)用split_image_text_types函數(shù)分離圖片和文本。
RunnablePassthrough():用于直接傳遞查詢問題。
RunnableLambda(img_prompt_func):根據(jù)檢索到的圖片和文本生成提示信息。
model:使用配置好的ChatOpenAI模型根據(jù)生成的提示信息生成回答。
StrOutputParser():解析模型輸出的字符串。
3. 定義查詢問題 (query)
定義了一個字符串query作為查詢問題,例如:“Which year had the highest holiday sales growth?”(哪一年的假日銷售增長最高?)。
4. 執(zhí)行查詢 (chain.invoke(query))
調(diào)用chain的invoke方法執(zhí)行查詢,根據(jù)問題和檢索到的信息生成答案。
總的來說,這個代碼片段建立了一個復雜的查詢處理流程,結(jié)合了內(nèi)容檢索、數(shù)據(jù)分離、提示生成和模型回答,用于處理和回答基于文本和圖像數(shù)據(jù)的復雜問題。
來查看輸出的結(jié)果:
Based on the chart provided, the year with the highest holiday sales growth is 2021, with a growth rate of 12.7%. This is indicated by the tallest bar in the bar chart under the "Actual" section, which represents the actual year-over-year growth rate for November and December sales.
我們將其翻譯成中文如下:
根據(jù)提供的圖表,2021年的假日銷售增長率最高,為12.7%。這一點從“實心”部分的柱狀圖中最高的柱子可以看出,該柱子代表了11月和12月的年度同比增長率。
PDF中圖表部分與大模型回應對比
通過大模型的回應,再對比PDF中描述假日銷售增長率的柱狀圖,可以明顯發(fā)現(xiàn)2021年的增長率是最高的,為12.7%,并且對于柱子“實心”的描述也是正確的??磥鞳penAI提供的多模態(tài)功能起到了作用。
總結(jié)
文章通過分析和實例演示,清晰地展示了OpenAI的最新技術(shù)在多模態(tài)數(shù)據(jù)處理方面的潛力和應用前景。通過對unstructured庫、Poppler工具和Tesseract-OCR工具的細致介紹和代碼實現(xiàn)的解讀,文章不僅為讀者提供了理論知識,也指導了如何實際操作和應用這些工具。文章的結(jié)論強調(diào)了gpt-4-vision-preview模型在提高分析效率和減少人工錯誤方面的價值。
作者介紹
崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗,10年分布式架構(gòu)經(jīng)驗。