自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM) 原創(chuàng)

發(fā)布于 2024-11-11 11:24
瀏覽
0收藏

01、概述

在過去的幾年中,大型語言模型(LLMs)引領(lǐng)了人工智能領(lǐng)域的革命。然而,盡管這些模型在理解和生成語言方面表現(xiàn)出色,它們?nèi)匀淮嬖谝恍┕逃械木窒扌?。主要包括知識截止日期帶來的信息更新滯后、生成貌似正確但實際上錯誤的信息,以及知識庫中可能存在的不準確信息和偏見。這些問題使得我們必須尋找解決方案,以提升LLMs的性能,特別是在特定領(lǐng)域的應(yīng)用上。

02、LLM的微調(diào)(Fine-Tuning)

為了應(yīng)對上述問題,微調(diào)LLM是一種有效的方法。這一過程通過監(jiān)督學(xué)習(xí)來補充模型的內(nèi)部知識,具體做法是引入額外的問答對。例如,一些開源工具如WizardLM可以利用給定的訓(xùn)練數(shù)據(jù)集生成這些問答對。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)-AI.x社區(qū)

然而,定期微調(diào)并非易事,尤其是在信息快速變化的情況下。微調(diào)適用的場景通常是數(shù)據(jù)不頻繁變化的領(lǐng)域。此外,微調(diào)并不能完全消除幻覺(hallucination)的問題。模型無法明確引用信息的來源,這使得我們難以判斷信息是來源于預(yù)訓(xùn)練數(shù)據(jù)還是微調(diào)數(shù)據(jù)。微調(diào)還需要設(shè)置訓(xùn)練管道,并使用具備足夠處理能力的GPU。此外,微調(diào)并沒有任何訪問控制機制,所有更新的知識對所有用戶開放。

03、檢索增強生成(RAG)

檢索增強生成(RAG)為保持知識更新和減少幻覺提供了一種解決方案。RAG允許用戶構(gòu)建自己的特定知識庫,并將LLM的功能限制在該知識庫內(nèi)。這對希望僅訪問非公開內(nèi)部數(shù)據(jù)源的信息組織特別有利,尤其是面對快速變化的數(shù)據(jù)時。此外,RAG還為組織提供了一個安全、隔離的環(huán)境,以便在個性化對話代理中利用其獨特的數(shù)據(jù)。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)-AI.x社區(qū)

RAG的工作流程可以概括為:用戶的提示被轉(zhuǎn)換為嵌入(embeddings),與向量數(shù)據(jù)庫匹配,并結(jié)合檢索到的數(shù)據(jù)通過LLM生成響應(yīng)。這種方式使得信息檢索更為高效,確保語義相似的信息被相鄰存儲,快速響應(yīng)用戶的查詢。

向量數(shù)據(jù)庫的作用

外部數(shù)據(jù)存儲在向量數(shù)據(jù)庫中,這是一種將信息以嵌入形式存儲的高維系統(tǒng)。這種數(shù)據(jù)庫通過語義相似性來索引和存儲項,使得信息檢索速度更快。外部數(shù)據(jù)首先使用嵌入模型(如OpenAI的Ada2、Cohere的co等)轉(zhuǎn)換為數(shù)值表示(嵌入)。然后,將這些嵌入分成適合LLM上下文窗口的適當(dāng)大小的塊。定期將新數(shù)據(jù)集成到向量數(shù)據(jù)庫中也相對簡單,開源向量數(shù)據(jù)庫如Weaviate、Milvus、Elasticsearch和Faiss都可以用于此目的。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)-AI.x社區(qū)

對于每個查詢或提示,嵌入模型首先將其轉(zhuǎn)換為嵌入,然后利用這些嵌入從向量數(shù)據(jù)庫中查找相關(guān)信息。隨后,將組合后的提示和信息嵌入傳遞給大型語言模型,生成最終的響應(yīng)。

結(jié)構(gòu)化數(shù)據(jù)在RAG中的整合

除了網(wǎng)頁、PDF、PowerPoint演示文稿和文章等非結(jié)構(gòu)化數(shù)據(jù)源,結(jié)構(gòu)化數(shù)據(jù)(如知識圖譜)也可以作為重要的信息來源。使用知識圖譜-檢索增強生成(KG-RAG)能夠為提示提供更強大和一致的信息。得益于標準化的詞匯和自定義概念,知識圖譜有助于緩解基于向量數(shù)據(jù)庫的RAG中因語言差異造成的低質(zhì)量結(jié)果的問題。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)-AI.x社區(qū)

04、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合

知識圖譜的另一個優(yōu)點是能夠同時容納結(jié)構(gòu)化和非結(jié)構(gòu)化信息。舉個例子,考慮一個公司利用知識圖譜來管理和導(dǎo)航客戶關(guān)系及銷售流程的場景。知識圖譜可能包含銷售人員、客戶、交易和產(chǎn)品等節(jié)點。它們之間的關(guān)系可能包括“管理”、“購買”或“談判”。結(jié)構(gòu)化數(shù)據(jù)可能涉及銷售數(shù)據(jù)、客戶聯(lián)系信息和產(chǎn)品規(guī)格,而非結(jié)構(gòu)化數(shù)據(jù)則可能是銷售通話記錄、電子郵件交流和會議紀要。這種設(shè)置將使得聊天機器人能夠回答諸如“與客戶X的交易處于談判階段的有哪些?”或“展示關(guān)于產(chǎn)品Y的最近溝通記錄”等查詢。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)-AI.x社區(qū)

開源框架如LangChain和LlamaIndex可以促進同時使用非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的RAG應(yīng)用程序的開發(fā)。LlamaIndex能夠自動化構(gòu)建知識圖譜過程中的主要步驟,如實體提取、關(guān)系提取和圖譜填充。流行的圖數(shù)據(jù)庫Neo4j可以用于存儲和檢索RAG應(yīng)用中的結(jié)構(gòu)化和非結(jié)構(gòu)化信息。OpenAI與LangChain和Neo4j的功能可以用于從非結(jié)構(gòu)化數(shù)據(jù)中構(gòu)建知識圖譜。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)-AI.x社區(qū)

05、結(jié)論

隨著技術(shù)的不斷發(fā)展,增強大型語言模型的能力變得愈加重要。通過整合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),我們不僅可以提高LLM的知識更新能力,還能顯著改善其在特定領(lǐng)域的表現(xiàn)。檢索增強生成(RAG)和知識圖譜的結(jié)合為組織提供了一個靈活、安全的環(huán)境,以更有效地利用其獨特數(shù)據(jù)。這種方法的成功實施,將為未來的人工智能應(yīng)用開辟新的可能性,讓我們對LLM的前景充滿期待。

?

本文轉(zhuǎn)載自公眾號Halo咯咯  作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/1jQFYAoxwwh9NhCvSLrfpQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦