GenAI應(yīng)用構(gòu)建者必須解決新的RAG復(fù)雜性 原創(chuàng)
編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
盡管RAG通過增強生成式AI應(yīng)用的專業(yè)化和準確性帶來了顯著的好處,但它也帶來了一系列復(fù)雜的挑戰(zhàn)。
檢索增強生成(RAG)正迅速成為生成式AI應(yīng)用的一個必要元素。RAG通過從基礎(chǔ)模型的訓(xùn)練語料庫之外的外部數(shù)據(jù)存儲中增強相關(guān)信息,賦予預(yù)訓(xùn)練AI模型專業(yè)化的超級能力,使其在垂直或特定任務(wù)應(yīng)用中精確和準確。然而,RAG也為您的GenAI堆棧引入了關(guān)于流量、安全和性能的新要求。隨著RAG的到來,企業(yè)需要用更復(fù)雜的AI基礎(chǔ)設(shè)施來解決新的復(fù)雜性和挑戰(zhàn)。
1.RAG為什么火
RAG的工作原理是通過增強AI推理,使用來自不包含在基礎(chǔ)模型訓(xùn)練語料庫中的外部數(shù)據(jù)存儲的相關(guān)信息。這種方法為AI模型提供了特定領(lǐng)域的知識,而不需要重新訓(xùn)練通用模型。一般來說,RAG模型生成的響應(yīng)在上下文中更豐富、更準確、事實一致性更強。RAG甚至可以用于提高開放域AI應(yīng)用的性能。RAG還通過減少對模型內(nèi)數(shù)據(jù)存儲的需求,使AI推理更有效率。這有幾個有益的溢出效應(yīng)。
RAG模型可以更小、更高效,因為它們不需要在參數(shù)中編碼所有可能的知識。相反,它們可以根據(jù)需要動態(tài)獲取信息。這可以導(dǎo)致內(nèi)存需求減少和計算成本降低,因為模型不需要在內(nèi)部存儲和處理大量信息。
- 較低的訓(xùn)練成本:雖然檢索機制主要在推理期間使用,但能夠訓(xùn)練依賴于外部數(shù)據(jù)源的較小模型可以降低整體培訓(xùn)成本。較小的模型通常需要較少的計算能力和時間來訓(xùn)練,從而節(jié)省成本。
- 可擴展性:RAG架構(gòu)可以通過在生成模型和檢索系統(tǒng)之間分布負載來更有效地擴展。這種分離允許更好的資源分配和優(yōu)化,減少任何單個組件的總體計算負擔。
- 輕松更新:由于RAG使用可以輕松更新的外部知識庫,因此無需頻繁地重新訓(xùn)練整個模型以納入新信息。這減少了持續(xù)、昂貴的再培訓(xùn)過程的需求,允許成本高效的模型知識更新。
- 實時相關(guān)性:由于訓(xùn)練模型所需的時間,許多類型的數(shù)據(jù)相對較快地過時。通過實時抓取數(shù)據(jù),RAG確保用于生成的信息始終是最新的。這也使GenAI應(yīng)用更適合實時任務(wù),如汽車中的逐轉(zhuǎn)向指導(dǎo)或天氣報告,僅舉兩個例子。
雖然RAG的好處是顯而易見的,但添加一個有效的查詢、路由和流量管理新層增加了復(fù)雜性和安全挑戰(zhàn)。
2.流量管理
RAG的一個主要挑戰(zhàn)是管理流量的復(fù)雜性增加。RAG架構(gòu)依賴于實時檢索相關(guān)文檔或信息。這可能會導(dǎo)致數(shù)據(jù)流量大幅增加,如果不加以適當管理,可能會導(dǎo)致瓶頸。這也意味著應(yīng)用程序的性能不僅取決于最終用戶從延遲和響應(yīng)性角度體驗到的內(nèi)容,還取決于信息質(zhì)量。如果RAG速度慢,GenAI可能仍然響應(yīng),但輸出質(zhì)量較低。
3.安全和合規(guī)性問題
將RAG集成到GenAI應(yīng)用中時,安全是另一個主要關(guān)注點。檢索通常需要訪問專有數(shù)據(jù)庫或知識庫,增加了潛在的攻擊面。確保這些數(shù)據(jù)源的完整性和安全性對于防止數(shù)據(jù)泄露或未經(jīng)授權(quán)的訪問至關(guān)重要。如果被訪問的數(shù)據(jù)受到金融或醫(yī)療保健行業(yè)等監(jiān)管要求的約束,RAG還可能引入新的合規(guī)性問題。RAG層通常是這些數(shù)據(jù)的邏輯位置,但這也意味著RAG數(shù)據(jù)庫必須符合所有必要的法規(guī)(HIPAA、Gramm-Leach Bliley、SOC2等)。
團隊應(yīng)采用強大的身份驗證和授權(quán)機制來保護其RAG基礎(chǔ)設(shè)施和數(shù)據(jù)檢索過程。這也意味著為訪問RAG堆棧的任何服務(wù)(內(nèi)部或外部)采用強大的API安全。對RAG數(shù)據(jù)進行傳輸和靜止時的加密可以保護敏感信息。由于RAG是大部分敏感數(shù)據(jù)所在的地方,因此這也是實施更嚴格的身份驗證策略和零信任部署的好地方。
4.數(shù)據(jù)質(zhì)量和相關(guān)性
RAG系統(tǒng)的有效性在很大程度上取決于它檢索的數(shù)據(jù)質(zhì)量。質(zhì)量差或不相關(guān)的數(shù)據(jù)可能會導(dǎo)致生成模型輸出不準確或無意義。對于實時應(yīng)用,數(shù)據(jù)的時效性也至關(guān)重要。如果RAG系統(tǒng)是從第三方數(shù)據(jù)源拉取的,那么GenAI應(yīng)用就會受到供應(yīng)鏈數(shù)據(jù)質(zhì)量風險的影響。對于企業(yè)應(yīng)用或醫(yī)學(xué)、法律等敏感領(lǐng)域的應(yīng)用,對由于數(shù)據(jù)質(zhì)量差而導(dǎo)致的不良響應(yīng)的容忍度幾乎為零。
為了克服這一點,團隊應(yīng)投資于維護高質(zhì)量和最新的數(shù)據(jù)源,并構(gòu)建帶有冗余質(zhì)量檢查的自動化數(shù)據(jù)管道。他們還應(yīng)該持續(xù)監(jiān)控用戶行為和反饋,以發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題。對系統(tǒng)輸出的連續(xù)監(jiān)控和評估也可以提供需要改進的領(lǐng)域的見解。
5.不要被RAG搞得精疲力盡
如果你正在提供GenAI應(yīng)用程序,您可能已經(jīng)在現(xiàn)在或?qū)淼哪硞€時候使用了RAG。好處是巨大的。然而,成功的RAG推出需要規(guī)劃和思考。盡管RAG通過增強生成式AI應(yīng)用的專業(yè)化和準確性帶來了顯著的好處,但它也帶來了一系列復(fù)雜的挑戰(zhàn)。有效的流量管理、嚴格的安全措施、性能優(yōu)化、確保數(shù)據(jù)質(zhì)量和處理集成復(fù)雜性對于在GenAI堆棧中成功實施RAG至關(guān)重要。對于正在努力解決GenAI挑戰(zhàn)的應(yīng)用程序交付團隊來說,RAG是一個強大的方法,可以使AI應(yīng)用程序中的幾乎所有內(nèi)容都運行得更好——只要有適當?shù)臏蕚浜托膽B(tài)。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征
