2024 年數據管理在人工智能中的四大趨勢
在 2023 年即將結束之際,我們會發(fā)現隨著 ChatGPT 的引入,世界發(fā)生了不可逆轉的變化。人工智能的主流化繼續(xù)以強勁勢頭推進,我們如何應對這些不斷變化的時代需要信念的飛躍。人工智能可能同時具有潛在的變革性和不準確性!但我們的未來不僅僅是人工智能,因為我們仍然需要繼續(xù)提高數據管理水平。
2024 年的數據與人工智能的趨勢與管道和激活有關,特別是對于關注數據質量、平臺架構和治理的人工智能而言。服務于多種信息角色的自主代理和任務助理可以部分或完全自動化所需的活動。此外,用于生成高質量數據集的工具可以在人工智能模型開發(fā)生命周期的各個階段提供不斷改進的模型。以下是 2024 年的四個主要趨勢:
- 智能數據平臺
- 人工智能代理
- 個性化人工智能堆棧
- 人工智能治理
一、智能數據平臺
如今的數據平臺很大程度上是一個“記錄系統(tǒng)”堆棧,它將來自各種企業(yè)數據庫和應用程序的數據匯集到一個公共存儲庫中。當前,該堆棧的主要用例是報告和分析,在極少數情況下是數據驅動的自動化。還有什么比在數據平臺中注入智能來加速人工智能數據產品和應用程序在整個企業(yè)中的采用更好的呢?
我們將智能數據平臺定義為大語言模型(LLM)基礎設施是核心數據平臺一部分的平臺。該智能層可用于將智能注入兩種應用程序:
- 核心數據應用程序:這些應用程序包括人工智能驅動的數據操作、語義搜索和發(fā)現代理、人工智能輔助攝取工具、人工智能輔助數據準備和轉換以及用于數據分析的對話式人工智能代理。當代理通過從錯誤中學習進行推理時,此類應用程序的自動化程度只會變得更好。
- 智能應用:智能化的人工智能代理是第二種應用趨勢。
下圖顯示了智能數據平臺以及 AI 代理和應用程序的示意圖。
智能數據平臺是當前以倉庫/湖為中心的數據平臺環(huán)境的下一個演進。隨著對簡化消費界面的渴望,智能應用程序將推動未來十年的生產力。到 2024 年,企業(yè)需要認真審視當前的數據平臺架構,并解決與數據孤島、數據質量和重復以及堆棧組件碎片相關的挑戰(zhàn)。高質量、精選的數據和元數據是生成式人工智能計劃成功的關鍵。智能數據平臺以及相關的數據應用程序將為人工智能用例支持提供基礎數據和建模層基礎設施。
二、人工智能代理
“人工智能代理”一詞在 2023 年下半年成為一個流行詞。人工智能代理是一個程序或系統(tǒng),可以感知其環(huán)境、推理、將給定任務分解為一組步驟、做出決策并采取行動。像人類一樣自主地完成這些特定任務的行動。
語言理解的終極意味著人類可以通過自然語言界面與人工智能程序進行對話、指導和互動。但人工智能程序除了幫助和回答與信息任務相關的問題(例如搜索、提取或生成代碼和/或圖像)之外還能做更多的事情嗎?
人工智能代理能否擴大當今需要更多人工干預的任務自動化領域以及需要高層次思考、推理和解決問題的認知任務?例如,執(zhí)行市場分析、風險評估和投資組合優(yōu)化等任務?;蛘?,執(zhí)行迄今為止由于復雜性或成本而不太可能自動化的復雜任務。當今人工智能代理/技術承擔顯著提高業(yè)務生產力和人機界面的任務的能力主要因為有經濟價所值驅動。
早期的研究嘗試圍繞數學相關活動、思想鏈/圖和基于LLM的多步驟推理框架來展示自動化復雜任務的能力。這些早期的預言遠未達到構建完全自主的信息代理應用程序所需的目標,但它們展示了可能性的潛力。
下顯示了一種架構,該架構提供了一種通用范式,該范式結合了推理和行動的進步以及圍繞該范式的早期工作,例如“思想鏈”,以解決各種語言推理和決策任務。這種推理和行動與語言模型的耦合使這些程序能夠執(zhí)行決策任務。這種范式被稱為“ReAct”。
人工智能代理可以協(xié)助數據任務的自動化,例如數據分析、BI 儀表板開發(fā)、流程優(yōu)化、數據輸入、調度或基本客戶支持。他們還可以自動化整個工作流程,例如供應鏈優(yōu)化和庫存管理。下面描述人工智能代理所采取的步驟,使用戶能夠通過動態(tài)創(chuàng)建想法/計劃并調整行動計劃來動態(tài)執(zhí)行推理任務,同時還可以與外部交互將附加信息合并到推理中。
- 該流程的第一步是選擇一個任務,并提示LLM將一個問題分解為一堆想法(子提示)。
- 步驟2、3、4,進一步使LLM能夠打破這些一堆想法,并思考和推理出這些子想法。
- 第 5 步到第 8 步使 LLM 能夠進行外部交互,例如根據完成想法/任務所需的信息提取信息。
- 自由形式的思想/行動集成用于實現不同的任務,例如分解問題、提取信息、執(zhí)行常識/算術推理、指導搜索制定和綜合最終答案。
人工智能信息代理是一種趨勢,這可能會持續(xù)多年;預計 2024 年將在代理基礎設施/工具以及早期采用方面取得重大進展。需要指出的是,我們如何理解當前人工智能架構承擔更復雜任務的潛力,很大程度上仍然取決于潛力,而且還有很多未解決的問題。
盡管如此,企業(yè)必須以一種實用的方法來構建代理應用程序,并期望在某種程度上,與當前人工智能技術的差距將呈現出越來越復雜的自動化,而且這種差距可能會逐年縮小。它還必須考慮未來 12 個月內各個用例可能實現的自動化程度。此類項目的進化路徑/旅程可能會通過此類努力取得更好的成功。
三、個性化人工智能堆棧
第三個趨勢包括通過三種方法個性化或定制模型和/或其響應:
- 使用更多上下文數據微調模型。
- 改進用于訓練或微調模型的數據集,包括合成數據。
- 使用矢量搜索來利用具有相關數據的模型。
A 微調模型
雖然像 OpenAI 的 GPT-4 這樣的基礎模型為企業(yè)提供了一個機會來原型化生成式 AI 模型用例的潛力,但它們并沒有充分解決企業(yè)數據的隱私和安全性、所使用的可視化數據的開放性等問題訓練此類模型的能力,針對特定要求對其進行微調的能力,實現任何給定任務所需的準確性以及總體成本價值主張。
為了超越原型和獲得更好結果的需求,我們可能會看到定制或特定任務的小語言模型 (SLM) 的興起,特別是在利基和垂直應用程序中。這些模型將利用基礎/預訓練基礎模型作為訓練 SLM 或使用領域/企業(yè)數據進行微調的起點。下圖顯示了模型微調的生命周期
簡化定制 SLM 的開發(fā)、實現此類模型的生命周期管理并將其從實驗到部署仍然是一項挑戰(zhàn):
- 基礎LLM選擇:有多個、易于理解的選項,但缺乏支持性的詳細評估可能會使選擇基礎模型變得混亂和令人畏懼。
- 參考數據集:在訓練和RLHF微調以及模型評估和測試過程中需要參考數據集。參考數據集的可用性和創(chuàng)建仍然很費力,通常是主觀的,并且很大程度上依賴于人類。原始任務/領域特定或合成數據的可用性可以顯著加快模型開發(fā)的速度并縮短開發(fā)時間。
- 微調模型:將指令微調模型與現實世界對模型性能的期望進行調整和調整所需的關鍵訓練步驟之一是應用人類反饋。這一步驟使模型能夠減少幻覺、偏見、危害并提高安全性。參數高效微調 (PEFT) 和 RLHF 是流行的常用技術,有助于根據任務/領域特定上下文微調基礎 LLM。盡管現有技術得到了顯著改進,但由于語言響應驗證的創(chuàng)造性,高質量的任務/領域特定提示響應對/數據集和參考數據集(包括所需的人類反饋)仍然是手動的、費力的,并且容易發(fā)生變化。
- 測試和評估模型:對處理復雜的自然語言的微調模型的評估取決于任務創(chuàng)造力和響應評估,這通常是手動和主觀的。雖然現在可以使用各種指標和技術,但它們通常不足以評估模型。來自另一個參考或高級模型的響應等技術用于生成參考評估數據集,以幫助提高評估階段的效率。模型還必須經過安全性、偏差和危害測試。
微調模型所需任務的成功取決于仍不成熟的人工智能治理領域。人工智能治理是一種上升趨勢,需要提供模型的可解釋性,以建立信任并滿足監(jiān)管合規(guī)性。它還用于實時監(jiān)控任何性能下降、負責任的使用、成本和產品可靠性問題的及時響應。
圍繞 AI 模型開發(fā)、生命周期管理、部署和監(jiān)控的工具可用性的興起,解決上述挑戰(zhàn)并簡化模型開發(fā)和生命周期管理,是 SLM 和任務特定模型成功的關鍵。
請注意,特定任務的人工智能模型仍處于實驗階段,還有很多未解決的問題。這將導致大量此類實驗可能會失敗。盡管如此,這個主題在 2024 年整個生態(tài)系統(tǒng)的投資將會增加。
B 高質量數據生態(tài)系統(tǒng)
雖然使用數萬億個參數進行訓練的模型(例如 OpenAI 的 GPT-4)增加了它們的知識庫,但最近的實驗表明,使用更好數據的更小模型可能能夠超越 OpenAI 現在所說的非常大的 LLM 的“前沿模型”。 ”
通用模型和自定義模型的高質量數據集的可用性仍然是一個大問題,且不受隱私和版權的影響。大多數LLM預培訓都是基于基于互聯(lián)網的網絡抓取數據集、書籍和一些源于學術界或研究的實驗數據集。雖然可以為微調階段獲取一些數據集,但根據任務/領域,此類現成數據集的選擇會進一步縮小。
通常,甚至沒有足夠的數據來訓練模型。以欺詐為例。據推測,組織并沒有充斥著猖獗的欺詐行為,因此對欺詐場景的了解有限。但他們需要使用廣泛的欺詐可能性來訓練模型。合成數據是提供高質量數據以提高LLM研究和開發(fā)速度的答案。
合成數據可以定義為不是直接從任何現實世界數據獲得的數據,而是模仿現實世界數據的屬性和特征而人為創(chuàng)建的數據。綜合數據集可能是提供高質量數據的辦法,以提高許多用例中的LLM研究和開發(fā)速度。
使用合成數據的主要優(yōu)點之一是它可以保護最終用戶的隱私,遵守版權問題,并使企業(yè)能夠滿足原始來源的隱私要求。也避免了信息的無意泄露,同時模型研發(fā)不斷取得進展。合成數據對于滿足訓練大型語言模型不斷增長的需求非常重要。通過正確的解決方案,可以以經濟高效的方式解決大型語言模型所需的高質量數據,并為人工智能研究、模型開發(fā)和評估提供持續(xù)動力。有一些想法可以使用前沿模型本身生成合成數據集。盡管如此,很明顯,創(chuàng)建和使用合成數據集有可能解決日益饑餓的模型對更多數據的需求。
我們知道,考慮到任務的性質,這樣的生態(tài)系統(tǒng)/服務線在解決高質量數據集的需求方面發(fā)揮作用有很大的動力。如今,各種初創(chuàng)公司和服務提供商專門致力于圍繞通用培訓數據需求提供帶注釋的圖像和文本數據。然而,有可能進一步擴展這些服務,以包含領域/任務特定數據集的需求,這一趨勢可能會在 2024 年出現勢頭。
C 集成向量數據庫
選擇矢量數據庫具有挑戰(zhàn)性。有多種因素在起作用,包括可擴展性、延遲、成本、每秒查詢次數等。傳統(tǒng)數據庫的主要用例是關鍵字查詢與使用上下文搜索。大多數企業(yè)應用程序可能需要這兩種功能。因此,我們的選擇是在傳統(tǒng) DBMS 中引入矢量數據庫功能。
大多數未來的企業(yè)人工智能應用程序都需要處理結構化和非結構化數據。管理多個數據庫會導致效率低下、潛在的競爭條件、OLAP 數據與矢量數據庫中的矢量索引之間的數據不一致以及導致數據不一致的管理開銷。
因此,集成矢量數據庫最適合需要最佳查詢功能和語義搜索的應用程序。例如,矢量數據庫不僅可以嵌入組織的財務報告,還可以對這些數據模型建立索引并將它們存儲在同一數據庫中,同時提供語義/相似性搜索功能。
許多 DBMS 和 Lakehouse 參與者正在將向量嵌入和搜索功能納入其現有產品中。隨著企業(yè)構建和部署 LLM 用例,具有語義搜索功能的集成數據庫/湖屋可能會在 2024 年獲得進一步的關注。
構建人工智能應用程序的最常見技術是檢索增強生成(RAG),它結合了LLM和組織業(yè)務數據來提供對自然語言問題的響應。RAG 集成了一個流程,在調用 LLM 完成 API 之前,首先搜索矢量化數據的相似性,從而提高響應準確性。
我們看到兩個影響 RAG 用例的趨勢。其中之一與不斷增加的 LLM 上下文大小有關,它可以直接獲取輸入數據,而無需通過數據庫進行路由。這降低了執(zhí)行額外且復雜的 RAG 步驟的需要。然而,這并沒有減少對矢量數據庫的需求,因為它們預先過濾了LLM的提示,這使得人工智能應用程序具有成本效益和高性能。他們還可以緩存提示及其響應,從而避免對 LLM 進行不必要且昂貴的 API 調用以進行重復查詢。這些精選數據將來可用于微調組織的 SLM。
四、人工智能治理
高管們要求他們的領導者快速跟蹤人工智能項目,因為他們渴望從所有結構化和非結構化數據資產中提取前所未有的見解。然而,IT 領導者知道,將人工智能應用到底層數據基礎設施絕非易事。他們知道人工智能應用程序的成功取決于確保數據質量、安全性、隱私和治理。因此,需要人工智能治理。但它到底是什么?
人工智能治理,就像數據治理一樣,需要一個共同的定義。事實上,人工智能治理應該與數據治理齊頭并進。
與傳統(tǒng)人工智能相比,生成式人工智能的用戶范圍要廣泛得多。此外, AI代理還引入了向量搜索、RAG和提示工程等新概念。因此,現代人工智能治理必須滿足多種角色的需求,例如模型所有者和驗證者、審計團隊、數據工程師、數據科學家、MLOps 工程師、合規(guī)性、隱私和數據安全團隊等。
在最高層面,人工智能治理需要跨兩個層面應用
- 模型訓練或微調:治理任務包括識別正確的數據源、其保真度、數據漂移、模型權重和評估結果。比較版本之間的模型指標的能力可以進一步幫助了解模型性能的趨勢。具體來說,在 CPU 和 GPU 上使用不同模型的每次迭代的訓練成本是人工智能治理的重要考慮因素。目前,由于資源要求非常高,參與基礎模型訓練的廠商很少。隨著近年來這些成本的下降,越來越多的團隊正在進行微調。隨著成本進一步下降,我們可能會看到更多的組織或部門訓練自己的模型。
- 模型使用/推理:治理任務需要確保業(yè)務使用安全。任務包括風險識別和風險緩解、模型的可解釋性、成本以及使用人工智能模型實現業(yè)務用例目標的性能。
下圖顯示了人工智能治理計劃的構建模塊。
人工智能治理計劃由四個構建模塊組成:
1.模型發(fā)現
模型正在快速激增,反映了該領域的動態(tài)和不斷擴展的性質。到 2023 年底,Hugging Face 的模特數量已接近 50 萬。問題是,當這些出現在您的人工智能框架(如 Google Cloud 的 Vertex Model Garden 或 AWS Bedrock)中時,開發(fā)人員將開始使用其中的一些,無論是否經過風險管理和合規(guī)團隊的批準。為了克服這個問題,許多人開始采用模型目錄。
在這里,目錄的目的是發(fā)現正在使用的模型、它們的版本號和批準狀態(tài)。它還記錄了模型的所有者、其目的和用途。對于批準的模型,目錄將顯示用于訓練模型的數據集、模型的評估方式及其公平性評分。風險記分卡捕獲模型的漏洞及其影響,并應定期審查以確保風險在閾值內。
理想情況下,模型目錄應該是數據目錄的擴展,這樣就不存在數據和人工智能治理的碎片。
2.模型消費
在模型消費中,人工智能治理的重點是將業(yè)務用例映射到批準的模型并識別數據安全風險。人工智能治理的這一部分處理對企業(yè)數據的不安全使用、提示注入和數據丟失的擔憂。
它還負責跟蹤整個模型生命周期譜系,包括法律、CISO、CDO、審計師等的批準,一直到模型退役。控制到位后,它可以加快模型部署到生產中的速度。
治理工具不僅應該允許識別偏見、危害、泄露、知識產權侵權等領域的風險,還應該記錄風險緩解策略。人工智能治理工具應該有助于提供模型的可解釋性。
3.持續(xù)監(jiān)控
一旦部署了批準的模型,他們需要有一種機制來跟蹤它們的大規(guī)模表現,并自動掃描響應中是否存在幻覺和其他不安全內容。人工智能模型的最大問題之一是它們的不確定性反應可能會導致幻覺。因此,監(jiān)測準確性和相關性非常關鍵。隨著更多人工智能模型在 2024 年投入生產,跟蹤其性能和成本將變得至關重要。
需要不斷監(jiān)控上述風險領域是否存在無法解釋的變化和異常。在檢測到異常情況時,應智能地發(fā)出警報和通知,而不會造成“警報疲勞”。
盡管數據安全和隱私任務貫穿人工智能治理的每個部分,但監(jiān)控用戶、他們的權利和相關的安全策略是一個重要組成部分。
4.風險管理
模型記分卡、推理/使用監(jiān)控數據集和儀表板以及工作流程自動化對于維持人工智能應用程序的健康以及及時采取補救措施以應對預期性能的任何下降至關重要。自動化工作流程可以幫助創(chuàng)建數據和模型推理 KPI,并根據需要觸發(fā)警報,以確保模型所有者可以啟動補救措施。
該工具應提供事件管理功能來記錄解決事件所采取的步驟。最后,工作流程應允許評估遵守相關的人工智能法規(guī),例如NIST 人工智能風險管理框架。
人工智能治理是任何人工智能計劃取得成功的基礎。我們預計 2024 年傳統(tǒng)數據目錄公司等多個供應商以及 IBM等大型平臺提供商將主要關注人工智能治理。Databricks 的 Unity Catalog 已經將數據目錄與 AI 模型元數據融合在一起。
2023 年最后幾天發(fā)布的幾項新法規(guī)和標準進一步加速了這一重點。從歐盟人工智能法案到ISO 42001 ,再到 OpenAI 的準備框架,它們都旨在促進負責任地使用人工智能。例如,OpenAI 框架有四個目標——“跟蹤、評估、預測和保護”模型風險。