企業(yè)軟件是否已告別“太貴”時代?
在不太遙遠的未來,GenAI將使企業(yè)軟件領域以往無法實現(xiàn)或成本過高的功能成為可能。
GenAI,尤其是大型語言模型(LLM),正在改變公司開發(fā)和交付軟件的方式。從聊天機器人和簡單自動化工具開始的這一進程,正在發(fā)展成為功能更為強大的AI系統(tǒng)——這些系統(tǒng)與軟件架構(gòu)深度融合,并影響從后端流程到用戶界面的方方面面。
聊天機器人浪潮:短期趨勢
公司目前正在專注于為各種問題開發(fā)聊天機器人和定制化的GPT,這些基于AI的工具在兩個領域尤其有用:使內(nèi)部知識易于獲取和自動化客戶服務。聊天機器人用于構(gòu)建響應系統(tǒng),使員工能夠快速訪問廣泛的內(nèi)部知識庫,打破信息孤島。
盡管這些工具很有用,但由于缺乏創(chuàng)新或差異化,其價值正在逐漸降低。此外,由于缺乏解決某些問題的更好替代方案的知識,聊天機器人往往并不是合適的用戶界面。
未來的特點將是更深入的AI能力,這些能力將無縫融入軟件產(chǎn)品中,而終端用戶甚至不會察覺到。
無處不在的GenAI技術
在未來幾年,AI將從一種需要直接用戶交互的明確、不透明的工具,演變成功能集中無縫集成的一個組件。GenAI將實現(xiàn)動態(tài)內(nèi)容創(chuàng)建、智能決策和實時個性化等功能,而用戶無需直接與它們交互。這將從根本上改變用戶界面(UI)設計和軟件的使用方式。用戶將越來越能夠通過自然語言描述他們的需求,而不是手動輸入特定參數(shù)。
這一趨勢的一個顯著例子已經(jīng)可以在Adobe Photoshop等工具中看到?!吧墒教畛洹惫δ懿辉傩枰謩诱{(diào)整多個參數(shù),相反,用戶只需描述他們想要填充圖像選定區(qū)域的內(nèi)容,這種向自然語言輸入發(fā)展的趨勢將在應用程序中普及,使用戶體驗(UX)更加直觀,不再受傳統(tǒng)UI元素的限制。
未來的挑戰(zhàn)將不再是稀缺性,而是豐富性:識別并優(yōu)先考慮最有前景的機遇。
LLM相較于專用機器學習模型的商品化效應
GenAI給IT領域帶來的最顯著變革之一,是AI能力的民主化。在LLM和擴散模型出現(xiàn)之前,企業(yè)需要投入大量的時間、精力和資源來開發(fā)定制的機器學習模型,以解決難題,這需要專門的角色和團隊來收集特定領域的數(shù)據(jù)、準備特征、標注數(shù)據(jù)、重新訓練和管理模型的整個生命周期。
如今,LLM正在改變公司解決算法上難以或無法解決的問題的方式,盡管“大型語言模型”中的“語言”一詞具有誤導性,這些自回歸模型最終可以處理任何可以輕松分解為標記的內(nèi)容:圖像、視頻、聲音甚至蛋白質(zhì)。公司可以使用檢索增強生成(RAG)架構(gòu),用自己的數(shù)據(jù)來豐富這些多功能工具,這使得它們廣泛的能力得以被利用。
在許多情況下,這消除了對專門團隊、大量數(shù)據(jù)標注和復雜機器學習管道的需求。LLM廣泛的預訓練知識使它們能夠有效地處理和解釋甚至是非結(jié)構(gòu)化數(shù)據(jù)。
這種民主化的一個重要方面是,LLM可以通過易于使用的應用程序編程接口(API)獲得。如今,幾乎每個開發(fā)人員都知道如何使用基于API的服務,這使得將這些模型無縫集成到現(xiàn)有的軟件生態(tài)系統(tǒng)中成為可能,這使公司能夠受益于強大的模型,而無需擔心底層基礎設施,或者,如果有特定的安全或數(shù)據(jù)保護要求,也可以在本地運行多個模型,然而,這將犧牲前沿領先模型提供的一些優(yōu)勢。
以一款用于記錄和管理差旅費用的應用程序為例。傳統(tǒng)上,這樣的應用程序可能會使用專門訓練的機器學習模型,將上傳的收據(jù)分類到會計類別中,如DATEV。這需要專用的基礎設施,理想情況下還需要一個完整的MLOps管道(用于模型訓練、部署和監(jiān)控)來管理數(shù)據(jù)收集、訓練和模型更新。
如今,這樣的機器學習模型可以很容易地被一個LLM所取代,該LLM利用其世界知識與良好的提示相結(jié)合,進行文檔分類。LLM的多模態(tài)能力也在許多情況下消除了對光學字符識別(OCR)的需求,極大地簡化了技術棧。收據(jù)中的數(shù)據(jù)是否還需要包括凈價和毛價或稅率?LLM也能做到。
以往不可能實現(xiàn)的AI功能
GenAI使各種功能成為可能,這些功能以往對大多數(shù)企業(yè)來說過于復雜、成本過高或完全遙不可及,因為它們需要投資于定制的機器學習解決方案或復雜算法。讓我們來看一些具體的例子。
基于情緒和上下文的搜索:超越關鍵詞
基于氛圍的搜索代表了相對于傳統(tǒng)基于關鍵詞的搜索系統(tǒng)的重大進步。
它允許用戶用自然語言表達他們的意圖,不僅捕獲特定術語,還捕獲查詢的完整上下文和“氛圍”。
例如:
傳統(tǒng)關鍵詞搜索:“柏林最好的餐廳”
基于情緒和上下文的搜索:“我是一個挑剔的鑒賞家,喜歡既提供酒水也提供食物的酒吧,最好是用當?shù)厥巢?,推薦柏林米特區(qū)和克羅伊茨貝格區(qū)的餐廳,請不要推薦教條式的自然酒吧?!?/p>
在基于情緒和上下文的搜索中,LLM可以理解和處理以下內(nèi)容:
? 自我介紹為“挑剔的鑒賞家”
? 偏好提供食物的酒吧
? 希望使用當?shù)厥巢?/p>
? 特定的社區(qū)偏好(米特區(qū)和克羅伊茨貝格區(qū))
? 區(qū)分普通酒吧和“教條式的自然酒吧”
這種細微差別和上下文理解水平使搜索功能能夠提供高度個性化和相關的結(jié)果,而不僅僅是匹配關鍵詞。
實施基于情感和上下文的搜索可以顯著提升各種應用中的用戶體驗:
? 內(nèi)部知識庫:員工可以使用自然語言查詢來查找描述其特定情況或需求的信息。
? 電子商務平臺:客戶可以用自己的語言描述產(chǎn)品,即使他們不知道確切的術語。
? 客戶服務系統(tǒng):用戶可以詳細描述他們的問題,然后,系統(tǒng)會為他們提供更精確的解決方案或?qū)⑺麄冝D(zhuǎn)接給合適的支持人員。
? 內(nèi)容管理系統(tǒng):內(nèi)容編輯可以使用描述性語言搜索資產(chǎn)或內(nèi)容,而無需依賴大量的標簽或元數(shù)據(jù)。
智能數(shù)據(jù)和內(nèi)容分析
情感分析
讓我們看一個實際例子:一個內(nèi)部系統(tǒng)允許員工發(fā)布關于他們工作的簡短狀態(tài)消息,一位經(jīng)理想要評估團隊在特定一周內(nèi)的整體情緒。在過去,使用定制化的機器學習(ML)模型對這些帖子進行情感分析是具有挑戰(zhàn)性的,而有了大型語言模型(LLM),這種復雜性就簡化為了一個簡單的API調(diào)用。
結(jié)果甚至不需要以人類可讀的語言輸出,它可以作為結(jié)構(gòu)化的JSON提供,系統(tǒng)處理該數(shù)據(jù)以顯示匹配的圖標或圖形,或者,LLM可以簡單地輸出表情符號來代表情緒,當然,這樣的功能只有在員工同意的情況下才會實施。
從復雜數(shù)據(jù)中獲取洞察
另一個例子展示了LLM在分析復雜數(shù)據(jù)方面的強大能力,即冷卻系統(tǒng)的智能報警管理。
傳統(tǒng)上,這些系統(tǒng)側(cè)重于:
? 具有實時數(shù)據(jù)和警報的圖形化報警儀表板
? 復雜、可過濾的時間序列數(shù)據(jù)的表格表示
這些功能很有用,但往往需要大量的人工解釋才能獲得有意義的洞察,而LLM可以通過將原始數(shù)據(jù)轉(zhuǎn)化為零樣本基礎上的可行動洞察,來擴展系統(tǒng)的能力,無需專門的機器學習模型,具體包括:
? 自動報告:LLM可以分析時間序列數(shù)據(jù),并用自然語言生成詳細報告,這些報告可以突出趨勢、異常和關鍵績效指標,對技術人員和管理人員都很有價值。例如,一份總結(jié)上周報警的報告,識別出重復出現(xiàn)的問題,并提出改進建議。
? 深入分析:LLM可以超越簡單的數(shù)據(jù)呈現(xiàn),識別并解釋數(shù)據(jù)中的復雜模式。例如,它們可以識別表明系統(tǒng)重大問題的報警序列——這些洞察在傳統(tǒng)表格視圖或圖表中可能會被忽略。
? 預測性洞察:通過分析歷史數(shù)據(jù),LLM可以預測系統(tǒng)未來的狀態(tài),這能夠?qū)崿F(xiàn)主動維護,并幫助預防潛在故障。
? 結(jié)構(gòu)化輸出:除了自然語言報告外,LLM還可以輸出結(jié)構(gòu)化數(shù)據(jù)(如JSON),這使得創(chuàng)建動態(tài)、圖形化的用戶界面成為可能,以直觀表示復雜信息。
? 自然語言查詢:工程師可以用自然語言向系統(tǒng)提問,如“未來幾周內(nèi)哪些設備可能切換到故障轉(zhuǎn)移模式?”并立即收到相關答案和可視化展示,這大大降低了數(shù)據(jù)評估和解釋的門檻,這一功能現(xiàn)在也可以通過OpenAI的實時API獲得。
多模態(tài)黑箱:書寫、說話、觀看和聽覺
多模態(tài)極大地擴展了LLM的能力,能夠處理文本、圖像、聲音和語音的模型實現(xiàn)了復雜的功能組合。一個例子是這樣的應用程序,它幫助用戶處理復雜的視覺內(nèi)容,并將其以文本或語音的形式準備出來。
可能的使用案例范圍非常廣泛:一段掃過書架的視頻將識別出的書名填入數(shù)據(jù)庫,雞舍監(jiān)控視頻中出現(xiàn)的不熟悉的動物被識別出來,一位蘇格蘭女性在德國租來的汽車的導航系統(tǒng)中用語音說出街道名稱。
技術限制和解決方案
LLM存在一定的技術限制,其中最顯著的是上下文窗口——即語言模型在一次處理中能夠處理的文本量(更準確地說,是token的數(shù)量)。
大多數(shù)LLM的上下文窗口有限,通常在幾千到幾十萬token之間。例如,GPT-4的上下文窗口是128000個token,而Gemini 1.5 Pro可以處理多達2,000,000個token。雖然這看起來相當可觀,但在處理書籍或長視頻等輸入集時,很快就會成為瓶頸。
幸運的是,有幾種策略可以繞過這一限制:
? 分塊(分割)和總結(jié):將大文檔分割成更小、或適合上下文窗口的片段。每個片段單獨處理,然后合并結(jié)果。
? 檢索增強生成(RAG):不是僅依賴模型(極其廣泛)的知識,而是從單獨的數(shù)據(jù)源中檢索相關信息,并將其納入提示中。
? 域適應:將精心的提示工程與領域特定的知識庫相結(jié)合,可以在不限制模型通用性的情況下提供專業(yè)知識。
? 滑動窗口技術:滑動窗口可用于分析長文本序列,如時間序列數(shù)據(jù)或長文檔。模型在遍歷整個文檔時保留一些上下文。
? 多階段推理:將復雜問題分解為一系列較小的步驟。每個步驟在上下文窗口限制內(nèi)使用LLM,之前步驟的結(jié)果為后續(xù)步驟提供信息。
? 混合方法:傳統(tǒng)的信息檢索方法(如TF-IDF和BM25)可以預過濾相關的文本段落。這顯著減少了后續(xù)LLM分析的數(shù)據(jù)量,從而提高了整個系統(tǒng)的效率。
GenAI作為企業(yè)軟件的標準組件
公司需要認識到GenAI的本質(zhì):它是一種影響一切的通用技術,它將成為標準軟件開發(fā)棧的一部分,以及新功能或現(xiàn)有功能不可或缺的推動者。確保軟件開發(fā)未來的可行性,不僅需要獲取用于軟件開發(fā)的AI工具,還需要為AI日益增長的影響力準備基礎設施、設計模式和運營。
隨著這一趨勢的發(fā)展,軟件架構(gòu)師、開發(fā)人員和產(chǎn)品設計師的角色也將發(fā)生變化。他們需要開發(fā)設計AI功能、處理非確定性輸出以及與各種企業(yè)系統(tǒng)無縫集成的新技能和策略。隨著純粹的硬技能變得越來越便宜且更容易自動化,軟技能以及技術角色和非技術角色之間的協(xié)作將變得比以往任何時候都更加重要。