ChatGPT和生成式人工智能在數(shù)字化轉(zhuǎn)型中的意義
開(kāi)發(fā)ChatGPT的OpenAI公司在網(wǎng)站展示了摩根士丹利進(jìn)行的一個(gè)案例研究。其主題是“摩根士丹利財(cái)富管理部署GPT-4來(lái)組織其龐大的知識(shí)庫(kù)?!痹摪咐芯吭Ω康だ治觥?shù)據(jù)與創(chuàng)新主管Jeff McMillan的話說(shuō),“該模型將為一個(gè)面向內(nèi)部的聊天機(jī)器人提供動(dòng)力,該機(jī)器人將對(duì)財(cái)富管理內(nèi)容進(jìn)行全面搜索,并有效地解鎖摩根士丹利財(cái)富管理的累積知識(shí)”。
McMillan進(jìn)一步強(qiáng)調(diào)說(shuō):“采用GPT-4,你基本上立刻就擁有了財(cái)富管理領(lǐng)域最博學(xué)的人的知識(shí)……可以把它想象成我們的首席投資策略師、首席全球經(jīng)濟(jì)學(xué)家、全球股票策略師,以及全球其他每一位分析師,并且每天都在待命。我們相信,這對(duì)我們公司來(lái)說(shuō)是一種變革能力?!?/p>
這是知識(shí)管理的終極目標(biāo)——將企業(yè)的知識(shí)和專長(zhǎng)體現(xiàn)在與客戶交互的系統(tǒng)、過(guò)程和工具中的能力。
那么真的達(dá)到這個(gè)目標(biāo)了嗎?生成式人工智能是知識(shí)訪問(wèn)、檢索和應(yīng)用的答案嗎?在宣布戰(zhàn)勝信息混亂之前,考慮一些基本元素和注意事項(xiàng)是很重要的。
首先,生成式人工智能可以克服知識(shí)管理挑戰(zhàn)的認(rèn)知背后有一個(gè)假設(shè),即知識(shí)以明確的、記錄的形式存在。然而,在大多數(shù)企業(yè)中,知識(shí)被鎖定在員工的頭腦中,如果以數(shù)字形式存儲(chǔ),它就會(huì)分散在部門、技術(shù)和存儲(chǔ)庫(kù)的生態(tài)系統(tǒng)中的孤島中。OpenAI公司在其網(wǎng)站進(jìn)一步指出,摩根士丹利每年發(fā)表數(shù)千篇論文,其內(nèi)容涉及資本市場(chǎng)、資產(chǎn)類別、行業(yè)分析和全球經(jīng)濟(jì)區(qū)域……這些知識(shí)財(cái)富為摩根士丹利公司創(chuàng)建了一個(gè)獨(dú)特的內(nèi)部?jī)?nèi)容庫(kù),可以使用GPT-4進(jìn)行處理和解析,同時(shí)也可以進(jìn)行內(nèi)部控制。摩根士丹利擁有的知識(shí)可以構(gòu)成使用ChatGPT大型語(yǔ)言模型的基礎(chǔ)。如果企業(yè)內(nèi)容和知識(shí)資源不可獲取,質(zhì)量很差,或者與客戶和員工的需求不一致,ChatGPT將無(wú)法訪問(wèn)響應(yīng)這些需求的特定知識(shí)。
第二,生成式人工智能創(chuàng)造內(nèi)容。它不是一個(gè)檢索機(jī)制。那么原始知識(shí)庫(kù)是如何使用的呢?這是一個(gè)棘手的領(lǐng)域。ChatGPT正在尋找內(nèi)容和概念關(guān)系中的模式,以便它可以根據(jù)提示預(yù)測(cè)應(yīng)該顯示哪些文本。提示符是一種信號(hào),就像搜索詞是一種信號(hào)一樣。搜索引擎不僅根據(jù)術(shù)語(yǔ),而且還根據(jù)與查詢場(chǎng)景相關(guān)的其他信號(hào)(例如,行業(yè)或搜索者的角色)預(yù)測(cè)應(yīng)該顯示哪些信息??梢栽谔崾局幸允聦?shí)或文檔的形式向ChatGPT提供場(chǎng)景,也可以通過(guò)指向作為響應(yīng)基礎(chǔ)的特定信息以編程方式提供場(chǎng)景。
大型語(yǔ)言模型——同義詞庫(kù)
大型語(yǔ)言模型是包含在信息體中的術(shù)語(yǔ)、概念和關(guān)系的數(shù)學(xué)表示。大型語(yǔ)言模型的強(qiáng)大之處在于它們能夠理解用戶的意圖——無(wú)論請(qǐng)求是如何表達(dá)的,用戶都在尋找什么內(nèi)容,以及預(yù)測(cè)最有可能響應(yīng)用戶意圖的單詞模式。該模型“理解”用戶的請(qǐng)求,并對(duì)應(yīng)該返回的內(nèi)容做出預(yù)測(cè)。搜索引擎也會(huì)根據(jù)用戶的查詢做出預(yù)測(cè),盡管是通過(guò)不同的機(jī)制。搜索引擎可以用于生成人工智能場(chǎng)景中的檢索。使用語(yǔ)義搜索或神經(jīng)搜索引擎檢索內(nèi)容,并使用大型語(yǔ)言模型為用戶格式化響應(yīng)。
同義詞庫(kù)將非首選術(shù)語(yǔ)映射為首選術(shù)語(yǔ)(例如,“SOW”和“Statement of Work”映射為“Proposal”,即標(biāo)記文檔的首選術(shù)語(yǔ))。把大型語(yǔ)言模型的一個(gè)方面看作是“同義詞庫(kù)”,但不僅僅是單詞,而且是短語(yǔ)和概念。用戶可以用許多不同的方式提出相同的問(wèn)題。這種意圖分類并不新鮮,它是將短語(yǔ)變化解析為特定動(dòng)作的聊天機(jī)器人的基礎(chǔ)。語(yǔ)言模型是意圖解析和分類功能的基礎(chǔ)。
大型語(yǔ)言模型還能理解提示符后面的單詞模式。這就是啟用ChatGPT會(huì)話流暢性的方式。使它們對(duì)企業(yè)具有實(shí)用性的關(guān)鍵是根據(jù)特定的內(nèi)容或知識(shí)體來(lái)調(diào)整模型(摩根士丹利在實(shí)施ChatGPT時(shí)就是這樣做的),并吸收企業(yè)獨(dú)有的術(shù)語(yǔ)。
有許多帶有示例代碼的教程說(shuō)明了如何使用具有特定內(nèi)容的大型語(yǔ)言模型。例如,其視頻引導(dǎo)開(kāi)發(fā)人員完成使用語(yǔ)言模型(如GPT-4)并將聊天機(jī)器人指向特定知識(shí)和內(nèi)容的過(guò)程。
面向企業(yè)的知識(shí)專用機(jī)器人
在回顧了這些教程之后,有一些觀察結(jié)果:
定制的、特定于知識(shí)的聊天機(jī)器人可以使用大型語(yǔ)言模型來(lái)理解用戶的要求,然后從指定的知識(shí)來(lái)源返回結(jié)果。開(kāi)發(fā)人員指出,需要將內(nèi)容“分塊”成“語(yǔ)義上有意義”的部分。為回答特定問(wèn)題而設(shè)計(jì)的組件化內(nèi)容需要完整且符合場(chǎng)景。重要的是要注意,知識(shí)通常不存在于這種狀態(tài)。要進(jìn)行組件化,必須將大型文檔和文本主體分解成塊。例如,用戶手冊(cè)可以按章、節(jié)、段和句子分成若干部分。在技術(shù)文檔領(lǐng)域,這已經(jīng)做到了——DITA (達(dá)爾文信息類分類架構(gòu))等標(biāo)準(zhǔn)使用了基于主題的方法,非常適合回答問(wèn)題。
開(kāi)發(fā)人員談?wù)摗罢Z(yǔ)義”以及語(yǔ)義的重要性。這是什么意思?語(yǔ)義學(xué)是關(guān)于意義的。語(yǔ)義豐富的內(nèi)容用元數(shù)據(jù)標(biāo)記,元數(shù)據(jù)有助于精確檢索所需的信息和信息的場(chǎng)景。例如,如果用戶使用特定型號(hào)的路由器,并且該路由器發(fā)出錯(cuò)誤代碼,那么當(dāng)請(qǐng)求支持機(jī)器人幫助時(shí),可以檢索標(biāo)有這些標(biāo)識(shí)符的內(nèi)容。這個(gè)過(guò)程在聊天機(jī)器人領(lǐng)域也被稱為“插播”。
自定義內(nèi)容被攝取到所謂的“向量空間”中,這是另一種信息數(shù)學(xué)模型,它將文檔放在多維空間中(這是一種數(shù)學(xué)構(gòu)造),允許對(duì)類似的文檔進(jìn)行聚類和檢索。這被稱為“嵌入”。嵌入可以包含元數(shù)據(jù)和標(biāo)識(shí)符(例如參考源),這些元數(shù)據(jù)和標(biāo)識(shí)符有助于記錄向用戶提供特定答案的原因。這對(duì)于法律責(zé)任和監(jiān)管目的以及向用戶提供正確、最權(quán)威信息的保證都很重要。
訓(xùn)練人工智能的定義
關(guān)于“訓(xùn)練”有幾個(gè)觀點(diǎn)。ChatGPT和大型語(yǔ)言模型在大量?jī)?nèi)容上進(jìn)行了訓(xùn)練,使它們能夠理解用戶的查詢,并以格式良好且具有會(huì)話性的最佳答案進(jìn)行響應(yīng)。訓(xùn)練該工具的一種方法是在提示符中包含內(nèi)容,“根據(jù)以下信息回答這個(gè)問(wèn)題……”
但在這里有兩個(gè)問(wèn)題:
首先,ChatGPT在其提示符中只能處理一定數(shù)量的內(nèi)容,這種提問(wèn)方式將非常有限??梢詫?nèi)容攝取到工具中,這將支持額外的訓(xùn)練。然而,將內(nèi)容添加到ChatGPT中也會(huì)將該內(nèi)容合并到公共模型中。因此,企業(yè)的知識(shí)產(chǎn)權(quán)將受到損害。這種風(fēng)險(xiǎn)導(dǎo)致許多企業(yè)禁止使用ChatGPT和其他因無(wú)意中上傳企業(yè)機(jī)密而丟失知識(shí)產(chǎn)權(quán)的人工智能工具。
另外,還有另一種訓(xùn)練內(nèi)容的方法。大型語(yǔ)言模型可以使用企業(yè)特定知識(shí)作為訓(xùn)練語(yǔ)料庫(kù)的一部分,但這需要提供一個(gè)防火墻后面的版本。幸運(yùn)的是,大型語(yǔ)言模型正在迅速實(shí)現(xiàn)商品化,有些甚至可以在筆記本電腦上本地運(yùn)行。這種類型的訓(xùn)練在計(jì)算上也很昂貴。另一種機(jī)制是使用大型語(yǔ)言模型來(lái)解釋用戶的目標(biāo)(他們的意圖),然后使用向量嵌入以編程方式提供來(lái)自特定數(shù)據(jù)或內(nèi)容源的場(chǎng)景。
然后,語(yǔ)言模型對(duì)響應(yīng)進(jìn)行處理和格式化,使其具有對(duì)話性和完整性。通過(guò)這種方式,知識(shí)與大型語(yǔ)言模型分開(kāi),使企業(yè)的商業(yè)秘密和知識(shí)產(chǎn)權(quán)不會(huì)受到損害。
所有這些因素都表明需要知識(shí)管理和知識(shí)架構(gòu),將信息組織成組件,以便用戶可以獲得特定問(wèn)題的答案。大型語(yǔ)言模型和ChatGPT的革命性本質(zhì)可以提供所需的會(huì)話流暢性,以近乎人類的互動(dòng)水平來(lái)支持積極的客戶體驗(yàn)。關(guān)鍵因素是獲得企業(yè)中結(jié)構(gòu)良好的知識(shí)。ChatGPT看起來(lái)很神奇,但它是基于信息的統(tǒng)計(jì)處理和模式預(yù)測(cè)。如果正確地組織和整合信息,將會(huì)成為企業(yè)數(shù)字化轉(zhuǎn)型的重要組成部分。