大模型應(yīng)用探索——企業(yè)知識(shí)管家
一、傳統(tǒng)知識(shí)管理的背景與挑戰(zhàn)
1、企業(yè)知識(shí)管理的必要性
知識(shí)管理是每個(gè)企業(yè)都面臨的一個(gè)非常重要的環(huán)節(jié),借助知識(shí)管家可以全面提升企業(yè)的效率。
一方面,隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,知識(shí)爆炸,如何實(shí)現(xiàn)企業(yè)知識(shí)的共享稱成為企業(yè)面臨的一個(gè)問題。企業(yè)通過知識(shí)共享不僅能提升效率,也能減少重復(fù)工作。
另一方面,通過知識(shí)共享的模式,建立一個(gè)體系賦能的機(jī)制,能夠更好地優(yōu)化流程和結(jié)果,提升企業(yè)的運(yùn)行效率。
此外,知識(shí)管家可以為決策者提供一些關(guān)鍵信息和數(shù)據(jù),來幫助他們做出更明智的決策。
最后,也是非常重要的一點(diǎn)是,減少企業(yè)員工的工作量,避免信息丟失,同時(shí)提升員工生產(chǎn)力和客戶服務(wù)水平,實(shí)現(xiàn)降本增效。
2、企業(yè)知識(shí)管理挑戰(zhàn)
知識(shí)管家的構(gòu)建邏輯非常復(fù)雜,在沒有大模型之前,一般都是知識(shí)庫的概念,借助企業(yè)知識(shí)圖譜或者企業(yè)自己的數(shù)據(jù)去構(gòu)建知識(shí)庫,在這個(gè)構(gòu)建的過程中有很多的挑戰(zhàn)。
- 知識(shí)碎片化
知識(shí)碎片化主要體現(xiàn)在兩個(gè)方面,一個(gè)方面是企業(yè)的數(shù)據(jù)非常分散,如 OA 系統(tǒng)的數(shù)據(jù)有不同部門的、不同團(tuán)隊(duì)的。另一方面,這些數(shù)據(jù)基本上都是以非結(jié)構(gòu)化形式去提供的,比如 Word、PDF、圖片、視頻等。在知識(shí)管家建設(shè)的過程中,如何把這些知識(shí)碎片化的信息快速集中,是面臨的第一個(gè)挑戰(zhàn)。
- 信息過載
在企業(yè)業(yè)務(wù)快速發(fā)展中,面臨大量信息和數(shù)據(jù)不斷涌現(xiàn)的情況下,如何在海量數(shù)據(jù)中建立篩選機(jī)制,保證信息的準(zhǔn)確、及時(shí),也是一大挑戰(zhàn)。
- 數(shù)據(jù)安全風(fēng)險(xiǎn)
企業(yè)一般不會(huì)把自己的私有數(shù)據(jù)共享給其他的機(jī)構(gòu)或組織,一般都會(huì)比較重視企業(yè)私域數(shù)據(jù)的數(shù)據(jù)安全,因此也需要處理數(shù)據(jù)安全風(fēng)險(xiǎn)。
- 知識(shí)共享交流難
不同的公司有不同的組織結(jié)構(gòu),有些偏技術(shù),有些偏業(yè)務(wù),也有技術(shù)和業(yè)務(wù)混合型的,在業(yè)務(wù)和技術(shù)溝通的過程中,溝通不順暢是每個(gè)企業(yè)在知識(shí)共享中都會(huì)面臨的一個(gè)問題。
二、知識(shí)管家解決方案
1、企業(yè)知識(shí)管家是什么
企業(yè)知識(shí)管家,類似一個(gè)人的大腦,去輔助整個(gè)知識(shí)的存儲(chǔ),并理解和創(chuàng)造知識(shí)。
企業(yè)知識(shí)管家總體分為三個(gè)層次:第一層是功能技術(shù)側(cè)的需求,主要負(fù)責(zé)企業(yè)知識(shí)的管理,包括企業(yè)數(shù)據(jù)的導(dǎo)入、文檔的自動(dòng)分類與歸檔,以及其它一些基礎(chǔ)功能的需求;中間層是應(yīng)用側(cè)的需求,包括提供一些智能問答、智能搜索、摘要生成、輔助寫作等功能;上層是業(yè)務(wù)側(cè)的需求,包括合同的審查、保險(xiǎn)的客服、行業(yè)報(bào)告的生成。
知識(shí)管家對(duì)外呈現(xiàn)的接口總體有三種模式:第一種接口類似文本框的方式,提供知識(shí)探索和分析;另一種是借助于 API 的 Token,把不同應(yīng)用場(chǎng)景里涉及的智能 Agent 發(fā)布成 API Token 的方式去和企業(yè)的業(yè)務(wù)系統(tǒng)整合;第三種方式是智能 Agent,通過對(duì)話模式去做知識(shí)的探索和分析。
2、企業(yè)知識(shí)管家解決方案
企業(yè)知識(shí)管家主要負(fù)責(zé)企業(yè)專屬的知識(shí)管理和創(chuàng)造,包括以下一些業(yè)務(wù)場(chǎng)景:
- 智能問答
結(jié)合企業(yè)自己的私域數(shù)據(jù),經(jīng)過向量化后,存儲(chǔ)在向量數(shù)據(jù)庫中,借助問答對(duì)模式去做智能問答的場(chǎng)景,通過這些場(chǎng)景可以衍生出來很多更具化的業(yè)務(wù)需求。
- 自助文檔分析
通過文檔去做一些探索和分析,比如對(duì)論文進(jìn)行探索,可以提問這篇論文講的內(nèi)容,還可以進(jìn)行文檔的自主分析,提供整個(gè)文檔的分段預(yù)覽、上下文檢索、摘要總結(jié)等能力。
- 自定義角色場(chǎng)景
結(jié)合企業(yè)內(nèi)部不同角色的私域數(shù)據(jù),再加上提示詞的模式,提供一些自定義場(chǎng)景的設(shè)計(jì),如文檔的輔助寫作、智能會(huì)議紀(jì)要等。
- 合同審核
采用人機(jī)對(duì)話的模式,對(duì)企業(yè)的各種合同做一些關(guān)鍵條款信息的審查,查看對(duì)應(yīng)信息是否準(zhǔn)確。
企業(yè)知識(shí)管家產(chǎn)品的主要功能包括:
- 智能問答:結(jié)合具體問題,通過檢索上下文得到一個(gè)有源可依的答案。
- 多角色創(chuàng)意問答:通過提示詞與企業(yè)的私域數(shù)據(jù)來構(gòu)建智能應(yīng)用場(chǎng)景。
- 文檔分析:導(dǎo)入整個(gè)文檔,進(jìn)行總結(jié)或探索分析。
- 知識(shí)管理:企業(yè)數(shù)據(jù)通過知識(shí)管家,進(jìn)行全自動(dòng)的管理,整個(gè)過程采用非常簡(jiǎn)潔的模式。
- Agent 構(gòu)建:開發(fā)平臺(tái),即大模型 IDE 功能。
知識(shí)管家的功能架構(gòu):
最下面是 GPU 算力,包含兩類,一類是推理的算力,另一類是微調(diào)的算力。中間這一層是安全可信的企業(yè)私域數(shù)據(jù)記憶體——DingoDB多模向量數(shù)據(jù)庫。
再上一層整個(gè)技術(shù)層的功能點(diǎn),包括模型微調(diào)的管理、知識(shí)文檔管理、智能應(yīng)用管理。
最上面是偏業(yè)務(wù)場(chǎng)景類的需求,智能問答里可以自定義角色的一些對(duì)話、標(biāo)準(zhǔn)的 QA 問答,還有智能應(yīng)用的 Agent,基于文檔的輔助閱讀、合同的審查、保險(xiǎn)的個(gè)人助手。
三、知識(shí)管家核心技術(shù)探索
1、知識(shí)管家構(gòu)建過程
接下來通過智能問答場(chǎng)景來介紹整個(gè)知識(shí)管家的構(gòu)建流程。
首先需要有數(shù)據(jù)源,可能會(huì)有結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),通常來說,知識(shí)庫的構(gòu)建以非結(jié)構(gòu)化數(shù)據(jù)為主,如 Word、PDF、Excel,還有企業(yè)系統(tǒng)、Jira、知識(shí)管理平臺(tái)等。
這些數(shù)據(jù)經(jīng)過知識(shí)處理環(huán)節(jié),轉(zhuǎn)換成向量存到數(shù)據(jù)庫中。需要先把文檔加載進(jìn)去,然后給予文檔的 Layout 信息或結(jié)構(gòu)信息,做文檔向量解析生成文件塊,然后基于文件塊調(diào)用對(duì)應(yīng)的 Embedding 模型轉(zhuǎn)換成向量,對(duì)向量進(jìn)行存儲(chǔ)。
智能問答交互的過程:在用戶提出問題后,首先借助智能助手把問題向量化,再去數(shù)據(jù)庫做語義的檢索,得到關(guān)聯(lián)這個(gè)語義相近的文章上下文,通過上下文結(jié)合提示詞,經(jīng)過大模型的推理,最終得到答案的返回。
整體過程是一個(gè)不斷迭代和反饋優(yōu)化的過程,只有這樣才能得到基于企業(yè)私域數(shù)據(jù)上的專屬智能專家角色。
2、知識(shí)管家構(gòu)建核心技術(shù)探索
- 非結(jié)構(gòu)化數(shù)據(jù)處理
非結(jié)構(gòu)化數(shù)據(jù) ETL 處理過程,需要借助一些工具。知識(shí)管家從技術(shù)模式上提供了一些特殊的算子,這些算子可以清洗整個(gè) Map、Filter、基于 Window的變化,通過整個(gè) ETL 的 Pipeline 可以數(shù)據(jù)進(jìn)行轉(zhuǎn)換。
通過各種文件的解析器(如 PDF 的解析器)進(jìn)行解析,然后經(jīng)過中間層對(duì)應(yīng)的不同應(yīng)用場(chǎng)景 Hub 的 Operator,可以快速構(gòu)建 Pipeline 的 Hub,再經(jīng)過數(shù)據(jù)的清洗和轉(zhuǎn)換后進(jìn)行 Embedding 化,最后存到向量數(shù)據(jù)庫中。
- 精度與完整性數(shù)據(jù)保證-無損數(shù)據(jù)解析
要得到一個(gè)好的模型調(diào)試效果,要保證精確和完整的數(shù)據(jù),具備良好的數(shù)據(jù)處理的質(zhì)量。
構(gòu)建一個(gè)傳統(tǒng)的數(shù)據(jù)檢索非常簡(jiǎn)單,但實(shí)際的知識(shí)比較復(fù)雜,除了文字本身的信息外,還有圖片、表格數(shù)據(jù)、段落信息等。對(duì)此,九章云極DataCanvas提供了 Layout 的解析模式,可以實(shí)現(xiàn) Layout 信息、表格、圖片等多模態(tài)數(shù)據(jù)的全量存儲(chǔ),全面提升了數(shù)據(jù)解析過程的質(zhì)量。
- 強(qiáng)相關(guān)性檢索-Reranking 二次篩選
在文檔經(jīng)過向量化,存到 DingoDB多模向量數(shù)據(jù)庫后,通過 Query 進(jìn)行檢索,在檢索結(jié)果中會(huì)包含檢索內(nèi)容本身的結(jié)果,也會(huì)包含相關(guān)性的結(jié)果,這時(shí)候需要在檢索召回的 Chunk 做 Reranking 的二次篩選。
在 Reranking 二次篩選時(shí),要將 Retrieval 的 Chunk 和對(duì)應(yīng)的 Query 做相關(guān)性語義分析,包括找到語義最為接近的匹配,然后把二次篩選后的檢索 Chunk 重新推給大語言模型。
- 安全可信的答案生成-多指令微調(diào)
為了保證答案生成過程的安全可信,九章云極DataCanvas基于通用的大語音模型,對(duì)召回的數(shù)據(jù)做提示詞的限定,并結(jié)合企業(yè)的私域數(shù)據(jù)對(duì)大模型進(jìn)行垂類知識(shí)的微調(diào),再加上風(fēng)向管控機(jī)制,從而保證答案生成的高精度。
- 存儲(chǔ)與檢索能力- DingoDB多模向量數(shù)據(jù)庫
DingoDB可以提供多樣化的 API 支持通過 SQL 和 Python 工具包去做數(shù)據(jù)查詢,也提供一體化的方式,實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化的聯(lián)合查詢。針對(duì)實(shí)時(shí)性的場(chǎng)景,DingoDB提供了實(shí)時(shí)寫入即可查詢的能力,可以邊導(dǎo)入數(shù)據(jù)邊進(jìn)行實(shí)時(shí)檢索。
DingoDB還提供了計(jì)算加速的能力,支持 Meta 的前置、后置的過濾篩選,以及基于相似度的范圍查找。DingoDB還提供了多副本的工具,可以做部分的遷移和數(shù)據(jù)的遷移,同時(shí)提供多樣化的運(yùn)維和監(jiān)控工具,降低了運(yùn)維成本。DingoDB還能提供自動(dòng)彈性分片的能力,可以把數(shù)據(jù)動(dòng)態(tài)地平衡到不同機(jī)器上,實(shí)現(xiàn)各個(gè)節(jié)點(diǎn)的負(fù)載均衡。
- 安全可信的專屬 LLM-微調(diào) Pipeline
在企業(yè)私域數(shù)據(jù)上,針對(duì)通用的場(chǎng)景需要進(jìn)行微調(diào),以構(gòu)建某個(gè)場(chǎng)景里企業(yè)專屬的大語言模型。知識(shí)管家里總結(jié)了整個(gè)微調(diào)過程中的痛點(diǎn),在產(chǎn)品里提供工具化的方式,上傳文檔就可以得到所有問題的數(shù)據(jù)。有了數(shù)據(jù)后,直接在界面上通過配置參數(shù)就可以進(jìn)行微調(diào),同時(shí)產(chǎn)品也提供了一些微調(diào)數(shù)據(jù)指標(biāo),可以對(duì)微調(diào)的結(jié)果進(jìn)行評(píng)價(jià)。
- 快速構(gòu)建大模型應(yīng)用-大模型 IDE
傳統(tǒng)大模型應(yīng)用往往構(gòu)建復(fù)雜,知識(shí)管家基于九章云極DataCanvas自己的 FS 能力,構(gòu)建了自己的大模型 IDE,能夠提供豐富的組件和工具,通過簡(jiǎn)潔的應(yīng)用構(gòu)建方式,把構(gòu)建的模版發(fā)布成智能應(yīng)用的 Agent。
四、總結(jié)與展望
1、知識(shí)管家方案總結(jié)
知識(shí)管家的技術(shù)亮點(diǎn)主要有以下六大方面:高精度檢索、便捷的 ETL Pipeline、高可用與擴(kuò)展性、安全合規(guī)、智能數(shù)據(jù)融合以及豐富的場(chǎng)景。
知識(shí)管家的核心價(jià)值包括:提供了知識(shí)管理和智能啟發(fā)的基礎(chǔ)能力,并且提供了一種安全可信的應(yīng)用私有化部署方式,包含企業(yè)的所有數(shù)據(jù),可實(shí)現(xiàn)知識(shí)的融合和智能交互。作為智能底座,提供靈活擴(kuò)展的能力,可以在知識(shí)管家上基于大模型做新的 Agent 開發(fā)。
2、未來展望
知識(shí)管家是基于九章云極 DataCanvas的AIFS,提供從裸金屬到上面的 GPU 算力以及模型的調(diào)度,并實(shí)現(xiàn)模型微調(diào)的一整套 Pipeline 模式。它借助通識(shí)的大語言模型,加上企業(yè)的私域數(shù)據(jù),進(jìn)行組合微調(diào),形成企業(yè)自己專屬的大語言模型?;诖笳Z言模型的擴(kuò)展能力,結(jié)合 DingoDB多模向量數(shù)據(jù)庫,可以實(shí)現(xiàn)企業(yè)里面的搜索問答、摘要生成等應(yīng)用,進(jìn)行企業(yè)的知識(shí)管理。