自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

平安人壽ChatBI:大模型智能化報表的深度實踐

人工智能
本文將分享平安人壽自研的大模型智能化報表——ChatBI 產(chǎn)品的實踐與思考。平安人壽也在積極推進 ChatBI 產(chǎn)品的應(yīng)用,我們主要在解放手、解放腦、開藥方這三個方面做一些積極的改變。

一、項目背景和目標

1. 項目背景:大模型賦能智能 BI

圖片

我們先來看一份報告,2023 年,國家發(fā)布了《數(shù)字中國發(fā)展報告》,報告顯示我國的數(shù)字經(jīng)濟規(guī)模已經(jīng)達到了 50 多億,位居世界第二。這一成就的取得,離不開像 ChatBI 這樣的創(chuàng)新性產(chǎn)品的貢獻。

我們做 ChatBI 這款產(chǎn)品的原因主要有三個:

  • 第一,傳統(tǒng)的 BI 產(chǎn)品在數(shù)據(jù)指標、預測能力方面遇到了技術(shù)瓶頸,用戶體驗也不夠友好;
  • 第二,隨著 GPT 的發(fā)展,GPT 技術(shù)在文本和圖像生成上取得了突破性進展,為 ChatBI 在企業(yè)中的落地提供了堅實的基礎(chǔ);
  • 第三,許多企業(yè)對數(shù)字化和 BI 的發(fā)展也越來越重視。

因此,平安人壽也在積極推進 ChatBI 產(chǎn)品的應(yīng)用,我們主要在解放手、解放腦、開藥方這三個方面做一些積極的改變。

圖片

我們認為 ChatBI 能夠在大模型領(lǐng)域落地,主要有四個方面的原因:

  • 一是語言能力,大模型已經(jīng)能夠理解自然語言的語法結(jié)構(gòu)和詞的含義;
  • 二是學習能力,我們可以通過 RAG 技術(shù)讓大模型快速學習特定領(lǐng)域的知識;
  • 三是工具調(diào)用,我們可以通過 Agent 編排,可以快速調(diào)用現(xiàn)有工具,并生成代碼;
  • 四是邏輯推理,我們可以通過大模型結(jié)合人工對數(shù)據(jù)進行洞察分析,檢查出異常點和問題。

比如我們在實踐應(yīng)用中的一個案例場景,當用戶詢問業(yè)績情況時,大模型能夠根據(jù)后臺計算提供數(shù)據(jù)結(jié)果。用戶進一步詢問原因時,大模型則可以基于邏輯推理得出具體原因。

2. 項目目標:智能 BI 3.0

圖片

隨著平安人壽進入 BI 3.0 時代,我們進行了用戶調(diào)研,發(fā)現(xiàn)用戶對 BI 3.0 有三大需求:智能化、自動化和實時化。

  • 智能化意味著需要大模型為用戶提供智能的分析建議;
  • 自動化則是自動生成可視化報表;
  • 實時化要求秒級返回底層數(shù)據(jù)庫的所有數(shù)據(jù)。

我們的目標是讓管理者,基層員工,甚至 ToC 的客戶,都能享受到全面的數(shù)字化服務(wù)。

圖片

為什么平安人壽能夠快速落地 ChatBI 產(chǎn)品呢,我們主要是基于以下幾點基礎(chǔ):

  • 第一,我們擁有完善的數(shù)據(jù)中臺,包含豐富的數(shù)據(jù)域;
  • 第二,我們進行了長期的數(shù)據(jù)治理,擁有上萬個規(guī)范的數(shù)據(jù)指標供用戶使用;
  • 第三,我們擁有豐富的可視化組件可以復用;
  • 第四,我們的服務(wù)平臺也已經(jīng)實現(xiàn)了數(shù)據(jù)服務(wù)的 API 化;
  • 最后,我們內(nèi)部已經(jīng)具備私有部署大模型和模型調(diào)優(yōu)的能力。

基于這些優(yōu)勢,我們才能快速地成功搭建并落地了 ChatBI 產(chǎn)品。

3. 項目愿景:人人都是數(shù)據(jù)分析師

圖片

我們的愿景是為用戶帶來如下三個方面的體驗:

  • 第一,通過零學習成本,降低報表的使用門檻,讓數(shù)據(jù)的使用變得極其簡單;
  • 第二,提供智能的分析建議,使數(shù)據(jù)分析變得智慧化;
  • 第三,通過嵌入方式將 ChatBI 產(chǎn)品整合到多個內(nèi)部平臺中,實現(xiàn)快速查詢數(shù)據(jù),提升用戶體驗,讓每個人都能成為數(shù)據(jù)分析師。

二、解決方案

1. 總體架構(gòu)方案

圖片

我們的整體解決方案大致分為四層。

  • 最底層是數(shù)據(jù)中臺,包含各種數(shù)據(jù)域和指標。
  • 往上一層是平臺層,集成了 API 服務(wù)、知識管理、大模型以及 Cube 和 GS 平臺,以及北斗可視化平臺。這些平臺主要覆蓋從用戶提問到代碼生成,再到可視化等功能點。
  • 在 Agent 這一層,我們分為四類:問數(shù)、分析、數(shù)據(jù)解讀以及公共能力 Agent。
  • 最后是應(yīng)用層,我們實現(xiàn)了三個核心功能:What(解放手)、Why(解放腦)和How(開藥方)。
    What 指的是用戶可以通過對話方式查詢數(shù)據(jù),實現(xiàn)零代碼和實時數(shù)據(jù)獲取,并通過圖表進行可視化生成,數(shù)據(jù)獲取速度從以前的天級提升到現(xiàn)在的秒級。
    Why 主要指通過大模型實現(xiàn)根因分析、數(shù)據(jù)洞察、維度分析等,替代人工進行數(shù)據(jù)分析,將數(shù)據(jù)分析流程從原來的"提需求→分析需求→獲取數(shù)據(jù)→進行數(shù)據(jù)分析→制作分析報告"變成現(xiàn)在的一步到位,通過自然語言提問即可直接生成分析報告。
    How 則是開藥方,通過大模型的洞察能力和分析能力,提供數(shù)據(jù)建議和措施,讓洞察分析從依賴人工經(jīng)驗變成自動化智能生成。

2. 業(yè)務(wù)架構(gòu)

圖片

我們的產(chǎn)品是直接面向用戶的,因此我們首先梳理了用戶的需求,并將其大致分為三類:產(chǎn)品功能、問法和指標。

  • 在產(chǎn)品功能方面,業(yè)務(wù)用戶不僅需要查詢數(shù)據(jù),還需要了解指標口徑、元數(shù)據(jù)等信息,并希望有指標推薦、代碼生成、可視化以及通過多輪對話提升體驗等。
  • 在問法方面,除了簡單問題,還支持復雜問題的查詢,如同比、環(huán)比、累計和排序等。
  • 在指標方面,我們提供全域數(shù)據(jù)指標,并能支持日頻、月頻和年頻指標的查詢能力,最關(guān)鍵的是指標權(quán)限管理,確保每個用戶根據(jù)賬號確定其指標使用范圍,保障數(shù)據(jù)安全。

圖片

我們的業(yè)務(wù)流程從用戶提問開始,首先通過 BI 大模型的語義理解,多輪對話和意圖識別準確摘取用戶提問中的關(guān)鍵信息,如指標、時間和維度。然后,通過 API 和 Doris 快速從數(shù)據(jù)庫中找到所需數(shù)據(jù)。接下來是對查詢后的數(shù)據(jù)進行可視化組裝,我們支持提供各種可視化模板進行圖表組裝。最后是在客戶端呈現(xiàn)數(shù)據(jù)報告。

3. 技術(shù)架構(gòu)

圖片

在技術(shù)架構(gòu)方面,底層包括公共服務(wù)、BI 大模型、數(shù)據(jù)中臺和知識庫,這些都是我們的基礎(chǔ)服務(wù)。

在基礎(chǔ)服務(wù)之上有五大部分:

  • 第一是前端用戶,我們可以通過插件的形式插入到不同的平臺,支持用戶訪問、提問、鑒權(quán)和網(wǎng)關(guān)控制。
  • 第二是多輪對話,多輪對話部分通過上下文理解能力捕獲業(yè)務(wù)客戶的意圖,為下一步的任務(wù)編排做準備。
  • 第三是 Agent 編排,其中任務(wù)執(zhí)行是整個系統(tǒng)的大腦,通過任務(wù)編排調(diào)用不同的工具和知識庫。
  • 第四是 AI+BI 工具箱,這是我們開發(fā)過程中面臨的最大挑戰(zhàn),需要針對不同場景開發(fā)不同的小模型,比如預測預警、時間序列預測和指標分析等,通過定制化的模型來適應(yīng)不同的場景。
  • 最后是可視化系統(tǒng),我們通過可視化平臺和一些可視化布局的插件快速生成可視化圖表。

圖片

我們整個問數(shù)的流程,包括意圖識別、知識提取、文本生成、數(shù)據(jù)生成等步驟,整個過程中會多次與大模型進行交互。

圖片

另外知識庫是我們的開發(fā)過程中最重要的工作之一,我們采用了兩種技術(shù):RAG 技術(shù)和外掛知識庫。

  • RAG 技術(shù)用于提高準確率,大模型在進行語義解析后會調(diào)用知識庫進行檢索,然后用這些知識進行文本和數(shù)據(jù)的語義分析和生成,從而大幅提高準確率。
  • 知識庫分為常見知識庫和進階知識庫,常見知識庫包含常見名詞、知識和 SQL 語法等,而進階知識庫則是垂直領(lǐng)域內(nèi)的知識,如 BI 知識庫的同環(huán)比、累計等術(shù)語,保險知識庫的各種保險行業(yè)名詞,以及 SQL 知識庫的 SQL 編寫規(guī)范。

知識庫的維護需要投入大量的精力,但是知識庫的豐富度與語義解析和結(jié)果生成的準確性息息相關(guān),是非常必要的工作。

三、產(chǎn)品效果

圖片

案例 1:對話式問數(shù)

我們已經(jīng)上線了隨機報表功能,主要功能是問數(shù),支持用戶隨機提問,系統(tǒng)快速解答,同時支持同比、環(huán)比和排序等復雜查詢。

用戶可以隨機提問,例如查詢某個機構(gòu)的業(yè)績。系統(tǒng)通過大模型、意圖識別和知識庫對意圖進行識別,解析出時間、指標、計算方法和維度,然后通過知識庫進行二次校準,進入任務(wù)編排階段。接下來是 UM 鑒權(quán),根據(jù)用戶賬號確定用戶是否有權(quán)限使用該指標。之后是 SQL 生成,調(diào)用數(shù)據(jù)庫進行秒級查詢。最后是對結(jié)果進行可視化包裝和美化。

圖片

案例 2:言出必答

我們還實現(xiàn)了一些其他功能點,比如“言出必答”,用戶可以查詢指標的元數(shù)據(jù)和口徑,系統(tǒng)能快速展示數(shù)據(jù)庫底層的數(shù)據(jù)治理知識。

圖片

案例 3:SQL 生成與問題推薦

此外,隨機報表功能提供了兜底話術(shù),當用戶提問不完整時,系統(tǒng)可以補齊默認信息,如補齊時間。還能幫助有代碼能力的人員直接使用我們系統(tǒng)生成的代碼。

圖片

四、落地挑戰(zhàn)

圖片

我們在開發(fā)過程中也遇到了很多挑戰(zhàn)。

  • 第一是大模型的幻覺問題,即同一個問題可能會出現(xiàn)不同的回答,我們的解決方案是通過知識庫和數(shù)據(jù)中臺進行兜底策略。
  • 第二是根因分析,這是我們認為最難的問題,當分析指標變動的深層原因時,需要在后臺有大量的指標圖譜和知識庫支撐,需要花費大量的精力建設(shè)小模型,這也是我們未來重點的方向。
  • 第三,用戶權(quán)限管理也是一個重要但容易被忽略的點,我們需要長期的數(shù)據(jù)治理和盤點,以確保每個用戶只能使用其授權(quán)的指標,避免出現(xiàn)數(shù)據(jù)安全問題。

五、總結(jié)與展望

圖片

整體而言,我們認為這個項目的價值在于以下六個方面:

  • 首先,我們的產(chǎn)品不僅限于管理層使用,而是可以覆蓋到所有員工和客戶。
  • 其次,我們可以實現(xiàn) 7×24 小時的在線應(yīng)用。
  • 第三,我們可以無縫銜接到不同的客戶端。
  • 第四,我們提供的是標準一致的全域數(shù)據(jù)。
  • 第五,我們能提供智能化的分析,降低分析門檻。
  • 最后,我們能提供數(shù)據(jù)洞察的結(jié)論或建議,使數(shù)據(jù)洞察成為一個完整的分析過程。

感謝各位同仁的聆聽。我們平安人壽的大模型智能化報表——ChatBI 產(chǎn)品的介紹和討論到此結(jié)束。期待與各位進一步交流和合作,共同推動數(shù)字化轉(zhuǎn)型的進程。

六、問答環(huán)節(jié)

Q1:平安人壽的 Chat BI 生成是使用專用的大模型,還是通過微調(diào)通用大模型來實現(xiàn)的?另外,在 Python 和 SQL 兩個選擇之間,您的規(guī)劃和側(cè)重點是什么?

A1:我們目前使用的大模型是私有部署的 Qwen 72b 模型,并進行了微調(diào)和多項工程優(yōu)化。由于金融企業(yè)的特殊規(guī)范,我們更傾向于私有化部署。對于 SQL 生成和 Python 功能,我們根據(jù)不同場景進行規(guī)劃。例如,我們上線的隨機報表功能主要生成 SQL 語句,大模型主要負責語義理解,之后通過 API 方式和 NLP 技術(shù)生成代碼,我們底層的數(shù)據(jù)服務(wù)中臺可以快速生成數(shù)據(jù)查詢。之前嘗試過讓大模型生成 SQL,但發(fā)現(xiàn)實現(xiàn)路徑和精準度提升較慢,難度較高,因此我們采用了現(xiàn)有的指標平臺。Python 功能我們規(guī)劃用于數(shù)據(jù)分析。

Q2:關(guān)于數(shù)據(jù)權(quán)限的管理,您是如何控制行列權(quán)限的?

A2:我們的數(shù)據(jù)權(quán)限管理已經(jīng)從早期的行級別權(quán)限服務(wù),進化到可以進行列級別的權(quán)限管理,我們認為列級別的權(quán)限管理更為細致和安全。為此,我們在數(shù)據(jù)指標上投入了兩三年的時間進行數(shù)據(jù)治理和數(shù)據(jù)庫中臺的搭建。目前,我們底層有一個權(quán)限服務(wù),每次用戶調(diào)用時,都會進行鑒權(quán)檢查,確保用戶和指標的權(quán)限范圍和關(guān)系已經(jīng)預設(shè)好。

Q3:關(guān)于用戶提問的問題,不同的用戶可能對同一個問題有不同的描述,大模型可能會給出不同的判斷。您提到的兜底方案,能否詳細說明一下?

A3:關(guān)于大模型的幻覺問題,我們確實遇到過,這個問題需要花費大量時間去分析 bad case,我們認為沒有什么捷徑可走,需要不斷收集 bad case,并在意圖識別中加入各種知識。同時,我們的模型也需要不斷細化,針對不同場景和用戶提問進行服務(wù)細分。我們已經(jīng)分析了十幾輪,上千個 bad case,并不斷進行分析。我們在產(chǎn)品端設(shè)置了點贊功能,對于點贊的問題,我們會進行重點關(guān)注,產(chǎn)品運營人員會對每個案例進行分析。我們認為,通過知識庫和數(shù)據(jù)中臺的維護和優(yōu)化,可以解決這個問題,而不是通過調(diào)整一兩個參數(shù)就能解決的。

Q4:關(guān)于根因分析,如果我們要做好它,需要給大模型輸入哪些東西?

A4:要做好根因分析,我們需要輸入指標之間的勾稽關(guān)系和相關(guān)性,這些知識需要形成知識圖譜輸入給大模型。我們通過業(yè)內(nèi)調(diào)研了解到,方向都是要梳理好自己的指標圖譜,因為一個指標可能受多個指標的影響,包括顯性和隱性的影響。這需要在底層做好數(shù)據(jù)模型去支持計算他們的相關(guān)性,包括時間滯后性等問題。大方向就是要有指標圖譜,我們已經(jīng)開始著手這個工作了。

Q5:關(guān)于知識圖譜,除了指標圖譜之外,是否還涉及到其他的圖譜?

A5:我們的知識圖譜主要涉及指標圖譜,包括指標之間的血緣關(guān)系等,我們的數(shù)據(jù)中臺已經(jīng)包含了這些關(guān)系。至于是否涉及到企業(yè)或其他實體或關(guān)系,我們的圖譜主要是指標方面的,因為我們的產(chǎn)品是對內(nèi)的。技術(shù)方案方面,我們把圖譜直接放在數(shù)據(jù)庫里面,作為一個服務(wù),通過接口進行調(diào)用。我們有能力窮舉它們之間的關(guān)系,并通過算法計算出指標和指標之間的隱性關(guān)系,因此我們也具備相關(guān)的圖算法能力。

責任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2024-12-23 08:09:31

2024-04-29 07:13:13

2010-11-12 13:08:51

平安人壽E服務(wù)電子函件

2024-11-25 08:20:22

2017-10-30 15:27:49

R機器學習大數(shù)據(jù)

2024-09-04 15:38:12

2022-08-10 10:32:47

編程實踐

2013-01-11 09:46:04

英特爾

2023-09-21 16:27:25

deepin大模型人工智能

2014-11-17 11:05:20

智能華為

2024-05-31 17:15:19

2019-07-30 11:30:53

平安平安云金融云

2023-09-13 07:19:46

數(shù)據(jù)開發(fā)平臺治理平臺
點贊
收藏

51CTO技術(shù)棧公眾號