文心大模型賦能商業(yè)智能助手的探索與實踐
一、商業(yè)信息查詢介紹
首先來介紹一下商業(yè)信息查詢的應(yīng)用場景。
- 商務(wù)合作:評估合作伙伴的資質(zhì)和規(guī)模,判斷合作潛力。
- 銷售展業(yè):快速獲取目標(biāo)企業(yè)的有效聯(lián)系方式,加速業(yè)務(wù)推進(jìn)。
- 成本控制:通過了解供應(yīng)商的成本結(jié)構(gòu)和心理底價,運(yùn)用博弈策略優(yōu)化采購價格,實現(xiàn)成本節(jié)約。
- 消費(fèi)決策:“職業(yè)閉店人”泛濫,如何在辦理各種消費(fèi)卡時避免踩雷。
- 投資理財:如何選擇股票,避免被“割韭菜”。
以上場景中,有些是現(xiàn)代商業(yè)決策的關(guān)鍵,有些則與我們個人生活息息相關(guān)。要解決這些問題,方案之一就是去查詢這些企業(yè)的信息,其投資關(guān)系、供應(yīng)鏈關(guān)系,這就是商業(yè)信息查詢。
商業(yè)信息查詢是一個職場多邊手,能夠助力我們的一些重要決策。
大部分商業(yè)信息查詢服務(wù),如天眼查、企查查、愛企查等,主要通過整合來自公開渠道、第三方平臺和官方記錄的海量數(shù)據(jù),為用戶提供全面、精準(zhǔn)的信息服務(wù)。這些平臺收集包括企業(yè)注冊信息、財務(wù)數(shù)據(jù)、法律訴訟、行業(yè)動態(tài)等多元信息,將其產(chǎn)品化,以滿足不同用戶需求。
服務(wù)對象廣泛,既面向 B 端企業(yè),幫助企業(yè)進(jìn)行市場調(diào)研、競爭對手分析、風(fēng)險評估等,也惠及 C 端個人用戶,在消費(fèi)決策、投資理財、職業(yè)規(guī)劃等方面提供數(shù)據(jù)支持。以百度旗下愛企查為例,其效果顯著,為用戶提供了高效、便捷的商業(yè)信息查詢體驗。通過這些平臺,用戶能夠快速獲取所需信息,做出更明智的商業(yè)和生活決策。
我們在去年底開始利用 Copilot 來助力愛企查轉(zhuǎn)型升級,革新交互體驗,提升商業(yè)效率。Copilot 的核心功能在于精準(zhǔn)匹配供需雙方,既滿足買家的采購需求,又確保賣家的優(yōu)質(zhì)供給,通過高效撮合,促進(jìn)了雙方的深度交流與合作。
至今年 3 月,Copilot 系統(tǒng)展現(xiàn)出顯著成效,具體表現(xiàn)為:
- 對話滿意度提升 52%:通過智能匹配,對話質(zhì)量顯著提高,用戶反饋更加積極。
- 對話開口率提升 54%:系統(tǒng)精準(zhǔn)推薦,有效提高了雙方溝通的針對性和效率。
- 日均留資量提升 329%:這一商業(yè)指標(biāo)的大幅提升,意味著系統(tǒng)能夠顯著增加用戶的活躍度和粘性,對于愛企查這樣的通用平臺而言,這意味著從免費(fèi)用戶到付費(fèi)用戶的轉(zhuǎn)化率得到了顯著提升。
Copilot 通過優(yōu)化匹配機(jī)制,不僅提升了用戶對話的滿意度和效率,還直接促進(jìn)了企業(yè)的收益增長,增強(qiáng)了用戶體驗。這一成果證明,Copilot 是企業(yè)數(shù)字化轉(zhuǎn)型的有效工具。通過 Compiler,企業(yè)能夠更加精準(zhǔn)地觸達(dá)目標(biāo)客戶,提高轉(zhuǎn)化率,實現(xiàn)商業(yè)目標(biāo)的同時,也為用戶創(chuàng)造更多價值。
二、文心大模型構(gòu)建商業(yè)智能助手的幾種模式
接下來介紹我們?nèi)绾卫梦男拇竽P蜆?gòu)建商業(yè)智能助手。
1. 檢索增強(qiáng)技術(shù)(RAG)
第一種模式就是利用檢索增強(qiáng)技術(shù),即檢索一些文檔用做知識增強(qiáng)。然而,單純依賴 RAG 在商業(yè)場景下的局限性逐漸顯現(xiàn),尤其是在面對龐大商業(yè)知識庫和復(fù)雜企業(yè)關(guān)系時,直接的網(wǎng)絡(luò)文檔檢索往往無法提供準(zhǔn)確、深入的信息。這正是愛企查等商業(yè)信息查詢平臺存在的價值,它們擁有數(shù)億條企業(yè)數(shù)據(jù)和數(shù)十億條商業(yè)知識,遠(yuǎn)超普通搜索引擎的覆蓋范圍。
挑戰(zhàn)與局限在于:
- 理解深度與廣度的缺失:例如查詢企業(yè)聯(lián)系方式,RAG 往往返回客服電話,而對于銷售或商務(wù)合作,這顯然不夠精準(zhǔn)。再如騰訊投資案例,RAG 可能列出美團(tuán)、拼多多,卻忽略了這些公司與騰訊的間接投資關(guān)系,以及騰訊內(nèi)部復(fù)雜的投資架構(gòu)。
- 推理能力的局限:查詢騰訊老板投資的公司,RAG 給出的仍是騰訊直接投資的企業(yè),未能理解“騰訊老板”指代的是馬化騰,且馬化騰的個人投資與騰訊公司投資存在差異。
為克服上述挑戰(zhàn),我們提出了一種融合企業(yè)自建知識庫與文心大模型的解決方案。
首先,對用戶查詢進(jìn)行深度意圖識別,明確查詢目標(biāo)是特定企業(yè)及所需屬性(如電話、法人等)接著,利用企業(yè)知識庫進(jìn)行精準(zhǔn)查詢,將查詢結(jié)果反饋給文心大模型,由其生成最終的、高度個性化的回答。
例如,查詢騰訊的聯(lián)系電話時,我們先識別出查詢意圖,然后在知識庫中以“騰訊”為 key,“電話”為 value 進(jìn)行查詢,將結(jié)果交由文心大模型處理,生成精確回答。對于騰訊投資的公司,模型不再局限于表面關(guān)聯(lián),而是揭示了如華誼兄弟等與騰訊有實際持股比例的復(fù)雜關(guān)系。
又如,查詢騰訊的法人投資了哪些公司。這時的意圖識別變得更加復(fù)雜。為了解決這類復(fù)雜查詢,我們提出了知識圖譜檢索方案。
在查詢時,不再是簡單地通過寫一些規(guī)則去查,而是利用大模型的代碼生成能力,生成 SQL 查詢語句。然而直接生成代碼的準(zhǔn)確率初時較低,大約在 10% 左右,這主要是由于模型對具體數(shù)據(jù)庫結(jié)構(gòu)理解的不足。
為提高代碼生成的準(zhǔn)確率,我們采取了以下兩步優(yōu)化策略:
- 注入表結(jié)構(gòu)知識:首先,我們向模型中注入數(shù)據(jù)庫的表結(jié)構(gòu)(schema)信息,幫助模型理解數(shù)據(jù)庫字段,減少字段匹配錯誤。這一舉措顯著提升了代碼的正確性,準(zhǔn)確率可提升至 40% 左右。
- 樣例學(xué)習(xí):進(jìn)一步,我們利用大模型的學(xué)習(xí)能力,通過提供具體場景下的樣例查詢,讓模型在實際應(yīng)用中學(xué)習(xí)和優(yōu)化。這種 in-context learning(上下文學(xué)習(xí))策略使得模型能夠根據(jù)樣例調(diào)整生成策略,準(zhǔn)確率可進(jìn)一步提升至 70% 到 80%,實現(xiàn)了質(zhì)的飛躍。
然而,大模型上下文窗口是有限制的,當(dāng)查詢涉及多表、多字段的復(fù)雜數(shù)據(jù)庫時,直接將所有表結(jié)構(gòu)(schema)信息嵌入 prompt 中變得不切實際。為解決這一問題,我們采用了 schema linking 策略:
- 動態(tài) schema 提?。菏紫?,根據(jù)用戶查詢內(nèi)容,動態(tài)識別所需查詢的表及字段,避免一次性加載全部表結(jié)構(gòu)。
- 縮減與優(yōu)化:通過分析查詢需求,僅將相關(guān)表的 schema 信息嵌入 prompt,實現(xiàn)對上下文窗口的有效利用。
最終,這一策略不僅解決了上下文窗口限制,還提升了查詢效率,確保了大模型在復(fù)雜數(shù)據(jù)庫查詢場景下的實際可用性。
去年項目啟動時,我們對零樣本(zero-shot)和少量樣本(few-shot)學(xué)習(xí)的效果進(jìn)行了初步調(diào)研,比較了文心 ErnieBot、ChatGLM、ChatGLM 精調(diào)和 LLaMA-Chinese-alpaca 精調(diào)的表現(xiàn)。調(diào)研結(jié)果表明,盡管這些模型在服務(wù)效率上表現(xiàn)出了初步的實用性,但與實際應(yīng)用落地的高要求相比,仍有不小差距。這一發(fā)現(xiàn)促使我們深入研究模型優(yōu)化策略,特別是如何通過樣例學(xué)習(xí)(in-context learning)和大模型的反思能力提升模型性能。
我們發(fā)現(xiàn),通過給定特定場景下的樣例,模型能夠?qū)W習(xí)到更具體的查詢模式,從而顯著提升查詢準(zhǔn)確性。然而,模型在生成代碼(如圖數(shù)據(jù)庫的查詢語句)時,仍可能出現(xiàn)錯誤,這引發(fā)了外界對大模型能力的質(zhì)疑。值得注意的是,大模型具備自我反思與修正的能力,這一特性為提升整體準(zhǔn)確率提供了新的途徑。
我們讓模型在生成查詢語句后,進(jìn)行自我檢查與修正。以圖數(shù)據(jù)庫為例,模型生成的圖查詢語句(GQL)可能包含邊向性(in/out)錯誤,或存在點(diǎn)與邊的匹配錯誤。通過讓模型反思并修正這些錯誤,查詢的準(zhǔn)確性得到了顯著提升。例如,查詢“騰訊有哪些高管?”時,模型能夠識別并修正邊的向性錯誤,將錯誤的“out”改為正確的“in”。同樣,對于“查詢馬化騰在騰訊的職位?”這一問題,模型能夠識別并修正點(diǎn)到點(diǎn)、邊到點(diǎn)的匹配錯誤,確保查詢的準(zhǔn)確性。
這一策略的應(yīng)用,使得模型在復(fù)雜查詢場景下的表現(xiàn)大幅提升,最終線上準(zhǔn)確率超過 90%。
對于間接投資關(guān)系的查詢,模型展現(xiàn)了強(qiáng)大的通用性。例如,查詢“小米公司間接投資了哪些公司?”時,模型能夠追蹤復(fù)雜的多層投資鏈,揭示小米通過 A 公司間接投資 B 公司的關(guān)系,而無需依賴特定模板。這一能力僅通過大模型的代碼生成與反思能力即可實現(xiàn),展現(xiàn)了在復(fù)雜知識圖譜游走與查詢方面的強(qiáng)大潛力。
三、文心大模型構(gòu)建商業(yè)智能助手進(jìn)階
在很多場景中,我希望答案通過圖形可視化地呈現(xiàn)。
我們采用了開源工具 Apache ECharts。這一工具提供了很多不同種類的圖表,其中的關(guān)系圖非常契合商業(yè)信息查詢的場景。
我們設(shè)計了一套利用大模型生成可視化圖表的方案。首先,模型被定位為圖表專家,而非傳統(tǒng)的數(shù)據(jù)庫工程師。用戶提出需求,模型接收查詢結(jié)果數(shù)據(jù),最后生成圖表。這一方案取得了非常令人滿意的效果。
我們正在探索大模型在更深層次的應(yīng)用——企業(yè)風(fēng)險分析。這一領(lǐng)域關(guān)注企業(yè)的可靠性,評估其是否會突然終止運(yùn)營。通過收集目標(biāo)公司及其法定代表人的信息,結(jié)合關(guān)聯(lián)公司狀態(tài),我們能夠進(jìn)行綜合風(fēng)險分析,為用戶提供全面的公司評估。這一分析過程不僅涉及企業(yè)基本信息,還深入考察法定代表人的信用狀況,包括是否被列入失信名單,以及其名下其他公司運(yùn)營情況。通過整合這些數(shù)據(jù),我們能夠提供一個綜合風(fēng)險評分,幫助用戶判斷企業(yè)合作風(fēng)險。
由于此類深度分析涉及高級商業(yè)數(shù)據(jù),通常屬于 VIP 服務(wù)范疇,我們當(dāng)前產(chǎn)品的定位為服務(wù)于所有用戶,因此這一高級功能尚未正式推出。盡管如此,我們已成功在其他場景中應(yīng)用了這套風(fēng)險評估系統(tǒng),驗證了其有效性和實用性。
四、商業(yè)智能助手的未來展望
展望未來,大模型的最終價值在于應(yīng)用,尤其是如何切實提升我們的工作效率。
以會議場景為例,未來的智能助手將在會議上實現(xiàn)即時數(shù)據(jù)分析與市場調(diào)研,為決策提供數(shù)據(jù)支持。同時,它能主動思考會議中提出的問題,識別潛在商業(yè)機(jī)會,評估風(fēng)險,為討論提供詳實數(shù)據(jù),顯著提升會議效率。
這一愿景展現(xiàn)了大模型在日常生活與生產(chǎn)中的最大作用——幫助企業(yè)提效。通過智能助手的介入,我們能將更多精力投入創(chuàng)新與決策,讓技術(shù)真正服務(wù)于人,推動企業(yè)與社會的持續(xù)進(jìn)步。
以上就是本次分享的內(nèi)容,謝謝大家。
五、問答環(huán)節(jié)
Q1:剛才介紹的應(yīng)用,除了在愛企查,還有拓展到其它場景嗎?
A1:除了愛企查這一場景,大模型的應(yīng)用在企業(yè)內(nèi)部數(shù)據(jù)管理中也展現(xiàn)出廣闊前景?;A(chǔ)工作圍繞關(guān)系數(shù)據(jù)庫展開,通過 SQL 查詢,實現(xiàn)對內(nèi)部復(fù)雜數(shù)據(jù)的高效管理。這一工具在公司內(nèi)部得到廣泛使用,無論是產(chǎn)品經(jīng)理(PM)還是研發(fā)人員(RD),在面對臨時的數(shù)據(jù)查詢需求時,都頻繁依賴這一工具。然而,由于涉及內(nèi)部敏感數(shù)據(jù),無法公開演示,但其背后的方法論與愛企查場景相似,即通過將自然語言查詢轉(zhuǎn)化為 SQL 代碼,實現(xiàn)精確的數(shù)據(jù)檢索。
Q2:Prompt 是依靠特定的模版嗎?
A2:大模型的高效應(yīng)用依賴于專業(yè)的 Prompt 工程。百度強(qiáng)調(diào),未來的工作將從直接編寫代碼轉(zhuǎn)向設(shè)計 Prompt,即如何將自然語言轉(zhuǎn)化為大模型能理解的輸入格式。這要求工程師具備將專業(yè)領(lǐng)域知識融入 Prompt 的能力,以確保大模型能夠準(zhǔn)確執(zhí)行復(fù)雜任務(wù),如數(shù)據(jù)分析、市場調(diào)研等。Prompt 設(shè)計成為連接人類需求與大模型能力的關(guān)鍵橋梁。
Q3:內(nèi)部應(yīng)用的效果如何?
A3:在企業(yè)內(nèi)部使用大模型進(jìn)行數(shù)據(jù)管理,效果顯著。用戶反饋表明,對于企業(yè)用戶而言,問答體驗的提升達(dá)到了 50% 以上,顯著增強(qiáng)了數(shù)據(jù)查詢的效率和準(zhǔn)確性。此外,這一工具的應(yīng)用還為企業(yè)帶來了實質(zhì)性的商業(yè)轉(zhuǎn)化提升,轉(zhuǎn)化率增長超過 30%,體現(xiàn)了大模型在企業(yè)內(nèi)部數(shù)據(jù)管理與決策支持中的巨大價值。
大模型在企業(yè)內(nèi)部的應(yīng)用不僅限于愛企查等公開場景,其在內(nèi)部數(shù)據(jù)管理與決策支持中展現(xiàn)出的強(qiáng)大能力,為企業(yè)帶來了顯著的效率提升和商業(yè)價值。通過專業(yè)的 Prompt 工程,大模型能夠理解并執(zhí)行復(fù)雜的數(shù)據(jù)查詢?nèi)蝿?wù),實現(xiàn)與知識圖譜的深度融合,為企業(yè)內(nèi)部數(shù)據(jù)的高效管理提供了全新的解決方案。
Q4:我們最開始在去同步整個數(shù)據(jù)效果的時候提到了對話滿意度是 52%,這個滿意度是怎么算出來的?通過什么方式監(jiān)測出來的?
A4:滿意度評估基于用戶體驗,如查詢結(jié)果的準(zhǔn)確性,無法回答的查詢被視為不滿意。目前,評估大模型效果主要依賴人工,通過隨機(jī)抽樣數(shù)據(jù)進(jìn)行人工檢查,以標(biāo)簽形式給出滿意度指標(biāo)。盡管自動化評估是研究方向,使用大模型評估大模型的效果存在可靠性爭議,人依然是最可靠的評估者。當(dāng)前的評估指標(biāo)雖嘗試?yán)么竽P瓦M(jìn)行自我評估,但這種方法的自動化實現(xiàn)面臨挑戰(zhàn),可靠性尚待驗證。人工評估仍為確保大模型性能和服務(wù)質(zhì)量的關(guān)鍵手段。
Q5:對話開口率是什么樣的一個指標(biāo)?反映的是什么問題?
A5:對話開口率反映用戶與機(jī)器人互動的意愿,被視為用戶留存的指標(biāo)。百度研究院與愛企查平臺合作,采用此指標(biāo)評估用戶滿意度。若用戶初次查詢獲得滿意回答,次日可能再次互動;反之,不滿意體驗將降低再次提問的可能。通過量化對話開口率,可側(cè)面反映問答效果,作為人工評估的補(bǔ)充,間接衡量大模型的性能與用戶接受度。
Q6:如果把樣例放到 prompt 里面,會不會造成提示詞特別臃腫?
A6:大模型處理能力受限于長度,schema linking 成為關(guān)鍵,旨在優(yōu)化內(nèi)容,避免超長問題。樣例選擇與排序?qū)Y(jié)果影響重大,需精心挑選與布局。這深入到模型應(yīng)用的復(fù)雜層面,遠(yuǎn)超簡單操作,如 APP 構(gòu)建工具的直覺使用。尤其在數(shù)據(jù)科學(xué)領(lǐng)域,如代碼生成,精準(zhǔn)查找要求極高,需大量工作優(yōu)化樣例與 schema 鏈接,確保模型在長度限制下仍能高效、準(zhǔn)確地執(zhí)行任務(wù)。這要求深入理解模型機(jī)制,精心設(shè)計以應(yīng)對復(fù)雜查詢需求。
Q7:微調(diào)的形式和注入樣例的形式對比,有明顯的差距嗎?
A7:微調(diào)展現(xiàn)更優(yōu)效果,因其能全面學(xué)習(xí)樣本,克服樣例過多導(dǎo)致的注意力分散問題。相比之下,樣例注入雖便捷,但在效果上略遜一籌。微調(diào)雖效果顯著,但開發(fā)周期與部署成本高昂,需重新部署模型,遠(yuǎn)超直接調(diào)用 API 的經(jīng)濟(jì)性。我們曾對比 400 條樣例的 schema linking 與微調(diào),微調(diào)效果更佳,但成本控制是關(guān)鍵考量。在性能提升與成本效益間找到平衡,是優(yōu)化模型應(yīng)用的核心。
Q8:Open AI V3.5 為它所有的大模型提供了微調(diào)的接口,百度有類似的嗎?
A8:這個微調(diào)接口我們肯定是也有的。
百度千帆平臺,作為百度的模型開發(fā)與微調(diào)平臺,不僅支持自研的文獻(xiàn)模型,還兼容多種開源模型,如 Lama 3,廣泛應(yīng)用于遷移學(xué)習(xí)等領(lǐng)域。平臺提供從模型訓(xùn)練到評估,再到應(yīng)用程序開發(fā)的全套服務(wù),包括數(shù)據(jù)集管理、數(shù)據(jù)清洗、數(shù)據(jù)增強(qiáng)等功能。
用戶可在千帆平臺上進(jìn)行模型微調(diào)、部署及應(yīng)用程序開發(fā),如構(gòu)建 APP、模型部署或編寫自定義 Agent。平臺還支持模型評估,允許用戶構(gòu)建固定集合進(jìn)行性能檢驗,確保模型質(zhì)量??傊?,千帆平臺為開發(fā)者提供了一站式解決方案,覆蓋模型開發(fā)全流程,全面助力 AI 模型的高效構(gòu)建與應(yīng)用。
Q9:微調(diào)用的樣例,包括我們整個微調(diào)的過程,上就可以理解為是一種讓大模型預(yù)學(xué)習(xí),讓他具備某個領(lǐng)域的能力,然后前置地去具備這樣的能力,是這樣嗎?
A9:稍微有點(diǎn)不太準(zhǔn)確。
在千帆平臺中,模型層級被定義為 L0、L1、L2 三個階段。L0 代表大模型預(yù)訓(xùn)練階段,即基礎(chǔ)的通用大模型。L1 則為領(lǐng)域?qū)R模型,通過將特定行業(yè)的文檔納入訓(xùn)練,使模型理解并掌握領(lǐng)域內(nèi)的專有名詞,提升行業(yè)知識理解能力。L2 階段專注于特定任務(wù)的微調(diào),如 SQL 生成、代碼撰寫、文檔編寫、續(xù)寫或問答,這一階段稱為 task-specific fine-tuning(SFT),旨在讓模型在理解領(lǐng)域知識的基礎(chǔ)上,進(jìn)一步精煉特定任務(wù)的執(zhí)行能力。