27個(gè)大模型混戰(zhàn)電商領(lǐng)域,DeepSeek-R1&V3仍是最強(qiáng)丨首個(gè)中文電商問(wèn)答基準(zhǔn)評(píng)估結(jié)果
全面評(píng)估大模型電商領(lǐng)域能力,首個(gè)聚焦電商基礎(chǔ)概念的可擴(kuò)展問(wèn)答基準(zhǔn)來(lái)了!
ChineseEcomQA,來(lái)自淘天集團(tuán)。
此前,大模型常因生成事實(shí)性錯(cuò)誤信息而受限,而傳統(tǒng)基準(zhǔn)又難以兼顧電商任務(wù)的多樣性與領(lǐng)域特殊性。
但隨著大模型在電商領(lǐng)域的廣泛應(yīng)用,如何精準(zhǔn)評(píng)估其對(duì)專(zhuān)業(yè)領(lǐng)域知識(shí)的掌握成為關(guān)鍵挑戰(zhàn)。
為此,ChineseEcomQA針對(duì)性進(jìn)行了3大核心設(shè)計(jì):
- 基礎(chǔ)概念覆蓋:覆蓋20大行業(yè),聚焦10類(lèi)核心電商概念(如行業(yè)分類(lèi)、品牌屬性、用戶(hù)意圖等),包含1800組高質(zhì)量問(wèn)答,適配多樣電商任務(wù);
- 混合數(shù)據(jù)構(gòu)建:融合LLM生成、檢索增強(qiáng)(RAG)與人工標(biāo)注,確保數(shù)據(jù)質(zhì)量與領(lǐng)域?qū)I(yè)性;
- 平衡評(píng)估維度:兼顧行業(yè)通用性與專(zhuān)業(yè)性,支持精準(zhǔn)領(lǐng)域能力驗(yàn)證。
ChineseEcomQA構(gòu)建流程
從電子商務(wù)基本元素(用戶(hù)行為、商品信息等)出發(fā),團(tuán)隊(duì)總結(jié)出電子商務(wù)概念的主要類(lèi)型。
最終定義了從基礎(chǔ)概念到高級(jí)概念的10個(gè)子概念(具體詳見(jiàn)論文):
行業(yè)分類(lèi)、行業(yè)概念、類(lèi)別概念、品牌概念、屬性概念、口語(yǔ)概念、意圖概念、評(píng)論概念、相關(guān)性概念、個(gè)性化概念。
然后,研究人員采用混合的數(shù)據(jù)集構(gòu)建過(guò)程,結(jié)合LLM驗(yàn)證、RAG驗(yàn)證和嚴(yán)格的人工標(biāo)注,確?;鶞?zhǔn)符合三個(gè)核心特性:
- 專(zhuān)注基礎(chǔ)概念
- 電商知識(shí)通用性
- 電商知識(shí)專(zhuān)業(yè)性
具體來(lái)說(shuō),構(gòu)建ChineseEcomQA主要分為自動(dòng)化問(wèn)答對(duì)生成和質(zhì)量驗(yàn)證兩個(gè)階段。
第一階段,問(wèn)答對(duì)生成。
研究者收集了大量知識(shí)豐富且涵蓋各種相關(guān)概念的電子商務(wù)語(yǔ)料庫(kù)。
然后,提示大模型(GPT-4o)根據(jù)給定的內(nèi)容忠實(shí)地生成問(wèn)答對(duì);對(duì)于比較開(kāi)放的問(wèn)題,要求大模型同時(shí)提供非?;靵y和困難的候選答案。
從而自動(dòng)化地構(gòu)建出大量問(wèn)答對(duì)作為初始評(píng)測(cè)集。
第二階段,質(zhì)量驗(yàn)證。
我們開(kāi)發(fā)了一個(gè)多輪自動(dòng)化流程對(duì)生成的問(wèn)答對(duì)進(jìn)行驗(yàn)證,重新生成或過(guò)濾不符合標(biāo)準(zhǔn)的問(wèn)題。
具體包括大模型驗(yàn)證、電子商務(wù)通用知識(shí)驗(yàn)證、電子商務(wù)專(zhuān)業(yè)知識(shí)驗(yàn)證、電子商務(wù)事實(shí)性驗(yàn)證、難度篩選、人工驗(yàn)證。
經(jīng)過(guò)多重嚴(yán)格篩選,最終得到均勻覆蓋10大類(lèi)電商子概念的1800條高質(zhì)量問(wèn)答對(duì)作為終版數(shù)據(jù)集。
DeepSeek-R1和V3表現(xiàn)最佳
評(píng)估了11個(gè)閉源模型和16個(gè)開(kāi)源模型,得出如下排名榜:
(注:對(duì)于子概念,IC、IDC、CC、BC、AC、SC、ITC、RVC、RLC 和 PC 分別代表“行業(yè)分類(lèi)”“行業(yè)概念”“類(lèi)別概念”“品牌概念”“屬性概念”“口語(yǔ)概念”“意圖概念”“評(píng)論概念”“相關(guān)性概念”和“個(gè)性化概念”)
總的來(lái)看,DeepSeek-R1和DeepSeek-V3是表現(xiàn)最好的模型,展示了強(qiáng)大的基礎(chǔ)模型(推理模型)在電子商務(wù)領(lǐng)域的巨大潛力。
此外,研究團(tuán)隊(duì)對(duì)主流模型表現(xiàn)分析并得出了以下發(fā)現(xiàn):
- 更大的模型在高級(jí)電商概念上表現(xiàn)更好,遵循Scaling Law,但小模型在特定電商任務(wù)上仍面臨顯著挑戰(zhàn)。
- 中文社區(qū)模型(如Qwen系列、GLM-4)在電商場(chǎng)景適應(yīng)性上表現(xiàn)突出,尤其是在高級(jí)電子商務(wù)概念上。雖然O1-preview在基本概念上表現(xiàn)更好,但在更高級(jí)的概念上面臨困難。
- 某些類(lèi)型的電子商務(wù)概念(如相關(guān)性概念)仍然對(duì) LLM 構(gòu)成重大挑戰(zhàn)。大參數(shù)量模型由于其強(qiáng)大的通用能力,可以泛化到電商任務(wù)上,而小參數(shù)量模型則更有困難。這些特點(diǎn)體現(xiàn)了專(zhuān)門(mén)開(kāi)發(fā)電商領(lǐng)域模型的必要性。
- Deepseek-R1-Distill-Qwen系列的表現(xiàn)不如原始的Qwen系列,主要原因是在推理過(guò)程中引入知識(shí)點(diǎn)錯(cuò)誤,進(jìn)而導(dǎo)致最終結(jié)論出錯(cuò)。
- 開(kāi)源模型和閉源模型之間的性能差距很小。以Deepseek為代表的開(kāi)源模型使二者達(dá)到了相似的水平。
- 通過(guò)引入RAG策略,模型的性能顯著提升,縮小了不同模型之間的性能差距。
- LLM的自我評(píng)估能力(校準(zhǔn))在不同模型中存在差異,更大的模型通常表現(xiàn)出更好的校準(zhǔn)能力。
- Reasoning LLM需警惕“思維鏈中的事實(shí)性錯(cuò)誤累積”,尤其是蒸餾模型。
同時(shí),團(tuán)隊(duì)還在ChineseEcomQA上探索了模型校準(zhǔn)、RAG、推理模型思維過(guò)程等熱門(mén)研究課題(具體詳見(jiàn)論文)。
模型往往對(duì)回答“過(guò)于自信”
一個(gè)完美校準(zhǔn)的模型應(yīng)該表現(xiàn)出與其預(yù)測(cè)準(zhǔn)確度一致的置信度。
ChineseEcomQA團(tuán)隊(duì)通過(guò)提示模型在回答問(wèn)題的同時(shí)給出其對(duì)回答內(nèi)容的置信度(范圍0到100),探索模型的事實(shí)準(zhǔn)確性與置信度之間的關(guān)系。
結(jié)果顯示,o1-preview表現(xiàn)出最佳對(duì)齊性能,其次是o1-mini。
然而,大多數(shù)模型始終低于完美對(duì)齊線,表明模型普遍存在過(guò)度自信的趨勢(shì)。
這凸顯了改進(jìn)大型語(yǔ)言模型校準(zhǔn)以減輕過(guò)度自信產(chǎn)生錯(cuò)誤響應(yīng)的巨大空間。
RAG仍是快速提升模型能力的捷徑
研究過(guò)程中,團(tuán)隊(duì)探討了RAG策略在ChineseEcomQA數(shù)據(jù)集上增強(qiáng)LLM領(lǐng)域知識(shí)的有效性。
具體來(lái)說(shuō),研究者在類(lèi)別概念和品牌概念上的設(shè)置重現(xiàn)了一個(gè)RAG系統(tǒng)。
結(jié)果顯示,所有模型都通過(guò)RAG都得到了顯著提升。研究人員總結(jié)出三個(gè)詳細(xì)的結(jié)論。
第一,對(duì)于小型LLM,引入RAG信息可以顯著提高評(píng)估指標(biāo)的絕對(duì)值。
例如,Qwen2.5-14B實(shí)現(xiàn)了27.9%的改進(jìn)。
第二,對(duì)于大型LLM,RAG也可以實(shí)現(xiàn)顯著的相對(duì)改進(jìn)。
例如,DeepSeek-V3的平均相對(duì)改進(jìn)達(dá)到了10.44%(準(zhǔn)確率從77.4提高到85.5)。
第三,在RAG設(shè)置下,模型之間的性能仍然遵循縮放規(guī)律,但差距迅速縮小。
例如,Deepseek-V3和Qwen2.5-72B之間的準(zhǔn)確率差異從12.1%縮小到 4%。
總之,RAG仍是增強(qiáng)LLM電子商務(wù)知識(shí)的有效方法。
警惕“思維鏈中的事實(shí)性錯(cuò)誤累積”
在主要結(jié)果中,Deepseek-R1取得了最佳結(jié)果,充分展示了Reasoning LLM在開(kāi)放領(lǐng)域中的潛力。
然而,在從Deepseek-R1蒸餾出的Qwen系列模型上,準(zhǔn)確率明顯低于預(yù)期。
由于開(kāi)源Reasoning LLM揭示了它們的思維過(guò)程,研究者進(jìn)一步調(diào)查其錯(cuò)誤的原因,并將推理模型的思維過(guò)程分為以下四種類(lèi)型:
- Type A:Reasoning LLM通過(guò)自我反思反復(fù)確認(rèn)正確答案。
- Type B:Reasoning LLM最初犯了錯(cuò)誤,但通過(guò)自我反思糾正了錯(cuò)誤。
- Type C:Reasoning LLM通過(guò)自我反思引入知識(shí)錯(cuò)誤,導(dǎo)致原本可能正確的答案被修改為不正確的答案。
- Type D:Reasoning LLM反復(fù)自我反思。雖然最終得出了答案,但并沒(méi)有通過(guò)反思獲得高度確定和自信的答案。
總體而言,Type A和Type B是通過(guò)擴(kuò)大test-time計(jì)算量獲得的推理能力;Type C和Type D是膚淺的自我反思,導(dǎo)致最終答案不正確。
由于Deepseek-R1強(qiáng)大的buase模型能力表現(xiàn)出更好的泛化能力。
相比之下,在某些特定領(lǐng)域蒸餾的DeepSeek-R1-Distill-Qwen系列似乎在膚淺的自我反思方面遇到了困難。中間推理步驟中事實(shí)錯(cuò)誤的積累增加了整體錯(cuò)誤率。
對(duì)于較小的推理LLM,開(kāi)放領(lǐng)域的推理能力不能直接通過(guò)數(shù)理邏輯能力來(lái)泛化,需要找到更好的方法來(lái)提高它們的性能。
One More Thing
該論文核心作者包括陳海斌,呂康滔,袁愈錦,蘇文博,研究團(tuán)隊(duì)來(lái)自淘天集團(tuán)算法技術(shù) - 未來(lái)生活實(shí)驗(yàn)室。
該實(shí)驗(yàn)室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類(lèi)AI Native應(yīng)用,引領(lǐng) AI 在生活消費(fèi)領(lǐng)域的技術(shù)創(chuàng)新。
淘天集團(tuán)算法技術(shù) - 未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)將持續(xù)更新和維護(hù)數(shù)據(jù)集及評(píng)測(cè)榜單,歡迎廣大研究者使用我們的評(píng)測(cè)集進(jìn)行實(shí)驗(yàn)和研究~
論文鏈接:https://arxiv.org/abs/2502.20196
項(xiàng)目主頁(yè):https://openstellarteam.github.io/ChineseEcomQA/
代碼倉(cāng)庫(kù):https://github.com/OpenStellarTeam/ChineseEcomQA
數(shù)據(jù)集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-EcomQA