自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多樣任務(wù)真實(shí)數(shù)據(jù),大模型在線購物基準(zhǔn)Shopping MMLU開源|NeurIPS&KDD Cup 2024

人工智能
Shopping MMLU是一個(gè)針對(duì)大語言模型和在線購物領(lǐng)域設(shè)計(jì)的評(píng)測(cè)指標(biāo)。其包含廣泛的任務(wù)和能力覆蓋(4項(xiàng)重要能力,共計(jì)57個(gè)任務(wù)),可以全面評(píng)估大語言模型在在線購物領(lǐng)域的能力和潛力。

誰是在線購物領(lǐng)域最強(qiáng)大模型?也有評(píng)測(cè)基準(zhǔn)了。

基于真實(shí)在線購物數(shù)據(jù),電商巨頭亞馬遜終于“亮劍”——

聯(lián)合香港科技大學(xué)、圣母大學(xué)構(gòu)建了一個(gè)大規(guī)模、多任務(wù)評(píng)測(cè)基準(zhǔn)Shopping MMLU,用以評(píng)估大語言模型在在線購物領(lǐng)域的能力與潛力。

圖片

一直以來,想要完整建模在線購物相當(dāng)復(fù)雜,主要痛點(diǎn)是:

  • 多任務(wù)性:在線購物中存在多樣的實(shí)體(例如商品、屬性、評(píng)論、查詢關(guān)鍵詞等)、關(guān)系(例如關(guān)鍵字和商品的匹配度,商品和商品之間的兼容性、互補(bǔ)性)和用戶行為(瀏覽、查詢、和購買)。

對(duì)這些實(shí)體、關(guān)系和行為和聯(lián)合建模與理解構(gòu)成一個(gè)復(fù)雜的多任務(wù)(multi-task)學(xué)習(xí)問題。

  • 少樣本性:在線購物平臺(tái)會(huì)不斷面臨新用戶、新商品、新商品品類等帶來的冷啟動(dòng)(cold-start)場(chǎng)景。在冷啟動(dòng)場(chǎng)景下,在線購物平臺(tái)需要解決少樣本(few-shot)學(xué)習(xí)問題。

不過,諸如GPT,T5,LLaMA等的大語言模型(LLM)已經(jīng)展現(xiàn)出了強(qiáng)大的多任務(wù)和少樣本學(xué)習(xí)能力,因而有潛力在在線購物領(lǐng)域中得到廣泛應(yīng)用。

而為了進(jìn)一步找出最強(qiáng)、最具潛力的LLM,測(cè)試基準(zhǔn)Shopping MMLU應(yīng)運(yùn)而生——

與現(xiàn)有數(shù)據(jù)集相比,Shopping MMLU覆蓋了更多的能力(四項(xiàng))和任務(wù)(57個(gè))

同時(shí),基于Shopping MMLU,亞馬遜舉辦了KDD Cup 2024數(shù)據(jù)挖掘競(jìng)賽,吸引了全球超過500支隊(duì)伍參賽。

廣泛的能力和任務(wù)覆蓋

為了全面、充分評(píng)估大語言模型在在線購物領(lǐng)域中的能力,研究首先分析了在線購物領(lǐng)域的獨(dú)特性:

  • 特定領(lǐng)域的短文本:在線購物中存在大量的特定領(lǐng)域名詞,例如品牌、產(chǎn)品名、產(chǎn)品線等。此外,這些特定領(lǐng)域名詞往往出現(xiàn)于短文本中,例如查詢關(guān)鍵詞、屬性名-值對(duì)等。因此,在缺乏上下文的短文本中理解特定領(lǐng)域名詞,是在線購物領(lǐng)域的一個(gè)獨(dú)特挑戰(zhàn)。
  • 商品的隱含知識(shí):大部分商品都隱含特定的知識(shí),例如AirPods使用藍(lán)牙連接,不需要轉(zhuǎn)接線;碳纖維制品一般重量很輕等。如何準(zhǔn)確理解不同商品隱含的知識(shí)并且進(jìn)行推理,是在線購物領(lǐng)域的另一個(gè)獨(dú)特挑戰(zhàn)。
  • 異質(zhì)且隱式的用戶行為:在線購物平臺(tái)上存在多種多樣的用戶行為,例如瀏覽、查詢、加購物車、購買等。這些行為大部分都不以語言表達(dá),因此如何全面理解這些異質(zhì)的用戶行為,是在線購物所必須解決的問題。
  • 多語言任務(wù):在線購物平臺(tái)往往在不止一個(gè)地區(qū)運(yùn)營(yíng),因此需要模型能同時(shí)理解多種語言描述下的商品和用戶問題。

圖片

基于以上分析,研究構(gòu)造了Shopping MMLU,覆蓋四項(xiàng)在線購物能力,共計(jì)57個(gè)任務(wù):

  • 在線購物概念理解
  • 在線購物知識(shí)推理
  • 用戶行為理解
  • 多語言能力

下表可見,Shopping MMLU相比現(xiàn)有數(shù)據(jù)集覆蓋了更多的能力和任務(wù)。

圖片

能力和任務(wù)構(gòu)成如下圖所示。

圖片

Shopping MMLU大部分由真實(shí)的亞馬遜在線購物數(shù)據(jù)構(gòu)造,并且經(jīng)過人工檢驗(yàn),盡可能排除低質(zhì)量數(shù)據(jù),例如標(biāo)注錯(cuò)誤,缺乏必要信息等。

部分問題示例如下。

圖片
圖片
圖片

主流大語言模型成績(jī)單

研究選取了共27個(gè)主流大語言模型進(jìn)行實(shí)驗(yàn)分析,其中包括:

  • 閉源模型(Claude-3, Claude-2, GPT)
  • 開源通用領(lǐng)域模型(LLaMA2、LLaMA3、QWen、Mistral)
  • 開源特定領(lǐng)域模型(eCeLLM,經(jīng)過在線購物領(lǐng)域數(shù)據(jù)進(jìn)行微調(diào))

實(shí)驗(yàn)結(jié)果如下表所示。

圖片

研究發(fā)現(xiàn),雖然閉源模型仍然處于領(lǐng)先(例如Claude-3 Sonnet整體排名第一),但開源模型已經(jīng)能夠趕上閉源模型的性能(例如QWen和LLaMA3)。

此外,特定領(lǐng)域模型eCeLLM并未在同參數(shù)量級(jí)下取得最好成績(jī),說明Shopping MMLU是一個(gè)有相當(dāng)難度的評(píng)測(cè)基準(zhǔn),無法通過簡(jiǎn)單的微調(diào)取得好成績(jī)。

如何打造在線購物領(lǐng)域大模型

基于Shopping MMLU,研究分析常用的大模型增強(qiáng)手段,進(jìn)一步探究如何打造強(qiáng)大的在線購物領(lǐng)域大模型。

首先,如下圖所示,模型在不同能力和任務(wù)上的得分高度正相關(guān)。這說明了在線購物領(lǐng)域的不同任務(wù)之間存在共同的知識(shí),可以使用大語言模型進(jìn)行整體性的建模和能力提升。

圖片

其次,如下圖所示,模型的Shopping MMLU得分和模型在通用大模型基準(zhǔn)測(cè)試的得分(Open LLM Leaderboard)同樣高度相關(guān)。

另外,隨著同一個(gè)模型家族內(nèi)模型增大,其Shopping MMLU得分同樣增加。

這表明大語言模型的通用能力可以很好地遷移到在線購物領(lǐng)域中,構(gòu)造特定領(lǐng)域大模型的基礎(chǔ)是強(qiáng)大的通用能力。

圖片

隨后,研究分析了微調(diào)對(duì)模型在Shopping MMLU得分的影響。

通用領(lǐng)域的微調(diào)一般對(duì)模型在Shopping MMLU上有提升。不過,這一結(jié)論也與基礎(chǔ)模型的能力,微調(diào)的數(shù)據(jù)質(zhì)量等因素存在關(guān)系。

例如,在LLaMA2-70B上,研究觀察到經(jīng)過微調(diào)的LLaMA2-70B-chat得分低于LLaMA2-70B,而在LLaMA3-70B上沒有觀察到這一現(xiàn)象。

可能的原因是,相對(duì)較小的微調(diào)數(shù)據(jù)使得LLaMA2-70B過擬合,導(dǎo)致通用能力的部分丟失,進(jìn)而導(dǎo)致Shopping MMLU上得分下降。

反之,LLaMA3使用了更高質(zhì)量的微調(diào)數(shù)據(jù),所以能夠保留通用能力,同時(shí)增強(qiáng)模型回答問題的能力,得到更高的分?jǐn)?shù)。

圖片

特定領(lǐng)域微調(diào)(如eCeLLM)并未能在Shopping MMLU上取得最高得分。

為了探究其中原因,研究測(cè)試了eCeLLM與其基礎(chǔ)模型在通用能力上的對(duì)比。結(jié)果表明,經(jīng)過特定領(lǐng)域微調(diào)的eCeLLM相比其基礎(chǔ)模型的通用能力一般有所下降。

這可能是導(dǎo)致eCeLLM未能取得最高得分的原因,也同時(shí)強(qiáng)調(diào)了通用能力對(duì)于對(duì)特定領(lǐng)域的重要性。

圖片

總結(jié)

Shopping MMLU是一個(gè)針對(duì)大語言模型和在線購物領(lǐng)域設(shè)計(jì)的評(píng)測(cè)指標(biāo)。其包含廣泛的任務(wù)和能力覆蓋(4項(xiàng)重要能力,共計(jì)57個(gè)任務(wù)),可以全面評(píng)估大語言模型在在線購物領(lǐng)域的能力和潛力。

Shopping MMLU基于亞馬遜的真實(shí)購物數(shù)據(jù)打造,經(jīng)過人工篩選,保證數(shù)據(jù)質(zhì)量?;赟hopping MMLU,研究展開了大量實(shí)驗(yàn)分析,為這一領(lǐng)域后續(xù)的研究和實(shí)際應(yīng)用提供了有價(jià)值的結(jié)論。

目前,Shopping MMLU以及其對(duì)應(yīng)的資源全部開源并將持續(xù)維護(hù),方便研究人員和開發(fā)者進(jìn)行深入探索和應(yīng)用。

Shopping MMLU的數(shù)據(jù)以及對(duì)應(yīng)評(píng)測(cè)代碼已經(jīng)于GitHub公開。

同時(shí),為了構(gòu)造開放、開源的評(píng)測(cè)體系,研究基于Shopping MMLU建立了一個(gè)排行榜。

官方表示,Shopping MMLU歡迎新模型加入排行榜,如果有興趣的話可以于GitHub上與Shopping MMLU維護(hù)者進(jìn)行聯(lián)系。

圖片

論文:https://arxiv.org/pdf/2410.20745。
數(shù)據(jù)及評(píng)測(cè)代碼:https://github.com/KL4805/ShoppingMMLU。
KDD Cup 2024 Workshop及獲獎(jiǎng)隊(duì)伍解法:https://amazon-kddcup24.github.io/。
評(píng)估榜單:https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-11-04 12:48:12

2024-10-21 13:50:00

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)

2015-10-30 14:56:40

真實(shí)數(shù)據(jù)欺騙

2022-03-30 14:30:34

人工智能機(jī)器學(xué)習(xí)模型

2017-01-19 10:25:42

阿里云

2024-10-11 14:00:00

模型數(shù)據(jù)

2024-09-14 13:50:00

AI訓(xùn)練

2024-10-16 16:20:00

AI機(jī)器人

2024-10-10 14:10:00

AI模型

2024-04-08 13:29:52

2023-09-26 14:21:33

模型開源Qwen-14B

2023-07-07 12:30:00

模型技術(shù)

2013-05-16 10:45:46

BI云存儲(chǔ)成本混合云

2021-06-25 09:47:06

KDD Cup Graphormer

2024-11-18 11:00:00

模型安全

2024-09-29 13:10:08

2024-10-24 10:15:00

AI模型

2024-07-22 08:10:00

數(shù)據(jù)模型

2024-01-17 09:07:32

模型場(chǎng)景

2023-06-19 19:26:54

模型開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)