自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="ueeeq"></sub>}

<cite id="ueeeq"><track id="ueeeq"></track></cite>

<sub id="ueeeq"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考

發(fā)布于 2024-12-4 12:47

瀏覽

0收藏

大家好，我是HxShine。

LLM的Reward模型該如何訓(xùn)練呢？今天對(duì)Kaggle LLM比賽LLM Science Exam 的一些優(yōu)勝方法做一個(gè)總結(jié)，這是Kaggle競(jìng)賽平臺(tái)第一次舉辦LLM相關(guān)比賽，賽題就是探索如何訓(xùn)練一個(gè)science-based Reward Model。

優(yōu)勝方案中，如何利用RAG（檢索增強(qiáng)）方法提高模型的上限，如何通過(guò)傳統(tǒng)方法以及向量檢索方法提高檢索知識(shí)的質(zhì)量，如何使用LoRA，QLoRA等技術(shù)對(duì)LLaMa2等系列進(jìn)行微調(diào)，甚至在16GB內(nèi)存的GPU上對(duì)70B大小的LLM進(jìn)行推理[7]等很多技術(shù)都值得我們學(xué)習(xí)，相信大家看完會(huì)有所收獲。

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

一、概述

Title：Kaggle - LLM Science Exam Use LLMs to answer difficult science questions

比賽排行榜：??https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard??

1.Motivation

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

Reward模型：簡(jiǎn)單來(lái)說(shuō)就是用于判斷LLM的輸出哪個(gè)更好，輔助提升LLM的輸出質(zhì)量。它是一種用于強(qiáng)化學(xué)習(xí)的技術(shù)，用于改進(jìn)生成式對(duì)話系統(tǒng)的性能，基本思想是通過(guò)獎(jiǎng)勵(lì)函數(shù)來(lái)引導(dǎo)模型生成更好的回復(fù)，
Reward模型是強(qiáng)化學(xué)習(xí)提高LLM表現(xiàn)的關(guān)鍵之一。Reward模型該如何建模？可以利用那些數(shù)據(jù)？如何訓(xùn)練？大模型好還是小模型好？都還有待進(jìn)一步探索。
如何盡可能低成本的訓(xùn)練好的Reward模型？OpenAI的Reward模型用的是6B左右的模型[1]，成本更低的Reward模型方案也值得探索，該比賽通過(guò)限制GPU數(shù)量和推理時(shí)間來(lái)挖掘成本低，精度高的Reward模型訓(xùn)練方案。

2.Definition

賽題：從大模型生成的5個(gè)候選結(jié)果挑選3個(gè)最好的結(jié)果。即對(duì)于每一個(gè)問(wèn)題prompt，LLM生成A、B、C、D、E五個(gè)答案，正確的答案answer只有一個(gè)，從LLM生成的5個(gè)結(jié)果中，選擇前三的答案進(jìn)行輸出。其利用MAP@3計(jì)算分?jǐn)?shù)。下面給出一個(gè)樣例數(shù)據(jù)：

Prompt：

Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed ""missing baryonic mass"" discrepancy in galaxy clusters?

A：

MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter."

B：

MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20.

C：

MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions.

D：

MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2.

E：

MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter.

Answer:

評(píng)價(jià)指標(biāo)：MAP@3: Mean Average Precision @ 3，??????@3=1??∑??=1??∑??=1??????(??,3)??(??)×??????(??)

資源要求：CPU或者GPU推理時(shí)間都不能超過(guò)9小時(shí)，不能接入外部網(wǎng)絡(luò)。

訓(xùn)練數(shù)據(jù)：200條評(píng)估數(shù)據(jù)。

測(cè)試集：大概4000條數(shù)據(jù)。

3.難點(diǎn)分析

建模方法：題目要求我們對(duì)LLM生成的science-based的結(jié)果進(jìn)行排序，其強(qiáng)烈依賴于science相關(guān)知識(shí)，如何對(duì)其建模非常關(guān)鍵，包括中后期大家發(fā)現(xiàn)引入外部知識(shí)（RAG）來(lái)進(jìn)行增強(qiáng)可以極大的提升模型的上限。
建模數(shù)據(jù)：比賽只提供了200條測(cè)試數(shù)據(jù)，沒(méi)有訓(xùn)練數(shù)據(jù)，同時(shí)待預(yù)測(cè)的數(shù)據(jù)大概4000+左右，20%在A榜，80%在B榜。
資源限制：比在只提供2*T4或者1*P100的GPU，時(shí)間限制為不超過(guò)9小時(shí)。

二、Methods

1.RAG vs Finetuning？[2]

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

RAG：這種方法將檢索（或搜索）的能力集成到LLM中。它結(jié)合了一個(gè)檢索系統(tǒng)和一個(gè)大模型，前者從大型語(yǔ)料庫(kù)中獲取相關(guān)文檔片段，后者使用這些片段中的信息生成答案。本質(zhì)上，RAG 幫助模型“查找”外部信息以改進(jìn)其響應(yīng)。

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

微調(diào)：這是采用預(yù)先訓(xùn)練的 LLM 并在較小的特定數(shù)據(jù)集上對(duì)其進(jìn)行進(jìn)一步訓(xùn)練的過(guò)程，以使其適應(yīng)特定任務(wù)或提高其性能。通過(guò)微調(diào)，我們根據(jù)數(shù)據(jù)調(diào)整模型的權(quán)重，使其更適合我們應(yīng)用程序的獨(dú)特需求。

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

RAG+微調(diào)：在外部知識(shí)要求高的情況下，優(yōu)先RAG，需要模型適配（風(fēng)格行為詞匯）等，就需要微調(diào)，兩者要求都高的話，需要結(jié)合使用[5]。

三、關(guān)鍵優(yōu)化思路總結(jié)

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

總體上，RAG + LLM結(jié)合的模型可以在知識(shí)來(lái)源、檢索方法、基座模型及其尺寸、是否需要微調(diào)等多個(gè)方面進(jìn)行優(yōu)化，針對(duì)本次比賽，對(duì)我收集到的一些方法進(jìn)行對(duì)比，方便大家參考。

1.檢索增強(qiáng)與檢索質(zhì)量為王！

說(shuō)明：主要探索不用RAG檢索增強(qiáng)以及用了RAG檢索增強(qiáng)的效果差異，如果不用RAG，模型很快就會(huì)到達(dá)瓶頸。

基座模型	方法	說(shuō)明	LB分?jǐn)?shù)	鏈接
deberta	without context	不利用檢索的結(jié)果進(jìn)行增強(qiáng)	0.732	??https://www.kaggle.com/code/radek1/new-dataset-deberta-v3-large-training??
deberta	wiki as context	利用wiki百科的數(shù)據(jù)進(jìn)行增強(qiáng)	0.819	??https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-1?? ??https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-2??
deberta	stem(270k)as context	利用stem相關(guān)的高質(zhì)量結(jié)果進(jìn)行檢索增強(qiáng)	0.862	??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??
LLM（7b/17b）	without context	直接用LLM，不用檢索增強(qiáng)，很快就遇到瓶頸了	0.84	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??
LLM（7b/17b）	wiki as context	利用wiki百科的檢索數(shù)據(jù)來(lái)增強(qiáng)，同時(shí)基座模型用7B/13B左右的模型	0.90+	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??v

總結(jié)1：沒(méi)有檢索增強(qiáng)RAG的引入，很快達(dá)到性能瓶頸。沒(méi)有引入RAG，分?jǐn)?shù)大概是0.73～0.84，第一名的解決方案[4]也提到如果沒(méi)有檢索增強(qiáng)，很快就遇到性能瓶頸，所以他們?cè)赗AG檢索以及質(zhì)量?jī)?yōu)化上都做了不少工作。

總結(jié)2：知識(shí)以及知識(shí)的質(zhì)量非常關(guān)鍵，幾乎是本場(chǎng)比賽的決定因素之一。例如同樣的模型（deberta系列），270k的高質(zhì)量數(shù)據(jù)LB分?jǐn)?shù)可以到0.862左右，wiki的上下文LB分?jǐn)?shù)只能到0.819左右，同時(shí)without context情況下LB只有0.732。另外第一名的解決方案[4]也探索了多種embedding的方案來(lái)檢索高質(zhì)量的上下文。15rd place solution[6]幾乎把全部精力都放在檢索端。

2.有哪些好的檢索方法？

方法	說(shuō)明	LB	鏈接
tfidf	利用tfidf傳統(tǒng)方法來(lái)做檢索增強(qiáng)	0.862	??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??
tfidf+embedding	結(jié)合多類檢索方法來(lái)做增強(qiáng)，甚至可以在檢索測(cè)做TTS	0.905	tfidf方案：??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles?? embedding方案：??https://www.kaggle.com/code/dangnguyen97/wikipedia-rag??
bm25（elastic sedarch）	利用bm25傳統(tǒng)方法來(lái)做檢索增強(qiáng)	0.9+?（第4名用了多種檢索增強(qiáng)的方法來(lái)做，最終PB分?jǐn)?shù)0.927）	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307?? ??https://www.kaggle.com/code/linshokaku/4th-elasticsearch-retrieval-example??
embedding model	主要的考察點(diǎn)在用哪種embedding模型效果好？第一名嘗試了MTEB Leaderboard上top-20模型，最終挑選了5個(gè)最好的模型模型	0.90+	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??
ranker model	在檢索的基礎(chǔ)上，利用ranker模型進(jìn)一步篩選更高質(zhì)量的結(jié)果	0.90+	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446816??
檢索位置的影響（選項(xiàng)ABCDE不同位置有影響）	TTS增強(qiáng)：根據(jù)context或者答案的順序來(lái)做TTS，增加多樣性。有效果但是不太穩(wěn)定。在final classification head添加每個(gè)選項(xiàng)的average logits，效果不錯(cuò)并且穩(wěn)定。	0.90+，上限比較高!	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

總結(jié)1：傳統(tǒng)檢索方法效果也不錯(cuò)。在LLM領(lǐng)域，向量檢索不一定比傳統(tǒng)檢索方法tfidf以及bm25效果好，特別是沒(méi)有經(jīng)過(guò)垂直領(lǐng)域的訓(xùn)練的embedding模型。例如86-2-with-only-270k-articles[2]中利用tfidf檢索，效果比向量檢索還稍微好一點(diǎn)。同時(shí)4th[2]方法，用elastic_search來(lái)檢索文檔（原理是bm25算法），也取得一個(gè)不錯(cuò)的效果。

總結(jié)2：檢索的質(zhì)量非常重要。為了提高檢索質(zhì)量，86-2-with-only-270k-articles[2]方法過(guò)濾篩選了270k相關(guān)的數(shù)據(jù)，效果相對(duì)于原始的wiki數(shù)據(jù)有了明顯的提升。第一名的解決方案[4]提到篩選更相關(guān)的一些數(shù)據(jù)用處不大，可能是其挑選的embedding模型效果不錯(cuò)了，不會(huì)檢索出質(zhì)量不太好的結(jié)果出來(lái)。第15名的方法[6]利用ranker模型進(jìn)一步篩選高質(zhì)量的檢索結(jié)果來(lái)提高最終表現(xiàn)。

總結(jié)3：檢索側(cè)可以用到的優(yōu)化的方法：傳統(tǒng)檢索方法（es,tfidf,bm25,Lucene等）+ 向量檢索（開源embedding模型, SimCSE[6]）+ 訓(xùn)練Ranker模型[6]。

3.基座模型該如何選擇？

方法	模型	說(shuō)明	最高排名	鏈接
傳統(tǒng)模型	deberta + finetuning + RAG	deberta系列模型做微調(diào)后，結(jié)合RAG效果也不錯(cuò)，重點(diǎn)是需要優(yōu)化檢索效果	4rd private:0.927	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??
中等模型（7B/13B）	Llama-2-7b Mistral-7B-v0.1 xgen-7b-8k-base Llama-2-13b + finetuning + RAG	7B/13B左右的模型，經(jīng)過(guò)微調(diào)，同時(shí)結(jié)合RAG，在做融合，效果比較好	1rd private:0.933	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??
大模型(70B)	debertas + Platypus(70B for hard question) + Xwin(70B) + reranker，其中Platypus(70B for hard question)以及reranker帶來(lái)的提升比較大	大模型主要是解決hard question，帶來(lái)一定提升	3rd private:0.928	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

總結(jié)1：小模型微調(diào)+高質(zhì)量的檢索結(jié)果上限也不錯(cuò)。第四名最終只用了deberta模型，另外在檢索測(cè)利用es等方法做了很多優(yōu)化，在檢索側(cè)做了TTS，最終拿到了第四名。

總結(jié)2：大模型微調(diào)（7B或者13B左右的模型）可能比小模型微調(diào)的上限更高。第一名利用7B左右的模型微調(diào)+RAG，一直搖搖領(lǐng)先。

總結(jié)3：70B模型zero-shot通用效果就不錯(cuò)，但是在有些方面還打不過(guò)微調(diào)后的小模型。70B+zero-shot模型大概能達(dá)到0.872，總體上表現(xiàn)還不錯(cuò)，但是離要拿到獎(jiǎng)牌還有一定距離，微調(diào)70B左右的模型效果可能更好，但資源需求也更大，并且不方便做模型融合。

總結(jié)4：基座模型可能沒(méi)那么重要，具體效果的話大概如下：7b/13b + fine-tuning > deberta + fine-tuning > 70b + zero-shot。

4.是否需要對(duì)模型在該領(lǐng)域數(shù)據(jù)上進(jìn)行微調(diào)？

方法	是否微調(diào)	分?jǐn)?shù)	鏈接
longformer/deberta + RAG	不微調(diào)	0.862(with RAG， longformer 未微調(diào)) 0.89(with RAG, deberta微調(diào))	??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??
deberta + 微調(diào) + RAG	微調(diào)	0.762(without RAG) 0.90+(with RAG)	??https://www.kaggle.com/code/mewmlelswm/lb-0-762-train-4-fold-and-ensemble?? ??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??
LLama7B Mistral 7B	不微調(diào)	0.656(without RAG) 0.853(with RAG)	??https://www.kaggle.com/code/zzy990106/llama-7b-infer?? ??https://www.kaggle.com/code/goelyash/llm-science-mistral-7b??
7B LLama2 + 微調(diào) + RAG	微調(diào)	0.84+(without RAG) 0.90+(with RAG)	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??
70B LLM + zero-shot + RAG	不微調(diào)	0.872(with RAG)	??https://www.kaggle.com/code/zulqarnainali/explained-platypus2-70b-wikipedia-rag??
70B LLM + 微調(diào) + RAG	微調(diào)	0.914（with RAG）	??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446414??

總結(jié)1：微調(diào)特別是小模型微調(diào)，能帶來(lái)不錯(cuò)的提升。deberta模型微調(diào)+模型融合也能到0.927左右的分?jǐn)?shù)，和其他模型的最終結(jié)果差異沒(méi)那么大。

總結(jié)2：7B/13B左右的模型微調(diào)上限可能高于deberta系列模型的微調(diào)。第一名提到其7B左右的模型微調(diào)效果就已經(jīng)很不錯(cuò)了（LB 0.92+），融合deberta模型已經(jīng)不能帶來(lái)提升了。

總結(jié)3：70B大小的模型其zero-shot能力已經(jīng)相當(dāng)不錯(cuò)了【需要結(jié)合RAG】。開源70B模型+zero-shot+RAG能達(dá)到PB 0.872的分?jǐn)?shù)，效果還不錯(cuò)。

四、優(yōu)勝方案要點(diǎn)分析

leaderboard	方法概述	關(guān)鍵因素	分?jǐn)?shù)
1rd place solution	基座模型：Llama-2-7b，Mistral-7B-v0.1，xgen-7b-8k-base，Llama-2-13b + 是否微調(diào)：finetuning 檢索增強(qiáng)：1. 探索MTEB top20 embedding模型，挖掘最好的5個(gè)。2. 探索更高的數(shù)據(jù)質(zhì)量。3. 檢索側(cè)做TTS融合。驗(yàn)證策略：6k STEM數(shù)據(jù)。工程：推理加速，包括對(duì)context+prompt結(jié)果做緩存，優(yōu)化推理速度，從而可以進(jìn)行多模型融合。	檢索質(zhì)量，基座模型，工程能力	private:0.933
3rd place solution	基座模型：debertas + Platypus(70B for hard question) + Xwin(70B) 排序模型：reranker +0.912->0.927提升挺大的。更高的數(shù)據(jù)質(zhì)量：利用??https://github.com/attardi/wikiextractor??收集更高質(zhì)量的wiki數(shù)據(jù)	數(shù)據(jù)質(zhì)量，模型融合 Platypus(70B for hard question) reranker篩選更高質(zhì)量的context 總結(jié)：相當(dāng)于利用70B模型有更好的通用能力來(lái)解決小模型表現(xiàn)不太好的case從而進(jìn)行融合。	private:0.928
4rd place solution	基座模型：Deberta v3 Large 檢索方法：Elasticsearch 檢索排序：edit distance + sentence-transformers	檢索質(zhì)量：高質(zhì)量的檢索結(jié)果，以及在檢索側(cè)做很多TTS優(yōu)化融合工作帶來(lái)的提升。	private:0.927
5rd place solution	基座模型：Mistral 7B + Llama-70B 微調(diào)方法：QLoRA 檢索方法：BM-25（Lucene），參考??https://www.kaggle.com/code/strifonov/pyserini-scibert?? + 向量檢索高質(zhì)量數(shù)據(jù)：自己處理了wikipedia的數(shù)據(jù) 增強(qiáng)方法：TTA 融合方法：7B模型簡(jiǎn)單問(wèn)題（40%），70B模型苦難問(wèn)題（60%），更長(zhǎng)的context+70B模型預(yù)測(cè)前兩個(gè)困難樣本（5%）	融合方法：困難問(wèn)題用70B模型來(lái)解決檢索質(zhì)量：BM25 + 向量檢索結(jié)合 TTA增強(qiáng)等	private:0.926, public:0.928
7rd palce solution	基座模型：Deberta + LLM 檢索方法：tfidf + sentence-transformer 驗(yàn)證集：130k STEM數(shù)據(jù) 訓(xùn)練：QLoRA SFT訓(xùn)練（7B/13B）多級(jí)模型融合方法：簡(jiǎn)單模型解決閾值高的問(wèn)題，模型融合解決稍微復(fù)雜一點(diǎn)的問(wèn)題，LLM模型融合解決hard example	融合方法+檢索方法	private:0.925, public:0.931
10rd palce solution	數(shù)據(jù)：dumps數(shù)據(jù)，cirrus數(shù)據(jù)，270k兩種數(shù)據(jù)。檢索方法：tfidf+向量（bge，gte，e5）切片方法：sliding window，top 10 chunks 模型：deberta	檢索質(zhì)量	private:0.922
14rd palce solution	數(shù)據(jù)：cirrussearch wiki dump（質(zhì)量更好點(diǎn)）檢索：向量檢索（gte，bge，e5）模型：deberta 256 融合：TTA（檢索結(jié)果）	檢索結(jié)果融合：不同排序的context融合 [ 0, 1, 2, 3, 4, 5] [ 0, 6, 7, 8, 9, 10] [ 0, 11, 12, 13, 14, 15] [ 0, 16, 17, 18, 19, 20]	private:0.920
15rd palce solution	數(shù)據(jù)：6800k wikipedia + 270k 檢索方法：tfidf + sentence model（simcse訓(xùn)練）檢索排序： 6800k wiki -> sentence top1000 -> LBGRanker -> top30 -> sentence model -> top20 -> LB 0.885 270k tfidf/sentence -> top5/top8 paragraphs 模型：deberta	檢索優(yōu)化+排序模型+檢索側(cè)TTS	private:0.920，public:0.934

總結(jié)1：RAG檢索對(duì)于最終效果非常重要。包括不斷優(yōu)化檢索數(shù)據(jù)質(zhì)量，利用多種檢索策略（基于傳統(tǒng)方法or基于向量），還可以通過(guò)ranker等方法篩選更好的結(jié)果。另外檢索側(cè)基于不同不用順序的context做TTS也能帶來(lái)不錯(cuò)的提升。

總結(jié)2：小模型微調(diào)效果也不錯(cuò)，大模型（70B）zero-shot能力非常強(qiáng)，大模型勝在通用能力。例如3rd方法采用小模型解決簡(jiǎn)單問(wèn)題，大模型解決hard問(wèn)題的融合策略。

總結(jié)3：7B/13B大小的模型可能會(huì)成為NLP競(jìng)賽的主力軍。其模型上限效果不錯(cuò)，可能比deberta類似大小的模型效果更好，同時(shí)訓(xùn)練所需資源也較小。

詳細(xì)解決思路可以參考：https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard

五、總結(jié)

RAG檢索對(duì)于最終效果非常重要。包括不斷優(yōu)化檢索數(shù)據(jù)質(zhì)量，利用多種檢索策略，基于傳統(tǒng)方法（es，bm25，tfidf等），基于向量（開源方法，SimCSE訓(xùn)練），還可以通過(guò)ranker等方法篩選更好的結(jié)果都能帶來(lái)不錯(cuò)的提升。
如何有效的檢索上下文知識(shí)，如何有效的處理長(zhǎng)文本知識(shí)是難點(diǎn)，還有待進(jìn)一步探索。本次比賽發(fā)現(xiàn)，在檢索側(cè)基于不同組合，不同順序的檢索結(jié)果做TTS（一種數(shù)據(jù)側(cè)做融合的方法）能帶來(lái)非常不錯(cuò)的提升[4][8]。這意味著如果我們?cè)跈z索側(cè)，長(zhǎng)文本理解側(cè)可以做得更好，可能我們不會(huì)太依賴檢索側(cè)的TTS融合方法，從而降低推理成本。
大模型的zero-shot能力比較強(qiáng)，勝在通用能力不錯(cuò)。其意味著不微調(diào)就可以在很多任務(wù)上取得不錯(cuò)的效果。在本次競(jìng)賽中開源的70B模型+zero-shot+RAG效果0.875。
大模型for hard sample + 小模型for simple sample可能是一種不錯(cuò)的融合方式。利用了大模型的通用能力不錯(cuò)，在hard樣本上也有著比較強(qiáng)的泛化能力，同時(shí)小模型易于訓(xùn)練，微調(diào)后在簡(jiǎn)單樣本上表現(xiàn)好的特點(diǎn)。3rd place solution[9]就主要用的這種方法。
小模型(deberta等)特定領(lǐng)域做微調(diào)效果也有一定的發(fā)揮之力，同時(shí)其有成本優(yōu)勢(shì)。deberta微調(diào)+RAG可以到0.89左右，利用模型融合甚至可以到前幾名0.92+。
7B/13B大小的模型可能會(huì)成為NLP競(jìng)賽的主力軍。其模型上限效果不錯(cuò)，可能比deberta類似大小的模型效果更好，同時(shí)訓(xùn)練所需資源也較小。
強(qiáng)大的工程能力對(duì)LLM的繼續(xù)發(fā)展也非常有用。例如讓模型一層一層推理在16GB內(nèi)存的GPU運(yùn)行70B大模型[7]，以及第一名方案中，對(duì)context+prompt結(jié)果做緩存，可以減少大量重復(fù)上下文或者系統(tǒng)消息(system message)的tokens數(shù)量，從而優(yōu)化LLM推理時(shí)間[4]。
總結(jié)提分點(diǎn)：RAG【檢索方法，排序方法，TTS策略】 >> 13b+微調(diào) > deberta/longformer + 微調(diào) > 70b zero-shot。

六、References

[1] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.

[2] RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application???https://towardsdatascience.com/rag-vs-finetuning-which-is-the-best-tool-to-boost-your-llm-application-94654b1eaba7??

[3] 利用tfidf傳統(tǒng)方法檢索相關(guān)文檔：??https://www.kaggle.com/code/hxshine/86-2-with-only-270k-articles?scriptVersinotallow=144092114??

[4] 1rd Place Solution：??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

[5] 大模型Kaggle比賽首秀冠軍方案總結(jié):??https://mp.weixin.qq.com/s/mhLOYWA9KEDANVdkoUpP-Q??

[6] 15rd place solution: ??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446816??

[7] 利用16GB內(nèi)存運(yùn)行70B大模型：??https://www.kaggle.com/code/zulqarnainali/explained-platypus2-70b-wikipedia-rag??

[8] 4rd Place Solution：??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

[9] 3rd Place Solution：???https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

本文轉(zhuǎn)載自??NLP PaperWeekly??，作者： NLP PaperWeekly

標(biāo)簽

已于2024-12-4 13:58:31修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

新一代智能助手GPT-4o與Project Astra孰弱孰強(qiáng)，OpenAI與谷歌拉開競(jìng)賽帷幕

xuxiangda ? 4473瀏覽 ? 0回復(fù)
大模型應(yīng)用與LUI（自然語(yǔ)言交互）落地的關(guān)鍵模塊——語(yǔ)義路由實(shí)現(xiàn)總結(jié)

Syrupup ? 5171瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練加速的新方法：八種模型增長(zhǎng)方案總結(jié)

amei2000go ? 4180瀏覽 ? 0回復(fù)
大模型技術(shù)細(xì)節(jié)——大模型之文本生成與文檔總結(jié)

AI探索時(shí)代 ? 5601瀏覽 ? 0回復(fù)
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 2431瀏覽 ? 0回復(fù)
大模型面經(jīng)——Langchain總結(jié)

shizhi02 ? 2003瀏覽 ? 0回復(fù)
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 2424瀏覽 ? 0回復(fù)
如何全面評(píng)估多模態(tài)大模型能力？MLLM評(píng)測(cè)任務(wù)與指標(biāo)總結(jié)

shizhi02 ? 6514瀏覽 ? 0回復(fù)
再談大模型向量，由向量檢索引起的思考

AI探索時(shí)代 ? 1770瀏覽 ? 0回復(fù)
大語(yǔ)言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 3453瀏覽 ? 0回復(fù)
長(zhǎng)文 | 大模型Post-Training總結(jié)

NLP工作站 ? 2420瀏覽 ? 0回復(fù)
人工智能智能體(AI Agent)發(fā)展趨勢(shì)2024年總結(jié)與2025年展望

十一月雨_55 ? 8312瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來(lái)趨勢(shì)報(bào)告

歐米伽未來(lái)研究所 ? 6053瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會(huì)思考的？

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 2865瀏覽 ? 0回復(fù)
AI大模型本地化方案：Xinference 本地運(yùn)行大模型

風(fēng)云2002_1 ? 2014瀏覽 ? 0回復(fù)
【模型測(cè)試】大模型評(píng)測(cè)工具OpenCompass使用方法總結(jié)

一起AI技術(shù) ? 2083瀏覽 ? 0回復(fù)
大模型面經(jīng)：RAG與Long context“相愛(ài)相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？

shizhi02 ? 1095瀏覽 ? 0回復(fù)
Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案

大語(yǔ)言模型論文跟蹤 ? 1832瀏覽 ? 0回復(fù)
大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案

AI探索時(shí)代 ? 512瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

香港科技大學(xué)聯(lián)合DeepSeek-AI推出CODEI/O：讓AI學(xué)會(huì)“濃縮”推理模式 9天前發(fā)布
中國(guó)科大認(rèn)知全重實(shí)驗(yàn)室發(fā)布Agent-R1訓(xùn)練框架，支持自主思考與工具調(diào)用！ 2025-04-09 06:29:20發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： ACL2024 |解釋引導(dǎo)的大語(yǔ)言模型主動(dòng)蒸餾：一種優(yōu)化知識(shí)轉(zhuǎn)移的創(chuàng)新框架 "ELAD"

下一篇： ?探索Sora背后秘密：結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)

社區(qū)精華內(nèi)容

目錄

^{<sub id="fvmqy"></sub>}<style id="fvmqy"></style>