自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考

發(fā)布于 2024-12-4 12:47
瀏覽
0收藏

大家好,我是HxShine。

LLM的Reward模型該如何訓(xùn)練呢?今天對(duì)Kaggle LLM比賽LLM Science Exam 的一些優(yōu)勝方法做一個(gè)總結(jié),這是Kaggle競(jìng)賽平臺(tái)第一次舉辦LLM相關(guān)比賽,賽題就是探索如何訓(xùn)練一個(gè)science-based Reward Model。

優(yōu)勝方案中,如何利用RAG(檢索增強(qiáng))方法提高模型的上限,如何通過(guò)傳統(tǒng)方法以及向量檢索方法提高檢索知識(shí)的質(zhì)量,如何使用LoRA,QLoRA等技術(shù)對(duì)LLaMa2等系列進(jìn)行微調(diào),甚至在16GB內(nèi)存的GPU上對(duì)70B大小的LLM進(jìn)行推理[7]等很多技術(shù)都值得我們學(xué)習(xí),相信大家看完會(huì)有所收獲。

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

一、概述

Title:Kaggle - LLM Science Exam Use LLMs to answer difficult science questions

比賽排行榜:??https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard??

1.Motivation


Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

  • Reward模型:簡(jiǎn)單來(lái)說(shuō)就是用于判斷LLM的輸出哪個(gè)更好,輔助提升LLM的輸出質(zhì)量。它是一種用于強(qiáng)化學(xué)習(xí)的技術(shù),用于改進(jìn)生成式對(duì)話系統(tǒng)的性能,基本思想是通過(guò)獎(jiǎng)勵(lì)函數(shù)來(lái)引導(dǎo)模型生成更好的回復(fù),
  • Reward模型是強(qiáng)化學(xué)習(xí)提高LLM表現(xiàn)的關(guān)鍵之一。Reward模型該如何建模?可以利用那些數(shù)據(jù)?如何訓(xùn)練?大模型好還是小模型好?都還有待進(jìn)一步探索。
  • 如何盡可能低成本的訓(xùn)練好的Reward模型?OpenAI的Reward模型用的是6B左右的模型[1],成本更低的Reward模型方案也值得探索,該比賽通過(guò)限制GPU數(shù)量和推理時(shí)間來(lái)挖掘成本低,精度高的Reward模型訓(xùn)練方案。

2.Definition

賽題:從大模型生成的5個(gè)候選結(jié)果挑選3個(gè)最好的結(jié)果。即對(duì)于每一個(gè)問(wèn)題prompt,LLM生成A、B、C、D、E五個(gè)答案,正確的答案answer只有一個(gè),從LLM生成的5個(gè)結(jié)果中,選擇前三的答案進(jìn)行輸出。其利用MAP@3計(jì)算分?jǐn)?shù)。下面給出一個(gè)樣例數(shù)據(jù):

Prompt:

Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed ""missing baryonic mass"" discrepancy in galaxy clusters?

A:

MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter."

B:

MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20.

C:

MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions.

D:

MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2.

E:

MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter.

Answer: 

D

評(píng)價(jià)指標(biāo):MAP@3: Mean Average Precision @ 3,??????@3=1??∑??=1??∑??=1??????(??,3)??(??)×??????(??)

資源要求:CPU或者GPU推理時(shí)間都不能超過(guò)9小時(shí),不能接入外部網(wǎng)絡(luò)。

訓(xùn)練數(shù)據(jù):200條評(píng)估數(shù)據(jù)。

測(cè)試集:大概4000條數(shù)據(jù)。

3.難點(diǎn)分析

  • 建模方法:題目要求我們對(duì)LLM生成的science-based的結(jié)果進(jìn)行排序,其強(qiáng)烈依賴于science相關(guān)知識(shí),如何對(duì)其建模非常關(guān)鍵,包括中后期大家發(fā)現(xiàn)引入外部知識(shí)(RAG)來(lái)進(jìn)行增強(qiáng)可以極大的提升模型的上限。
  • 建模數(shù)據(jù):比賽只提供了200條測(cè)試數(shù)據(jù),沒(méi)有訓(xùn)練數(shù)據(jù),同時(shí)待預(yù)測(cè)的數(shù)據(jù)大概4000+左右,20%在A榜,80%在B榜。
  • 資源限制:比在只提供2*T4或者1*P100的GPU,時(shí)間限制為不超過(guò)9小時(shí)。

二、Methods

1.RAG vs Finetuning?[2]

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

RAG:這種方法將檢索(或搜索)的能力集成到LLM中。它結(jié)合了一個(gè)檢索系統(tǒng)和一個(gè)大模型,前者從大型語(yǔ)料庫(kù)中獲取相關(guān)文檔片段,后者使用這些片段中的信息生成答案。本質(zhì)上,RAG 幫助模型“查找”外部信息以改進(jìn)其響應(yīng)。

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

微調(diào):這是采用預(yù)先訓(xùn)練的 LLM 并在較小的特定數(shù)據(jù)集上對(duì)其進(jìn)行進(jìn)一步訓(xùn)練的過(guò)程,以使其適應(yīng)特定任務(wù)或提高其性能。通過(guò)微調(diào),我們根據(jù)數(shù)據(jù)調(diào)整模型的權(quán)重,使其更適合我們應(yīng)用程序的獨(dú)特需求。

Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

RAG+微調(diào):在外部知識(shí)要求高的情況下,優(yōu)先RAG,需要模型適配(風(fēng)格行為詞匯)等,就需要微調(diào),兩者要求都高的話,需要結(jié)合使用[5]。

三、關(guān)鍵優(yōu)化思路總結(jié)


Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考-AI.x社區(qū)

總體上,RAG + LLM結(jié)合的模型可以在知識(shí)來(lái)源、檢索方法、基座模型及其尺寸、是否需要微調(diào)等多個(gè)方面進(jìn)行優(yōu)化,針對(duì)本次比賽,對(duì)我收集到的一些方法進(jìn)行對(duì)比,方便大家參考。

1.檢索增強(qiáng)與檢索質(zhì)量為王!

說(shuō)明:主要探索不用RAG檢索增強(qiáng)以及用了RAG檢索增強(qiáng)的效果差異,如果不用RAG,模型很快就會(huì)到達(dá)瓶頸。

基座模型

方法

說(shuō)明

LB分?jǐn)?shù)

鏈接

deberta

without context

不利用檢索的結(jié)果進(jìn)行增強(qiáng)

0.732

??https://www.kaggle.com/code/radek1/new-dataset-deberta-v3-large-training??

deberta

wiki as context

利用wiki百科的數(shù)據(jù)進(jìn)行增強(qiáng)

0.819

??https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-1??

??https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-2??

deberta

stem(270k)as context

利用stem相關(guān)的高質(zhì)量結(jié)果進(jìn)行檢索增強(qiáng)

0.862

??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??

LLM(7b/17b)

without context

直接用LLM,不用檢索增強(qiáng),很快就遇到瓶頸了

0.84

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

LLM(7b/17b)

wiki as context

利用wiki百科的檢索數(shù)據(jù)來(lái)增強(qiáng),同時(shí)基座模型用7B/13B左右的模型

0.90+

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??v

總結(jié)1:沒(méi)有檢索增強(qiáng)RAG的引入,很快達(dá)到性能瓶頸。沒(méi)有引入RAG,分?jǐn)?shù)大概是0.73~0.84,第一名的解決方案[4]也提到如果沒(méi)有檢索增強(qiáng),很快就遇到性能瓶頸,所以他們?cè)赗AG檢索以及質(zhì)量?jī)?yōu)化上都做了不少工作。

總結(jié)2:知識(shí)以及知識(shí)的質(zhì)量非常關(guān)鍵,幾乎是本場(chǎng)比賽的決定因素之一。例如同樣的模型(deberta系列),270k的高質(zhì)量數(shù)據(jù)LB分?jǐn)?shù)可以到0.862左右,wiki的上下文LB分?jǐn)?shù)只能到0.819左右,同時(shí)without context情況下LB只有0.732。另外第一名的解決方案[4]也探索了多種embedding的方案來(lái)檢索高質(zhì)量的上下文。15rd place solution[6]幾乎把全部精力都放在檢索端。

2.有哪些好的檢索方法?

方法

說(shuō)明

LB

鏈接

tfidf

利用tfidf傳統(tǒng)方法來(lái)做檢索增強(qiáng)

0.862

??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??

tfidf+embedding

結(jié)合多類檢索方法來(lái)做增強(qiáng),甚至可以在檢索測(cè)做TTS

0.905

tfidf方案:??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??

embedding方案:??https://www.kaggle.com/code/dangnguyen97/wikipedia-rag??


bm25(elastic sedarch)

利用bm25傳統(tǒng)方法來(lái)做檢索增強(qiáng)

0.9+?(第4名用了多種檢索增強(qiáng)的方法來(lái)做,最終PB分?jǐn)?shù)0.927)

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

??https://www.kaggle.com/code/linshokaku/4th-elasticsearch-retrieval-example??

embedding model

主要的考察點(diǎn)在用哪種embedding模型效果好?第一名嘗試了MTEB Leaderboard上top-20模型,最終挑選了5個(gè)最好的模型模型

0.90+

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

ranker model

在檢索的基礎(chǔ)上,利用ranker模型進(jìn)一步篩選更高質(zhì)量的結(jié)果

0.90+

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446816??

檢索位置的影響(選項(xiàng)ABCDE不同位置有影響)

TTS增強(qiáng):根據(jù)context或者答案的順序來(lái)做TTS,增加多樣性。有效果但是不太穩(wěn)定。

在final classification head添加每個(gè)選項(xiàng)的average logits,效果不錯(cuò)并且穩(wěn)定。

0.90+,上限比較高!

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

總結(jié)1:傳統(tǒng)檢索方法效果也不錯(cuò)。在LLM領(lǐng)域,向量檢索不一定比傳統(tǒng)檢索方法tfidf以及bm25效果好,特別是沒(méi)有經(jīng)過(guò)垂直領(lǐng)域的訓(xùn)練的embedding模型。例如86-2-with-only-270k-articles[2]中利用tfidf檢索,效果比向量檢索還稍微好一點(diǎn)。同時(shí)4th[2]方法,用elastic_search來(lái)檢索文檔(原理是bm25算法),也取得一個(gè)不錯(cuò)的效果。

總結(jié)2:檢索的質(zhì)量非常重要。為了提高檢索質(zhì)量,86-2-with-only-270k-articles[2]方法過(guò)濾篩選了270k相關(guān)的數(shù)據(jù),效果相對(duì)于原始的wiki數(shù)據(jù)有了明顯的提升。第一名的解決方案[4]提到篩選更相關(guān)的一些數(shù)據(jù)用處不大,可能是其挑選的embedding模型效果不錯(cuò)了,不會(huì)檢索出質(zhì)量不太好的結(jié)果出來(lái)。第15名的方法[6]利用ranker模型進(jìn)一步篩選高質(zhì)量的檢索結(jié)果來(lái)提高最終表現(xiàn)。

總結(jié)3:檢索側(cè)可以用到的優(yōu)化的方法:傳統(tǒng)檢索方法(es,tfidf,bm25,Lucene等)+ 向量檢索(開源embedding模型, SimCSE[6])+ 訓(xùn)練Ranker模型[6]。

3.基座模型該如何選擇?

方法

模型

說(shuō)明

最高排名

鏈接

傳統(tǒng)模型

deberta + finetuning + RAG

deberta系列模型做微調(diào)后,結(jié)合RAG效果也不錯(cuò),重點(diǎn)是需要優(yōu)化檢索效果

4rd private:0.927

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

中等模型(7B/13B)

Llama-2-7b

Mistral-7B-v0.1

xgen-7b-8k-base

Llama-2-13b + finetuning + RAG

7B/13B左右的模型,經(jīng)過(guò)微調(diào),同時(shí)結(jié)合RAG,在做融合,效果比較好

1rd

private:0.933

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

大模型(70B)

debertas + Platypus(70B for hard question) + Xwin(70B) + reranker,其中Platypus(70B for hard question)以及reranker帶來(lái)的提升比較大

大模型主要是解決hard question,帶來(lái)一定提升

3rd

private:0.928

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

總結(jié)1:小模型微調(diào)+高質(zhì)量的檢索結(jié)果上限也不錯(cuò)。第四名最終只用了deberta模型,另外在檢索測(cè)利用es等方法做了很多優(yōu)化,在檢索側(cè)做了TTS,最終拿到了第四名。

總結(jié)2:大模型微調(diào)(7B或者13B左右的模型)可能比小模型微調(diào)的上限更高。第一名利用7B左右的模型微調(diào)+RAG,一直搖搖領(lǐng)先。

總結(jié)3:70B模型zero-shot通用效果就不錯(cuò),但是在有些方面還打不過(guò)微調(diào)后的小模型。70B+zero-shot模型大概能達(dá)到0.872,總體上表現(xiàn)還不錯(cuò),但是離要拿到獎(jiǎng)牌還有一定距離,微調(diào)70B左右的模型效果可能更好,但資源需求也更大,并且不方便做模型融合。

總結(jié)4:基座模型可能沒(méi)那么重要,具體效果的話大概如下:7b/13b + fine-tuning > deberta + fine-tuning > 70b + zero-shot。

4.是否需要對(duì)模型在該領(lǐng)域數(shù)據(jù)上進(jìn)行微調(diào)?


方法

是否微調(diào)

分?jǐn)?shù)

鏈接

longformer/deberta + RAG

不微調(diào)

0.862(with RAG, longformer 未微調(diào))

0.89(with RAG,  deberta微調(diào))

??https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles??

deberta + 微調(diào) + RAG

微調(diào)

0.762(without RAG)

0.90+(with RAG)

??https://www.kaggle.com/code/mewmlelswm/lb-0-762-train-4-fold-and-ensemble??

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

LLama7B

Mistral 7B

不微調(diào)

0.656(without RAG)

0.853(with RAG)

??https://www.kaggle.com/code/zzy990106/llama-7b-infer??

??https://www.kaggle.com/code/goelyash/llm-science-mistral-7b??

7B LLama2 + 微調(diào) + RAG

微調(diào)

0.84+(without RAG)

0.90+(with RAG)

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

70B LLM + zero-shot + RAG

不微調(diào)

0.872(with RAG)

??https://www.kaggle.com/code/zulqarnainali/explained-platypus2-70b-wikipedia-rag??

70B LLM + 微調(diào) + RAG

微調(diào)

0.914(with RAG)

??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446414??

總結(jié)1:微調(diào)特別是小模型微調(diào),能帶來(lái)不錯(cuò)的提升。deberta模型微調(diào)+模型融合也能到0.927左右的分?jǐn)?shù),和其他模型的最終結(jié)果差異沒(méi)那么大。

總結(jié)2:7B/13B左右的模型微調(diào)上限可能高于deberta系列模型的微調(diào)。第一名提到其7B左右的模型微調(diào)效果就已經(jīng)很不錯(cuò)了(LB 0.92+),融合deberta模型已經(jīng)不能帶來(lái)提升了。

總結(jié)3:70B大小的模型其zero-shot能力已經(jīng)相當(dāng)不錯(cuò)了【需要結(jié)合RAG】。開源70B模型+zero-shot+RAG能達(dá)到PB 0.872的分?jǐn)?shù),效果還不錯(cuò)。

四、優(yōu)勝方案要點(diǎn)分析


leaderboard

方法概述

關(guān)鍵因素

分?jǐn)?shù)

1rd place solution

基座模型:Llama-2-7b,Mistral-7B-v0.1,xgen-7b-8k-base,Llama-2-13b + 是否微調(diào):finetuning

檢索增強(qiáng):1. 探索MTEB top20 embedding模型,挖掘最好的5個(gè)。2. 探索更高的數(shù)據(jù)質(zhì)量。3. 檢索側(cè)做TTS融合。

驗(yàn)證策略:6k STEM數(shù)據(jù)。

工程:推理加速,包括對(duì)context+prompt結(jié)果做緩存,優(yōu)化推理速度,從而可以進(jìn)行多模型融合。


檢索質(zhì)量,基座模型,工程能力

private:0.933

3rd place solution

基座模型:debertas + Platypus(70B for hard question) + Xwin(70B)

排序模型:reranker +0.912->0.927提升挺大的。

更高的數(shù)據(jù)質(zhì)量:利用??https://github.com/attardi/wikiextractor??收集更高質(zhì)量的wiki數(shù)據(jù)


數(shù)據(jù)質(zhì)量,模型融合

  1. Platypus(70B for hard question)
  2. reranker篩選更高質(zhì)量的context

總結(jié):相當(dāng)于利用70B模型有更好的通用能力來(lái)解決小模型表現(xiàn)不太好的case從而進(jìn)行融合。

private:0.928

4rd place solution

基座模型:Deberta v3 Large

檢索方法:Elasticsearch

檢索排序:edit distance + sentence-transformers

檢索質(zhì)量:高質(zhì)量的檢索結(jié)果,以及在檢索側(cè)做很多TTS優(yōu)化融合工作帶來(lái)的提升。

private:0.927

5rd place solution

基座模型:Mistral 7B + Llama-70B

微調(diào)方法:QLoRA

檢索方法:BM-25(Lucene),參考??https://www.kaggle.com/code/strifonov/pyserini-scibert?? + 向量檢索

高質(zhì)量數(shù)據(jù):自己處理了wikipedia的數(shù)據(jù)

增強(qiáng)方法:TTA

融合方法:7B模型簡(jiǎn)單問(wèn)題(40%),70B模型苦難問(wèn)題(60%),更長(zhǎng)的context+70B模型預(yù)測(cè)前兩個(gè)困難樣本(5%)

融合方法:困難問(wèn)題用70B模型來(lái)解決

檢索質(zhì)量:BM25 + 向量檢索結(jié)合

TTA增強(qiáng)等


private:0.926, public:0.928

7rd palce solution

基座模型:Deberta + LLM

檢索方法:tfidf + sentence-transformer

驗(yàn)證集:130k STEM數(shù)據(jù)

訓(xùn)練:QLoRA SFT訓(xùn)練(7B/13B)

多級(jí)模型融合方法:簡(jiǎn)單模型解決閾值高的問(wèn)題,模型融合解決稍微復(fù)雜一點(diǎn)的問(wèn)題,LLM模型融合解決hard example

融合方法+檢索方法

private:0.925, public:0.931

10rd palce solution

數(shù)據(jù):dumps數(shù)據(jù),cirrus數(shù)據(jù),270k兩種數(shù)據(jù)。

檢索方法:tfidf+向量(bge,gte,e5)

切片方法:sliding window,top 10 chunks

模型:deberta

檢索質(zhì)量

private:0.922

14rd palce solution

數(shù)據(jù):cirrussearch wiki dump(質(zhì)量更好點(diǎn))

檢索:向量檢索(gte,bge,e5)

模型:deberta 256

融合:TTA(檢索結(jié)果)

檢索結(jié)果融合:不同排序的context融合

  • [ 0, 1, 2, 3, 4, 5]
  • [ 0, 6, 7, 8, 9, 10]
  • [ 0, 11, 12, 13, 14, 15]
  • [ 0, 16, 17, 18, 19, 20]

private:0.920

15rd palce solution

數(shù)據(jù):6800k wikipedia + 270k

檢索方法:tfidf + sentence model(simcse訓(xùn)練)

檢索排序:

  1. 6800k wiki -> sentence top1000 -> LBGRanker -> top30 -> sentence model -> top20 -> LB 0.885
  2. 270k tfidf/sentence -> top5/top8 paragraphs

模型:deberta

檢索優(yōu)化+排序模型+檢索側(cè)TTS

private:0.920,public:0.934

總結(jié)1:RAG檢索對(duì)于最終效果非常重要。包括不斷優(yōu)化檢索數(shù)據(jù)質(zhì)量,利用多種檢索策略(基于傳統(tǒng)方法or基于向量),還可以通過(guò)ranker等方法篩選更好的結(jié)果。另外檢索側(cè)基于不同不用順序的context做TTS也能帶來(lái)不錯(cuò)的提升。

總結(jié)2:小模型微調(diào)效果也不錯(cuò),大模型(70B)zero-shot能力非常強(qiáng),大模型勝在通用能力。例如3rd方法采用小模型解決簡(jiǎn)單問(wèn)題,大模型解決hard問(wèn)題的融合策略。

總結(jié)3:7B/13B大小的模型可能會(huì)成為NLP競(jìng)賽的主力軍。其模型上限效果不錯(cuò),可能比deberta類似大小的模型效果更好,同時(shí)訓(xùn)練所需資源也較小。

詳細(xì)解決思路可以參考:https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard

五、總結(jié)

  1. RAG檢索對(duì)于最終效果非常重要。包括不斷優(yōu)化檢索數(shù)據(jù)質(zhì)量,利用多種檢索策略,基于傳統(tǒng)方法(es,bm25,tfidf等),基于向量(開源方法,SimCSE訓(xùn)練),還可以通過(guò)ranker等方法篩選更好的結(jié)果都能帶來(lái)不錯(cuò)的提升。
  2. 如何有效的檢索上下文知識(shí),如何有效的處理長(zhǎng)文本知識(shí)是難點(diǎn),還有待進(jìn)一步探索。本次比賽發(fā)現(xiàn),在檢索側(cè)基于不同組合,不同順序的檢索結(jié)果做TTS(一種數(shù)據(jù)側(cè)做融合的方法)能帶來(lái)非常不錯(cuò)的提升[4][8]。這意味著如果我們?cè)跈z索側(cè),長(zhǎng)文本理解側(cè)可以做得更好,可能我們不會(huì)太依賴檢索側(cè)的TTS融合方法,從而降低推理成本。
  3. 大模型的zero-shot能力比較強(qiáng),勝在通用能力不錯(cuò)。其意味著不微調(diào)就可以在很多任務(wù)上取得不錯(cuò)的效果。在本次競(jìng)賽中開源的70B模型+zero-shot+RAG效果0.875。
  4. 大模型for hard sample + 小模型for simple sample可能是一種不錯(cuò)的融合方式。利用了大模型的通用能力不錯(cuò),在hard樣本上也有著比較強(qiáng)的泛化能力,同時(shí)小模型易于訓(xùn)練,微調(diào)后在簡(jiǎn)單樣本上表現(xiàn)好的特點(diǎn)。3rd place solution[9]就主要用的這種方法。
  5. 小模型(deberta等)特定領(lǐng)域做微調(diào)效果也有一定的發(fā)揮之力,同時(shí)其有成本優(yōu)勢(shì)。deberta微調(diào)+RAG可以到0.89左右,利用模型融合甚至可以到前幾名0.92+。
  6. 7B/13B大小的模型可能會(huì)成為NLP競(jìng)賽的主力軍。其模型上限效果不錯(cuò),可能比deberta類似大小的模型效果更好,同時(shí)訓(xùn)練所需資源也較小。
  7. 強(qiáng)大的工程能力對(duì)LLM的繼續(xù)發(fā)展也非常有用。例如讓模型一層一層推理在16GB內(nèi)存的GPU運(yùn)行70B大模型[7],以及第一名方案中,對(duì)context+prompt結(jié)果做緩存,可以減少大量重復(fù)上下文或者系統(tǒng)消息(system message)的tokens數(shù)量,從而優(yōu)化LLM推理時(shí)間[4]。
  8. 總結(jié)提分點(diǎn):RAG【檢索方法,排序方法,TTS策略】 >> 13b+微調(diào) > deberta/longformer + 微調(diào) > 70b zero-shot。

六、References

[1] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.

[2] RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application???https://towardsdatascience.com/rag-vs-finetuning-which-is-the-best-tool-to-boost-your-llm-application-94654b1eaba7??

[3] 利用tfidf傳統(tǒng)方法檢索相關(guān)文檔:??https://www.kaggle.com/code/hxshine/86-2-with-only-270k-articles?scriptVersinotallow=144092114??

[4] 1rd Place Solution:??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422??

[5] 大模型Kaggle比賽首秀冠軍方案總結(jié):??https://mp.weixin.qq.com/s/mhLOYWA9KEDANVdkoUpP-Q??

[6] 15rd place solution: ??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446816??

[7] 利用16GB內(nèi)存運(yùn)行70B大模型:??https://www.kaggle.com/code/zulqarnainali/explained-platypus2-70b-wikipedia-rag??

[8] 4rd Place Solution:??https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307??

[9] 3rd Place Solution:???https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358??

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者: NLP PaperWeekly 

標(biāo)簽
已于2024-12-4 13:58:31修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦