針對特定領(lǐng)域較小的語言模型是否與較大的模型同樣有效?
經(jīng)過2023年的發(fā)展,大語言模型展示出了非常大的潛力,訓(xùn)練越來越大的模型成為有效性評估的一個關(guān)鍵指標(biāo),論文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis》中,作者全面分析了微調(diào)大語言模型(llm)及其在金融情緒分析中的零樣本和少樣本的能力。
作者通過使用兩種方法來探索金融情緒分析背景下的潛力和適用性:
- 在特定的領(lǐng)域(金融領(lǐng)域)的數(shù)據(jù)集上,使用小語言模型進(jìn)行微調(diào),作者測試了250M到3B參數(shù)各種模型
- 以gpt-3.5 turbo為重點的情境學(xué)習(xí)
作者還將結(jié)果與SOTA(最先進(jìn)的)模型進(jìn)行比較以評估其性能,我們看看小模型是否還同樣有效。
論文證明了以下觀點:
- 微調(diào)較小的llm可以達(dá)到與SOTA微調(diào)llm相當(dāng)?shù)男阅堋?/span>
- 零樣本和少樣本學(xué)習(xí)的的性能與經(jīng)過微調(diào)的小型llm相當(dāng)。
- 增加上下文學(xué)習(xí)中的樣本數(shù)量并不一定會提高情感分析任務(wù)的性能。
- 微調(diào)較小的llm會降低成本和提高計算效率。
作者專注于使用QLoRa (Quantized low - rank - adaptive)機(jī)制對FLAN-T5模型進(jìn)行微調(diào)。使用財務(wù)特定數(shù)據(jù)集,研究了3種尺寸:Flan-T5 base (250M), Flan-T5 large (780M)和Flan-T5-xl (3B參數(shù))。
論文概述
論文首先總結(jié)了特定于金融領(lǐng)域的SOTA模型:
- FinBERT:使用總計4.9B Token組的金融通信語料庫進(jìn)行微調(diào)的BERT。
- bloomberg ggpt:這是一個包含50B個參數(shù)的閉源模型,專門針對各種金融數(shù)據(jù)進(jìn)行訓(xùn)練。它在情感分析中表現(xiàn)出良好的性能。
- 使用LLama-7B對FinGPT進(jìn)行微調(diào)。該模型使用更少的計算資源實現(xiàn)了與bloomberg ggpt相當(dāng)?shù)男阅堋?/span>
- ChatGPT這樣的llm也可以使用零樣本學(xué)習(xí)。但是他們在少樣本學(xué)習(xí)中表現(xiàn)并不理想
作者使用了以下模型:
1、沒有進(jìn)行任何微調(diào):Flan-T5 base (250M), Flan-T5 large (780M), Flan-T5-xl (3B參數(shù)),ChatGPT (gpt-3.5 turbo)。目標(biāo)是研究模型的大小對零樣本和少樣本學(xué)習(xí)的影響。
2、微調(diào)llm:具有3個尺寸的相同型號的Flan-T5已經(jīng)進(jìn)行了微調(diào)。
數(shù)據(jù)集
使用了Twitter財經(jīng)新聞(Twitter Train),包括與金融主題相關(guān)的推文,可通過HuggingFace訪問。它包含9540個樣本。
TFSN: 2390個帶有注釋的財經(jīng)相關(guān)推文語料庫樣本。
FPB: 4845篇金融新聞文章樣本,由16位領(lǐng)域?qū)<易⑨尅?/span>
GPU資源
為了對3個模型進(jìn)行微調(diào),作者使用了A100 GPU,每個模型的總訓(xùn)練時間如下:基本模型28分鐘,大模型54分鐘,XL模型65分鐘,所以說這個微調(diào)是非常節(jié)省資源的。
微調(diào)小型LLMs
結(jié)果顯示了經(jīng)過微調(diào)的小型llm優(yōu)于大型llm的性能:
所有Fine-tuned-FLAN-T5的性能都優(yōu)于FinBERT;Large (780M)和XL(3B) fine - tuning - flan - t5性能優(yōu)于directive - lama- 7b;在TFSN數(shù)據(jù)集中,即使是基礎(chǔ)(250M)微調(diào)的flan - t5也比使用ChatGPT (gpt-3.5 turbo)的k-shot上下文學(xué)習(xí)表現(xiàn)更好。
少樣本學(xué)習(xí)
以下是0 -shot和k-shot學(xué)習(xí)的結(jié)果(k= 1,5和10):
在TFSN數(shù)據(jù)集上,零樣本和少樣本學(xué)習(xí)的表現(xiàn)明顯低于所有其他微調(diào)模型。(除了XL,表現(xiàn)比FinBert稍好)
但是在FPB數(shù)據(jù)集中,與ChatGPT相比,Large和XL Flan-T5零樣本和少樣本學(xué)習(xí)表現(xiàn)出較強(qiáng)的性能。
樣本的增加使得基本型Flan-T5的性能略有提升。但在Large和XL fall - t5中,這導(dǎo)致精度下降。這是因為冗長的上下文窗口可能會導(dǎo)致LLM誤入歧途。
所以作者建議,當(dāng)k-shot增加時可以使用語義相似檢索或思維鏈(CoT)或線索和推理提示(CARP)方法來解決性能下降的問題。
總結(jié)
可以看到,針對特定的領(lǐng)域,微調(diào)小模型還是能過夠得到很好的效果,這在對于我們實際應(yīng)用是是非常有幫助的,不僅可以節(jié)省成本,還可以節(jié)省我們的訓(xùn)練時間,可以讓我們進(jìn)行快速的版本迭代。
論文地址:https://arxiv.org/pdf/2312.08725.pdf