自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI算法 | 訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量及語(yǔ)言分布等因素對(duì)中文大模型性能的影響

人工智能
本文關(guān)注如何通過(guò)優(yōu)化訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、語(yǔ)言分布等因素,以及改進(jìn)評(píng)估方法,來(lái)提高開(kāi)源語(yǔ)言模型在中文任務(wù)中的表現(xiàn)。

已有LLM研究探索了訓(xùn)練數(shù)據(jù)對(duì)模型性能的影響,但這些研究大多集中在英文模型上,對(duì)于中文模型的研究相對(duì)較少。今天來(lái)看一篇來(lái)自貝殼的研究團(tuán)隊(duì)在2023年的一篇工作——《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》。

這篇工作的核心目標(biāo)是提升中文指令跟隨語(yǔ)言模型的性能。具體來(lái)說(shuō),本文關(guān)注如何通過(guò)優(yōu)化訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量、語(yǔ)言分布等因素,以及改進(jìn)評(píng)估方法,來(lái)提高開(kāi)源語(yǔ)言模型在中文任務(wù)中的表現(xiàn)。

直接來(lái)看實(shí)驗(yàn)結(jié)果:

圖片

詞匯擴(kuò)展的影響

由于LLaMA的詞表構(gòu)建未針對(duì)中文進(jìn)行優(yōu)化,一個(gè)中文字符通常會(huì)被拆分為2-3個(gè)字節(jié)token,這嚴(yán)重影響了模型在中文數(shù)據(jù)上的微調(diào)和推理速度。為解決這個(gè)問(wèn)題,本文基于字節(jié)對(duì)編碼(BPE)算法,使用sentencepiece在1200萬(wàn)行中文文本上訓(xùn)練了一個(gè)新的分詞器,并將其詞表大小設(shè)為50K。然后將訓(xùn)練得到的新詞表與原始LLaMA詞表進(jìn)行合并,最終得到一個(gè)包含79,458個(gè)token的新詞表。

在相同訓(xùn)練數(shù)據(jù)(中文Alpaca-3.5&4 + ShareGPT)條件下:

  • 基于LLaMA-EXT微調(diào)的模型得分為0.670
  • 基于原始LLaMA微調(diào)的模型得分為0.652

結(jié)果表明:通過(guò)中文語(yǔ)料二次預(yù)訓(xùn)練擴(kuò)展詞匯表,顯著提升了模型的中文理解能力。這得益于34億中文詞語(yǔ)的持續(xù)預(yù)訓(xùn)練增強(qiáng)了LLaMA的中文語(yǔ)言表征。

數(shù)據(jù)質(zhì)量的影響

由于 ChatGPT 傾向于生成重復(fù)性較高的對(duì)話(huà)場(chǎng)景(如天氣查詢(xún)、機(jī)票預(yù)訂等),因此,通過(guò)人工設(shè)計(jì)首輪對(duì)話(huà)提示來(lái)引導(dǎo)其生成更豐富的內(nèi)容。首輪對(duì)話(huà)提示的目的是確定對(duì)話(huà)的主題和方向,從而讓 ChatGPT 在后續(xù)輪次中能夠生成與主題相關(guān)的對(duì)話(huà)內(nèi)容。

在首輪對(duì)話(huà)提示的基礎(chǔ)上,ChatGPT 繼續(xù)生成多輪對(duì)話(huà),模擬用戶(hù)與 AI 助手之間的交互。通過(guò)這種方式,可以生成涵蓋多種場(chǎng)景和主題的多輪對(duì)話(huà)數(shù)據(jù)。

使用LLaMA-EXT模型時(shí):

  • 采用GPT-4生成數(shù)據(jù)(Alpaca-4-zh)訓(xùn)練的模型得分為0.693
  • 采用text-davinci-003生成數(shù)據(jù)(Alpaca-3.5-zh)訓(xùn)練的模型得分為0.642

證明:GPT-4生成的高質(zhì)量訓(xùn)練數(shù)據(jù)能更有效提升模型性能,數(shù)據(jù)質(zhì)量對(duì)模型表現(xiàn)具有決定性影響。

語(yǔ)言分布的影響

對(duì)比不同語(yǔ)言訓(xùn)練數(shù)據(jù)的效果:

  • 純中文數(shù)據(jù)(zh)訓(xùn)練的模型得分為0.679
  • 純英文數(shù)據(jù)(en)訓(xùn)練的模型得分為0.659
  • 中英混合數(shù)據(jù)(en+少量ShareGPT中文)得分為0.668

關(guān)鍵發(fā)現(xiàn):
① 中文數(shù)據(jù)在中文測(cè)試場(chǎng)景中具有優(yōu)勢(shì)

② 模型的多語(yǔ)言能力可以實(shí)現(xiàn)跨語(yǔ)言知識(shí)遷移 

③ 少量中文數(shù)據(jù)即可顯著提升英文模型的本地化表現(xiàn)

數(shù)據(jù)量的影響

增加訓(xùn)練數(shù)據(jù)規(guī)模:

  • 基礎(chǔ)數(shù)據(jù)量(Alpaca+ShareGPT)得分為0.670
  • 增加Belle-3.5數(shù)據(jù)后得分提升至0.762

表明:數(shù)據(jù)量在訓(xùn)練數(shù)據(jù)量方面,數(shù)據(jù)量的增加已被證明可以顯著提高性能。擴(kuò)大高質(zhì)量訓(xùn)練數(shù)據(jù)規(guī)模能持續(xù)提升模型性能。但值得注意的是,如此巨大的改進(jìn)可能部分來(lái)自belle-3.5和評(píng)估數(shù)據(jù)之間的相似分布。評(píng)估數(shù)據(jù)的類(lèi)別、主題和復(fù)雜性將對(duì)評(píng)估結(jié)果產(chǎn)生很大影響。

與ChatGPT的差距

  • 本文的最佳模型得分為0.762
  • ChatGPT得分為0.824

技術(shù)報(bào)告證明中文大模型的訓(xùn)練是可行的,雖然與ChatGPT還有差距。這里需要指出后續(xù)RLHF也很重要。

總結(jié)

① 詞匯擴(kuò)展和中文預(yù)訓(xùn)練是提升中文性能的基礎(chǔ)   

② 數(shù)據(jù)質(zhì)量比數(shù)量更重要   

③ 多語(yǔ)言模型具有跨語(yǔ)言遷移能力   

④ 構(gòu)建均衡全面的評(píng)估集是準(zhǔn)確衡量進(jìn)展的關(guān)鍵

責(zé)任編輯:龐桂玉 來(lái)源: 小白學(xué)AI算法
相關(guān)推薦

2025-04-01 09:54:09

AI算法大模型AI

2025-04-16 02:30:00

2024-01-23 10:35:09

ChatGPT人工智能

2012-06-06 09:41:08

ASO技巧截圖

2017-09-01 15:05:23

網(wǎng)站性能互聯(lián)網(wǎng)DNS

2023-08-10 08:46:52

2024-04-28 08:00:41

2024-12-12 09:11:58

2009-07-08 16:42:57

Scala語(yǔ)言設(shè)計(jì)

2025-04-22 08:08:37

2021-09-26 21:05:36

CDN網(wǎng)絡(luò)網(wǎng)站

2024-03-25 11:37:40

機(jī)器學(xué)習(xí)人工智能進(jìn)化算法

2015-06-26 09:27:14

Java調(diào)用性能

2011-05-05 14:05:05

打印設(shè)備

2011-05-10 17:11:46

PR值

2023-05-17 14:04:30

2022-11-17 08:00:18

JavaScript錯(cuò)誤性能

2022-12-15 08:00:38

JavaScript錯(cuò)誤性能

2022-06-02 10:29:23

神經(jīng)網(wǎng)絡(luò)AI計(jì)算機(jī)

2023-10-11 12:32:53

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)