自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="0iyke"><rt id="0iyke"></rt></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？

發(fā)布于 2024-9-10 11:56

瀏覽

0收藏

之前很多研究都是生成、發(fā)現(xiàn)、過濾高質(zhì)量的通用指令微調(diào)數(shù)據(jù)，而大家對代碼任務(wù)的越發(fā)關(guān)注，如何構(gòu)建更好的代碼指令調(diào)整數(shù)據(jù)也越發(fā)重要。

下面給大家?guī)硪黄Y選高質(zhì)量代碼指令微調(diào)數(shù)據(jù)的文章，主要基于指令的復(fù)雜性、回復(fù)質(zhì)量和指令的多樣性三個維度來進(jìn)行樣本的篩選，同時也指出了當(dāng)前部分代碼指令數(shù)據(jù)在HumanEval上存在嚴(yán)重的數(shù)據(jù)泄露。

Paper: https://arxiv.org/abs/2409.03810
Github: https://github.com/banksy23/XCoder
Data-HF: https://huggingface.co/datasets/banksy235/XCoder-80K

數(shù)據(jù)篩選

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

數(shù)據(jù)篩選過程主要從三個維度（指令復(fù)雜性、響應(yīng)質(zhì)量和指令多樣性）從數(shù)據(jù)池中選擇樣本。

對于一個數(shù)據(jù)池，首先使用復(fù)雜性評分器和單元測試模型來計算每個數(shù)據(jù)的復(fù)雜性評分和質(zhì)量評分。然后，對復(fù)雜性評分和質(zhì)量評分進(jìn)行歸一化得到和，經(jīng)過線性組合后，得到整體評分，最后將數(shù)據(jù)池進(jìn)行排序，并根據(jù)多樣性進(jìn)行迭代采樣，直到篩選數(shù)據(jù)集達(dá)到預(yù)計大小為止，算法流程如下圖所示。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

復(fù)雜性評分器：利用self-instruct方法獲取一個小規(guī)模的種子數(shù)據(jù) ，然后根據(jù)WizardCoder方法進(jìn)行提示詞次深度進(jìn)化，產(chǎn)生輪次數(shù)據(jù)，將輪次是為復(fù)雜性的度量值，訓(xùn)練復(fù)雜性評分器。
單元測試模型：代碼通過測試用例數(shù)量可以作為響應(yīng)質(zhì)量的度量，利用6k數(shù)據(jù)訓(xùn)練LLaMA3-70B-Base模型來作為單元測試模型。在測試過程中，單元測試模型為每個訓(xùn)練樣本生成12個測試用例，并執(zhí)行單元測試程序，將通過的測試用例數(shù)量作為質(zhì)量評分。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

多樣性采樣：迭代式從數(shù)據(jù)池中選擇樣本，當(dāng)該樣本對數(shù)據(jù)集多樣性做成貢獻(xiàn)時，填入數(shù)據(jù)集。樣本的多樣性的貢獻(xiàn)采用表示，當(dāng) 為真時，值等于1，被填入數(shù)據(jù)集。為樣本與中最近樣本之間的嵌入距離，τ

效果分析

為了構(gòu)建最佳的代碼指令微調(diào)數(shù)據(jù)集，收集了各種可用的開源數(shù)據(jù)集，共2.5M樣本。優(yōu)于數(shù)據(jù)池過大，經(jīng)過以下步驟過濾、去重，最終獲得336K樣本。

選取學(xué)術(shù)工作數(shù)據(jù)集：Magicoder-OSS-Instruct、Magicoder-Evol-Instruct和Code-Feedback
選擇了長度最長的200K個樣本
選擇復(fù)雜性評分最高的200K個樣本
去重

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

LLaMA3-8B-Base上采用Xcoder數(shù)據(jù)進(jìn)行了實驗，如下表所示，在僅使用40K數(shù)據(jù)在LiveCodeBench和BigCodeBench上就取得了優(yōu)于基線的性能；增加到80K數(shù)據(jù)時，指標(biāo)持續(xù)提高。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

基于LLaMA3-70B-Base在Xcoder數(shù)據(jù)上訓(xùn)練了XCoder-70B模型，成為效果最佳的開源的代碼大模型。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

HumanEval上不是最優(yōu)，是因為Magicoder-Evol-Instruct和Codefuse-Evol-Instruct數(shù)據(jù)在HumanEval存在數(shù)據(jù)泄露情況。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

并提出了TLI（測試泄露指標(biāo)）來量化訓(xùn)練集對測試集泄露數(shù)據(jù)程度。主要對兩個數(shù)據(jù)集生成n-gram片段，并測量每個測試樣本的n-gram片段與所有訓(xùn)練樣本的n-gram片段之間的重疊情況，其中，測試樣本中的公共n-gram片段個數(shù)與測試樣本中的總n-gram片段個數(shù)的比率作為測試樣本與訓(xùn)練樣本之間的相似度分?jǐn)?shù)。所有測試集中的相似度分?jǐn)?shù)的平均值作為TLI值，其中，TLI值越高，泄露風(fēng)險越大。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

消融實驗，三個維度的指標(biāo)對于最終數(shù)據(jù)的選擇均有益。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

針對復(fù)雜性評估，可以發(fā)現(xiàn)雜性評分器 > 指令長度 > 困惑度 > 隨機(jī)。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

針對單元測試模型，可以發(fā)現(xiàn)訓(xùn)練的Llama3-70模型由于GPT4模型。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

并且Xcoder選擇10K數(shù)據(jù)的訓(xùn)練效果，就堪比隨機(jī)選擇160K數(shù)據(jù)效果。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

同時，分析了XCoder的數(shù)據(jù)組成，重新評估了不同數(shù)據(jù)源的優(yōu)勢和劣勢。

如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？-AI.x社區(qū)

寫在最后

大模型發(fā)展到現(xiàn)在，合成數(shù)據(jù)的重要性不言而喻，但需要我們注意的一點是，如果一味的增加低質(zhì)量數(shù)據(jù)或模式固定的單一數(shù)據(jù)，除了增加模型訓(xùn)練時間外，毫無用處，甚至?xí)砟Ｐ瓦^擬合等負(fù)面影響。

因此，大模型在微調(diào)過程中，無論是通用任務(wù)、還是代碼任務(wù)，對數(shù)據(jù)進(jìn)行多樣性、質(zhì)量的選擇是有必要的，也許提分就在這毫厘之間。

本文轉(zhuǎn)載自 ??NLP工作站??，作者：劉聰NLP

標(biāo)簽

數(shù)據(jù)

已于2024-9-10 12:02:50修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)

Aceryt ? 3978瀏覽 ? 0回復(fù)
ICLR 2024 Spotlight | 無懼中間步驟，MUSTARD可生成高質(zhì)量數(shù)學(xué)推理數(shù)據(jù)

輕薄滴假象 ? 3068瀏覽 ? 0回復(fù)
Meta 聯(lián)合紐約大學(xué)和華盛頓大學(xué)提出MetaCLIP，帶你揭開CLIP的高質(zhì)量數(shù)據(jù)之謎。

輕薄滴假象 ? 2462瀏覽 ? 0回復(fù)
七個高質(zhì)量潤色論文和文章的指令

數(shù)師兄 ? 3256瀏覽 ? 0回復(fù)
Advanced RAG 08：使用 Self-RAG 打造高質(zhì)量、可追溯的 RAG System

Baihai_IDP ? 2814瀏覽 ? 0回復(fù)
百萬級高質(zhì)量視頻數(shù)據(jù)集發(fā)布，登頂抱抱臉數(shù)據(jù)集排行榜，中科大&上海AI Lab等出品

Crystalcxt ? 2520瀏覽 ? 0回復(fù)
靠Scaling Laws煉出4D版視頻生成模型，多倫多大學(xué)北交大等攜手開源81K高質(zhì)量數(shù)據(jù)集

Crystalcxt ? 2088瀏覽 ? 0回復(fù)
大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS

NLP工作站 ? 3487瀏覽 ? 0回復(fù)
快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst

angel ? 2834瀏覽 ? 0回復(fù)
1890美元訓(xùn)出11.6億參數(shù)高質(zhì)量文生圖模型

duhorse ? 2079瀏覽 ? 0回復(fù)
谷歌通過數(shù)據(jù)增強(qiáng)、對比調(diào)優(yōu)，減少多模態(tài)模型幻覺

Aceryt ? 2491瀏覽 ? 0回復(fù)
國外驚訝，中國文生視頻模型超高質(zhì)量！

Aceryt ? 2934瀏覽 ? 0回復(fù)
LLaMA-Omni：專為與大型語言模型（LLMs）進(jìn)行低延遲、高質(zhì)量的語音交互而設(shè)計

Halo咯咯 ? 3213瀏覽 ? 0回復(fù)
Prompt調(diào)優(yōu)

ermulong ? 2438瀏覽 ? 0回復(fù)
大模型訓(xùn)練之訓(xùn)練數(shù)據(jù)準(zhǔn)備，即怎么準(zhǔn)備高質(zhì)量的訓(xùn)練數(shù)據(jù)集？

AI探索時代 ? 3000瀏覽 ? 0回復(fù)
視覺指令調(diào)優(yōu)

AIRoobt ? 1423瀏覽 ? 0回復(fù)
關(guān)于打造高質(zhì)量RAG系統(tǒng)的問題記錄

AI探索時代 ? 828瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 464瀏覽 ? 0回復(fù)
關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究

AI探索時代 ? 156瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致 8天前發(fā)布
Llama4 模型細(xì)節(jié) & 效果實測 2025-04-09 07:07:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：將端側(cè)大模型進(jìn)行到底-MiniCPM3-4B開源

下一篇：六個問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！

社區(qū)精華內(nèi)容

目錄