自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源垂直領(lǐng)域高質(zhì)量數(shù)據(jù)合成框架!專業(yè)QA自動生成,無需人工標(biāo)注,來自上海AI Lab

人工智能 新聞
通過“知識圖譜引導(dǎo)+雙模型協(xié)同”機(jī)制,顯著增強(qiáng)模型對垂域的理解能力。

垂域模型訓(xùn)練,高質(zhì)量問答數(shù)據(jù)稀缺一直是行業(yè)痛點(diǎn)。

在垂直領(lǐng)域大模型訓(xùn)練中,人工標(biāo)注成本高昂,合成數(shù)據(jù)又常陷入質(zhì)量與專業(yè)性難以兼得的困境。

為此,上海AI實(shí)驗(yàn)室等提出GraphGen。

通過“知識圖譜引導(dǎo)+雙模型協(xié)同”機(jī)制,顯著增強(qiáng)模型對垂域的理解能力。

同時,研究團(tuán)隊(duì)已經(jīng)在OpenXLab部署了Web應(yīng)用,上傳你的文本塊(如海事、海洋知識)、填寫SliconCloud API Key,即可在線生成LLaMA-Factory、XTuner所需的訓(xùn)練數(shù)據(jù)。

背景說明

垂域模型(如醫(yī)療、農(nóng)業(yè))訓(xùn)練中,獲取QA(問答對)數(shù)據(jù)常常面臨以下難題:

量大。只是學(xué)習(xí)回復(fù)風(fēng)格只需數(shù)百條,尚且能人工標(biāo)注;用SFT(Supervised Fine-Tuning)給模型注入新知識,需要數(shù)十萬的樣本量,此時數(shù)據(jù)合成手段是剛需。

專業(yè)背景。開源LLM在小眾領(lǐng)域已經(jīng)表現(xiàn)不錯,但垂域應(yīng)對的是真正的“硬骨頭”。面對領(lǐng)域數(shù)據(jù),普通人可能每個字都認(rèn)識,但連在一起并不知道什么含義。比如,不借助工具,請?jiān)囍x懂這句:

1AGIS_Os01g033640是一個怎樣的數(shù)量性狀基因(QTG),與鹽脅迫表達(dá)是否有關(guān)聯(lián)?

質(zhì)量把控?!癓LM-RAG-打分”通常也被拿來合成 SFT 數(shù)據(jù),但這條pipeline存留一些問題:

正確性。在LLM不具備領(lǐng)域知識時,直接給領(lǐng)域問答數(shù)據(jù)打分,容易陷入“先有雞先有蛋”的難題

簡單的關(guān)聯(lián)度得分也不足以衡量數(shù)據(jù)質(zhì)量,不僅沒有回復(fù)長度、信息豐度等指標(biāo),更缺少語義層面的保證

方案介紹

為了解決以上問題,上海AI Lab開源了GraphGen,一個在知識圖譜引導(dǎo)下的合成數(shù)據(jù)生成框架,旨在知識密集型任務(wù)中生成問答

這是基于GraphGen和SiliconCloud Qwen2.5-7B-Instruct API實(shí)跑的 QA 樣例:

1Q:隆兩優(yōu)1212是什么品種的水稻,其機(jī)播時間是什么時候?
2A:首先,隆兩優(yōu)1212是一種早熟品種,于2017年引入福建省龍巖市長汀縣試種。這種水稻在煙草收獲后進(jìn)行種植,因此被稱為煙后稻。隆兩優(yōu)1212的機(jī)播時間定在了6月15日。隨著時間的推移,到了2019年,隆兩優(yōu)1212進(jìn)一步擴(kuò)大了示范種植的范圍。此外,隆兩優(yōu)1212還具有抽穗整齊的生長特點(diǎn),這進(jìn)一步證明了其優(yōu)良的種植性能。
3
4Q:What role does the BG1 gene play in plant growth and development, and how is its expression regulated?
5A:AUXIN, a class of plant hormones that regulate various aspects of plant growth and development, plays a crucial role in the induction of the BG1 gene. Specifically, BG1 is induced by auxin treatment, indicating its involvement in auxin transport regulation. This gene is preferentially expressed in the vascular tissue of culms, further highlighting its localization in these tissues. The function of BG1 extends beyond auxin transport regulation, as it is also linked to the regulation of grain size and tiller angle. Tiller angle, a critical architectural feature of rice plants that influences grain yield, is directly affected by the expression of BG1. Therefore, the role of BG1 in regulating both grain size and tiller angle underscores its importance in plant architecture and overall yield.

GraphGen會使用到兩個LLM,一個是合成模型,負(fù)責(zé)構(gòu)建知識圖譜、合成數(shù)據(jù)等;另一個是學(xué)生模型,用來識別它自己的知識盲點(diǎn),方便針對性的選擇數(shù)據(jù)。

圖片

上圖是GraphGen工作流:

首先輸入一段原始文本,使用合成模型從源文本構(gòu)建細(xì)粒度的知識圖譜。

然后,利用預(yù)期校準(zhǔn)誤差(Expected Calibration Error, 簡稱 ECE)來識別學(xué)生模型的知識盲點(diǎn),針對知識盲點(diǎn)優(yōu)先生成針對高價值、長尾知識的問答對。

接著,GraphGen框架結(jié)合多跳鄰域采樣來捕捉復(fù)雜的關(guān)聯(lián)信息,并采用風(fēng)格控制生成技術(shù)來使生成的問答數(shù)據(jù)多樣化。

最終得到一系列和原始文本相關(guān)的問答對。用戶可以直接用這批數(shù)據(jù)在llama-factory或者xtuner這樣的訓(xùn)練框架中進(jìn)行SFT。

優(yōu)秀的數(shù)據(jù)合成方法有很多,研究團(tuán)隊(duì)在論文中做了對比測試:

圖片

研究團(tuán)隊(duì)采用的是客觀指標(biāo):

MTLD(Measure of Textual Lexical Diversity)通過計(jì)算文本中連續(xù)詞串的平均長度來評估詞匯的多樣性

Uni(Unieval Score)是基于對話模型的自然度、一致度、可理解度評價指標(biāo)

Rew(Reward Score)是BAAI和OpenAssistant開源的兩個Reward Model計(jì)算的得分

由上圖可見,GraphGen能給出相對較好的合成數(shù)據(jù)。

同時研究團(tuán)隊(duì)在開源數(shù)據(jù)集(SeedEval、PQArefEval、HotpotEval 分別對應(yīng)農(nóng)業(yè)、醫(yī)學(xué)、通用)訓(xùn)練測試,結(jié)果表明GraphGen自動合成的數(shù)據(jù)能夠降低Comprehension Loss(越低代表學(xué)生模型的知識盲點(diǎn)越少),增強(qiáng)模型對垂域的理解力。

圖片

工具使用

研究團(tuán)隊(duì)已經(jīng)在OpenXLab平臺推出了一個便捷的Web應(yīng)用。用戶可以輕松上傳各類文本塊(例如海事、海洋知識等),并通過填寫SiliconCloud API Key,快速生成適配LLaMA-Factory和XTuner訓(xùn)練框架所需的高質(zhì)量訓(xùn)練數(shù)據(jù)。

圖片

需要注意的是:

為了方便試用,默認(rèn)配置免費(fèi)的7B模型。真實(shí)業(yè)務(wù)中請用更大的合成模型(14B 及以上),并開啟Trainee 難例挖掘

Web應(yīng)用默認(rèn)配置SiliconCloud做API Key,也支持本地vllm部署,請自行修改base URL

GitHub 和論文地址:https://github.com/open-sciencelab/GraphGenOpenXLab Web

體驗(yàn)地址:https://g-app-center-000704-6802-aerppvq.openxlab.space

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2025-02-18 15:03:58

數(shù)據(jù)AI模型

2025-04-15 09:22:00

AI訓(xùn)練模型

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2022-08-25 16:46:29

人工智能AI

2024-05-09 08:33:33

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2023-12-10 15:17:59

開源模型3D

2015-08-19 08:54:23

Android開發(fā)框架

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2010-07-06 11:52:59

數(shù)據(jù)庫RationalJazz

2023-09-01 14:42:39

數(shù)據(jù)研究

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2023-07-04 08:35:52

MetaGPT開源

2024-12-26 07:20:00

2025-02-10 14:05:00

訓(xùn)練模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號