自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

吃“有毒”數(shù)據(jù),大模型反而更聽話了!來自港科大&華為諾亞方舟實(shí)驗(yàn)室

人工智能 新聞
相比于一味規(guī)避“有毒”數(shù)據(jù),以毒攻毒,干脆給大模型喂點(diǎn)錯(cuò)誤文本,再讓模型剖析、反思出錯(cuò)的原因,反而能夠讓模型真正理解“錯(cuò)在哪兒了”,進(jìn)而避免胡說八道。

現(xiàn)在,大模型也學(xué)會(huì)“吃一塹,長一智”了。

來自香港科技大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的最新研究發(fā)現(xiàn):

相比于一味規(guī)避“有毒”數(shù)據(jù),以毒攻毒,干脆給大模型喂點(diǎn)錯(cuò)誤文本,再讓模型剖析、反思出錯(cuò)的原因,反而能夠讓模型真正理解“錯(cuò)在哪兒了”,進(jìn)而避免胡說八道。

圖片

具體而言,研究人員提出了“從錯(cuò)誤中學(xué)習(xí)”的對齊框架,并通過實(shí)驗(yàn)證明:

讓大模型“吃一塹,長一智”,在糾正未對齊的模型方面超越了SFT和RLHF的方法,而且在對已對齊模型進(jìn)行高級(jí)指令攻擊的防御方面也具有優(yōu)勢

一起來看詳情。

從錯(cuò)誤中學(xué)習(xí)的對齊框架

現(xiàn)有的大語言模型對齊算法主要?dú)w為兩大類:

  • 有監(jiān)督的微調(diào)(SFT)
  • 人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)

SFT方法主要依賴于海量人工標(biāo)注的問答對,目的是使模型學(xué)習(xí)“完美的回復(fù)”。但其缺點(diǎn)在于,模型很難從這種方法中獲得對“不良回復(fù)”的認(rèn)知,這可能限制了其泛化能力。

RLHF方法則通過人類標(biāo)注員對回復(fù)的排序打分來訓(xùn)練模型,使其能夠區(qū)分回復(fù)的相對質(zhì)量。這種模式下,模型學(xué)會(huì)了如何區(qū)分答案的高下,但它們對于背后的“好因何好”與“差因何差”知之甚少。

總的來說,這些對齊算法執(zhí)著于讓模型學(xué)習(xí)“優(yōu)質(zhì)的回復(fù)”,卻在數(shù)據(jù)清洗的過程中遺漏了一個(gè)重要環(huán)節(jié)——從錯(cuò)誤中汲取教訓(xùn)。

能不能讓大模型像人類一樣,“吃一塹,長一智”,即設(shè)計(jì)一種對齊方法,讓大模型既能從錯(cuò)誤中學(xué)習(xí),又不受含有錯(cuò)誤的文本序列影響呢?

△“從錯(cuò)誤中學(xué)習(xí)”的大語言模型對齊框架,包含4個(gè)步驟,分別是(1)錯(cuò)誤誘導(dǎo)(2)基于提示指引的錯(cuò)誤分析(3)無引導(dǎo)的模型微調(diào)(4)基于提示引導(dǎo)的回復(fù)生成

香港科技大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的研究團(tuán)隊(duì)對此進(jìn)行了實(shí)驗(yàn)。

通過對Alpaca-7B、GPT-3和GPT-3.5這三個(gè)模型的實(shí)驗(yàn)分析,他們得出了一個(gè)有趣的結(jié)論:

對于這些模型,識(shí)別錯(cuò)誤的回復(fù),往往比在生成回復(fù)時(shí)避免錯(cuò)誤來得容易。

圖片

△判別比生成更容易

并且,實(shí)驗(yàn)還進(jìn)一步揭示,通過提供適當(dāng)?shù)闹笇?dǎo)信息,例如提示模型“回復(fù)中可能存在錯(cuò)誤”,模型識(shí)別錯(cuò)誤的準(zhǔn)確性可以得到顯著提升。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一種利用模型對錯(cuò)誤的判別能力來優(yōu)化其生成能力的全新對齊框架。

對齊流程是這樣的:

(1)錯(cuò)誤誘導(dǎo)

這一步的目標(biāo)是誘導(dǎo)模型產(chǎn)生錯(cuò)誤,發(fā)現(xiàn)模型的弱點(diǎn)所在,以便后續(xù)進(jìn)行錯(cuò)誤分析和修正。

這些錯(cuò)誤案例可以來自于現(xiàn)有的標(biāo)注數(shù)據(jù),或者是模型在實(shí)際運(yùn)行中被用戶發(fā)現(xiàn)的錯(cuò)例。

該研究發(fā)現(xiàn),通過簡單的紅隊(duì)攻擊誘導(dǎo),例如向模型的指令中添加某些誘導(dǎo)性關(guān)鍵字(如“unethical”和“offensive”),如下圖(a)所示,模型往往會(huì)產(chǎn)生大量不恰當(dāng)?shù)幕貜?fù)。

(2)基于提示引導(dǎo)的錯(cuò)誤分析

當(dāng)收集到足夠多包含錯(cuò)誤的問答對后,方法進(jìn)入第二步,即引導(dǎo)模型對這些問答對進(jìn)行深入分析。

具體來說,該研究要求模型解釋為什么這些回復(fù)可能是不正確或不道德的。

如下圖(b)所展示,通過為模型提供明確的分析指導(dǎo),比如詢問“為什么這個(gè)答案可能是錯(cuò)誤的”,模型通常能給出合理的解釋。

(3)無引導(dǎo)性的模型微調(diào)

在收集了大量的錯(cuò)誤問答對及其分析后,該研究使用這些數(shù)據(jù)來進(jìn)一步微調(diào)模型。除了那些包含錯(cuò)誤的問答對,也加入了正常的人類標(biāo)注問答對作為訓(xùn)練數(shù)據(jù)。

如下圖(c)所示,在這一步驟中,該研究并沒有給模型任何關(guān)于回復(fù)中是否包含錯(cuò)誤的直接提示。這樣做的目的是鼓勵(lì)模型自行思考、評估并理解出錯(cuò)的原因。

(4)基于提示引導(dǎo)的回復(fù)生成

推理階段采用了基于引導(dǎo)的回復(fù)生成策略,明確提示模型產(chǎn)生“正確的、符合道德且無冒犯性”的回復(fù),從而確保模型遵守道德規(guī)范,避免受到錯(cuò)誤文本序列影響。

即,在推理過程中,模型基于符合人類價(jià)值觀的生成指導(dǎo),進(jìn)行條件生成,從而產(chǎn)生恰當(dāng)?shù)妮敵觥?/p>

圖片

△“從錯(cuò)誤中學(xué)習(xí)”的大語言模型對齊框架指令示例

以上對齊框架無需人類標(biāo)注以及外部模型(如獎(jiǎng)勵(lì)模型)的參與,模型通過利用自身對錯(cuò)誤的判別能力對錯(cuò)誤進(jìn)行分析,進(jìn)而促進(jìn)其生成能力。

就像這樣,“從錯(cuò)誤中學(xué)習(xí)”可以準(zhǔn)確識(shí)別用戶指令當(dāng)中的潛在風(fēng)險(xiǎn),并做出合理準(zhǔn)確的回復(fù):

圖片

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)圍繞兩大實(shí)際應(yīng)用場景展開實(shí)驗(yàn),驗(yàn)證新方法的實(shí)際效果。

場景一:未經(jīng)過對齊的大語言模型

以Alpaca-7B模型為基線,該研究采用了PKU-SafeRLHF Dataset數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),與多種對齊方法進(jìn)行了對比分析。

實(shí)驗(yàn)結(jié)果如下表所示:

當(dāng)保持模型的有用性時(shí),“從錯(cuò)誤中學(xué)習(xí)”的對齊算法在安全通過率上相比SFT、COH和RLHF提高了大約10%,與原始模型相比,提升了21.6%

同時(shí),該研究發(fā)現(xiàn),由模型自身產(chǎn)生的錯(cuò)誤,相較于其他數(shù)據(jù)源的錯(cuò)誤問答對,展現(xiàn)出了更好的對齊效果。

圖片

△未經(jīng)過對齊的大語言模型實(shí)驗(yàn)結(jié)果

場景二:已對齊模型面臨新型指令攻擊

研究團(tuán)隊(duì)進(jìn)一步探索了如何加強(qiáng)已經(jīng)過對齊的模型,以應(yīng)對新出現(xiàn)的指令攻擊模式。

這里,該研究選擇了ChatGLM-6B作為基線模型。ChatGLM-6B已經(jīng)經(jīng)過安全對齊,但面對特定指令攻擊時(shí)仍可能產(chǎn)生不符合人類價(jià)值觀的輸出。

研究人員以“目標(biāo)劫持”這種攻擊模式為例,并使用含有這一攻擊模式的500條數(shù)據(jù)進(jìn)行了微調(diào)實(shí)驗(yàn)。如下表所示,“從錯(cuò)誤中學(xué)習(xí)”的對齊算法在面對新型指令攻擊時(shí)展現(xiàn)出了強(qiáng)大的防御性:即使只使用少量的新型攻擊樣本數(shù)據(jù),模型也能成功保持通用能力,并在針對新型攻擊(目標(biāo)劫持)的防御上實(shí)現(xiàn)了16.9%的提升。

實(shí)驗(yàn)還進(jìn)一步證明,通過“從錯(cuò)誤中學(xué)習(xí)”策略獲得的防御能力,不僅效果顯著,而且具有很強(qiáng)的泛化性,能夠廣泛應(yīng)對同一攻擊模式下的多種不同話題。

圖片

△經(jīng)過對齊的模型抵御新型攻擊

論文鏈接:https://arxiv.org/abs/2310.10477

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-09-26 10:04:20

2025-04-01 09:20:00

模型預(yù)測AI

2022-02-16 13:46:00

模型數(shù)據(jù)開源

2025-04-10 09:19:52

2024-09-18 11:00:00

AI工具數(shù)據(jù)

2025-01-14 13:52:56

2020-03-02 11:04:19

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-12-31 14:00:00

模型訓(xùn)練數(shù)據(jù)

2025-04-07 08:50:00

模型AI數(shù)據(jù)

2022-02-25 23:38:29

開源數(shù)據(jù)庫算法

2024-11-05 14:10:00

神經(jīng)網(wǎng)絡(luò)AI

2024-03-14 09:57:35

華為模型

2020-10-26 16:00:10

AI

2023-12-26 12:12:01

模型訓(xùn)練

2022-10-28 15:16:52

檢測數(shù)據(jù)

2019-07-30 13:16:07

華為鴻蒙任正非

2019-01-09 10:18:34

技術(shù)人工智能服務(wù)器

2023-11-23 13:50:26

AI模型

2021-12-01 15:16:32

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2025-01-07 12:49:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)