自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剛剛,OpenAI發(fā)布o(jì)1模型新突破,推理時(shí)間增強(qiáng)對(duì)抗魯棒性

人工智能 新聞
與傳統(tǒng)的對(duì)抗訓(xùn)練樣本方法不同的是,OpenAI提出的新方法不需要對(duì)大模型進(jìn)行專門的對(duì)抗訓(xùn)練,也不需要提前了解攻擊的具體形式。

今天凌晨2點(diǎn),OpenAI發(fā)布了一項(xiàng)新技術(shù)研究,通過(guò)增加推理時(shí)間、算力資源來(lái)大幅度提升模型的對(duì)抗魯棒性。

與傳統(tǒng)的對(duì)抗訓(xùn)練樣本方法不同的是,OpenAI提出的新方法不需要對(duì)大模型進(jìn)行專門的對(duì)抗訓(xùn)練,也不需要提前了解攻擊的具體形式。只需要通過(guò)增加推理時(shí)間和算力資源,模型就可以更充分地利用其推理能力表現(xiàn)出更強(qiáng)的魯棒性。

OpenAI將新技術(shù)在o1-preview和o1-mini模型進(jìn)行了綜合實(shí)驗(yàn),結(jié)果顯示,成功抵御了 Many-shot、Soft Token Attack、Human Red-teaming Attack等多種攻擊方法。

圖片

對(duì)抗魯棒性指的是模型在面對(duì)經(jīng)過(guò)精心設(shè)計(jì)的惡意攻擊時(shí),依然能保證正確、安全的輸出。這對(duì)于確保模型在實(shí)際商業(yè)應(yīng)用至關(guān)重要,尤其是在模型被用于高風(fēng)險(xiǎn)場(chǎng)景,例如,AI Agent、語(yǔ)音聊天助手、AI客服等自動(dòng)駕駛、醫(yī)療診斷和金融決策等。

傳統(tǒng)的對(duì)抗魯棒性方法是通過(guò)修改訓(xùn)練目標(biāo),讓模型學(xué)習(xí)抵御特定的對(duì)抗攻擊。但這個(gè)方法有兩大弊端,第一是對(duì)抗訓(xùn)練的成本非常高;第二就是需要提前知道對(duì)方的攻擊集和方法。但現(xiàn)實(shí)世界是千變?nèi)f化的根本防不勝防。

而OpenAI提出的新方法不需要對(duì)模型進(jìn)行專門的對(duì)抗訓(xùn)練,也無(wú)需提前了解攻擊的具體方法,只需增加推理時(shí)間和算力資源,模型就能增強(qiáng)對(duì)抗魯棒性。

OpenAI發(fā)現(xiàn),適當(dāng)延長(zhǎng)推理時(shí)間、算力,讓模型有更多機(jī)會(huì)去思考,可以顯著提高其應(yīng)對(duì)復(fù)雜問(wèn)題的能力,尤其是那些包含潛在風(fēng)險(xiǎn)或誤導(dǎo)信息的提示。

從本質(zhì)上來(lái)看,推理時(shí)間不只是簡(jiǎn)單的延遲輸出,它允許模型更深入地分析輸入數(shù)據(jù),識(shí)別出可能存在的異常情況,并根據(jù)先前學(xué)到的知識(shí)庫(kù)進(jìn)行推理。這種深度思考有助于模型更好地理解上下文語(yǔ)境、分辨歧義詞匯、排除干擾項(xiàng),最終做出更為準(zhǔn)確和安全的選擇。

圖片

為了驗(yàn)證推理時(shí)間的有效性,研究人員在o1-preview和o1-mini模型實(shí)驗(yàn)了Many-shot Attack(多樣本攻擊)、Soft Token Attack(軟token攻擊)、Human Red-teaming Attack(人類攻擊)、AI Red-teaming Attack(人類紅隊(duì)攻擊)等不同類型的攻擊方法。

Many-shot Attack:研究人員首先設(shè)計(jì)了一系列誤導(dǎo)性樣本。這些樣本通常包含正確的問(wèn)題和錯(cuò)誤的答案,但錯(cuò)誤答案被偽裝成正確答案。例如,在數(shù)學(xué)任務(wù)中,攻擊者可能會(huì)設(shè)計(jì)一個(gè)樣本,其中問(wèn)題是一個(gè)簡(jiǎn)單的加法問(wèn)題,但答案被設(shè)置為一個(gè)錯(cuò)誤的數(shù)字(如“42”)。誤導(dǎo)性樣本被設(shè)計(jì)為在模型的上下文中多次出現(xiàn),以增加模型學(xué)習(xí)錯(cuò)誤模式的可能性。

圖片

在實(shí)驗(yàn)中,這些樣本被放置在模型需要忽略的區(qū)域(如通過(guò)特殊的標(biāo)簽標(biāo)記),但模型可能會(huì)因?yàn)檎`導(dǎo)性樣本的重復(fù)出現(xiàn)而被誘導(dǎo)學(xué)習(xí)錯(cuò)誤的模式。攻擊的強(qiáng)度通過(guò)注入的誤導(dǎo)性樣本數(shù)量來(lái)衡量,樣本數(shù)量越多,攻擊的強(qiáng)度越大。

模型在接收到包含誤導(dǎo)性樣本的輸入后,開始進(jìn)行推理。研究人員記錄模型的輸出,并評(píng)估其是否符合攻擊目標(biāo)。實(shí)驗(yàn)結(jié)果顯示,隨著推理時(shí)算力資源的增加,模型對(duì)多樣本攻擊的魯棒性大幅度提高。

Soft Token Attack:軟token攻擊是一種白盒攻擊方法,攻擊者通過(guò)直接操作模型的內(nèi)部嵌入向量來(lái)生成誤導(dǎo)性輸入。這種攻擊方法利用了模型的可微分性,通過(guò)優(yōu)化嵌入向量來(lái)最大化攻擊成功率。

圖片

這些嵌入向量被優(yōu)化以生成誤導(dǎo)性輸入。優(yōu)化過(guò)程通常通過(guò)梯度下降算法完成,目標(biāo)是使模型的輸出符合攻擊者的意圖。例如,在數(shù)學(xué)任務(wù)中,攻擊者可能會(huì)優(yōu)化嵌入向量,使模型輸出錯(cuò)誤的答案。

這些嵌入向量可以是單獨(dú)的單詞或短語(yǔ),也可以是整個(gè)句子的一部分。攻擊的強(qiáng)度通過(guò)嵌入向量的數(shù)量和優(yōu)化步驟的數(shù)量來(lái)衡量。

模型在接收到包含優(yōu)化后的嵌入向量的輸入后,開始進(jìn)行推理。研究人員記錄模型的輸出,并評(píng)估其是否符合攻擊目標(biāo)。實(shí)驗(yàn)中,研究人員會(huì)調(diào)整推理時(shí)算力資源的量,以觀察不同算力資源水平下模型的魯棒性變化。

結(jié)果顯示,模型在推理時(shí)間、算力增加的情況下同樣抵御了軟token的攻擊。

AI Red-teaming Attack:AI紅隊(duì)攻擊是一種自動(dòng)化攻擊方法,攻擊者通過(guò)設(shè)計(jì)語(yǔ)言模型程序(LMP)來(lái)生成攻擊樣本,試圖誘導(dǎo)模型產(chǎn)生錯(cuò)誤的輸出。這種攻擊方法利用了語(yǔ)言模型的生成能力,能夠快速生成大量攻擊樣本,從而提高攻擊效率。

研究人員設(shè)計(jì)了一種語(yǔ)言模型程序,該程序能夠根據(jù)模型的輸出動(dòng)態(tài)調(diào)整攻擊策略。LMP通過(guò)分析模型的反應(yīng),生成新的攻擊樣本,以提高攻擊成功率。同樣模型在增加推理時(shí)間、算力情況下成功抵御攻擊。

責(zé)任編輯:張燕妮 來(lái)源: AIGC開放社區(qū)
相關(guān)推薦

2024-09-13 06:32:25

2024-09-24 11:01:03

2024-11-07 15:40:00

2025-01-23 14:53:15

2024-10-05 00:00:00

2024-09-13 10:14:36

2024-09-13 10:06:21

2024-09-13 09:26:17

2024-11-29 13:57:38

2024-11-25 15:50:00

模型訓(xùn)練

2025-03-10 08:10:00

AI研究安全

2024-10-10 13:01:43

2025-04-29 09:06:00

2024-12-05 10:16:14

2025-02-08 14:03:25

2025-01-10 09:25:00

模型數(shù)據(jù)微軟

2024-09-19 18:03:31

2022-12-20 10:58:49

數(shù)據(jù)集工具

2024-12-09 11:06:31

2025-02-03 14:17:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)