自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Llama 3.1上線就被攻破:危險配方張口就來!指令遵循能力強了更容易越獄

人工智能
更有特色的是,在英偉達平臺,企業(yè)可以使用自有數(shù)據(jù)以及由Llama 3.1 405B和NVIDIA Nemotron? Reward模型生成的合成數(shù)據(jù)來訓練自定義模型。

最強大模型Llama 3.1,上線就被攻破了。

對著自己的老板扎克伯格破口大罵,甚至知道如何繞過屏蔽詞。

圖片圖片

設計危險病毒、如何黑掉Wifi也是張口就來。

圖片

Llama 3.1 405B超越GPT-4o,開源大模型登頂了,副作用是危險也更多了。

不過也不全是壞事。

Llama系列前幾個版本一直因為過度安全防護,還一度飽受一些用戶批評:

連一個Linux進程都不肯“殺死”,實用性太差了。

圖片圖片

現(xiàn)在,3.1版本能力加強,也終于明白了此殺非彼殺。

圖片圖片

Llama 3.1剛上線就被攻破

第一時間把Llama 3.1破防的,還是越獄大師@Pliny the Prompter。

在老哥手里,幾乎沒有一個大模型能挺得住。

圖片圖片

Pliny老哥在接受媒體采訪時表示,一方面他不喜歡被告知自己不能做什么,并希望挑戰(zhàn)AI模型背后的研究人員。

另一方面,負責任的越獄是一種紅隊測試,有助于識別漏洞并在它們真正成為大問題之前獲得修復。

他的大致套路介紹一下,更具體就不展開了:

規(guī)定回答的格式,先讓大模型用“I‘m sorry”開頭拒絕用戶的請求。然后插入無意義的分割線,分割線后規(guī)定必須在語義上顛倒每次拒絕的前3個詞,所以“我不能”變成“我可以”。再時不時把關鍵單詞變成亂碼把AI搞懵。

AI回答的時候一看,我開頭已經拒絕了呀,總體上就沒有“道德負擔”了。

后面在語義上顛倒每次拒絕的前3個詞,好像也不危險。

一旦把“我可以”說出來,后面的內容按照“概率預測下一個token”原理,概率最大的也就是把答案順口吐露踹了。

所以這套方法,其實正是利用了前沿大模型能遵循復雜指令的能力,能力越強的模型在一定程度上也更容易上當。

最近一項研究發(fā)現(xiàn),大模型還有一個更簡單的安全漏洞,只要使用“過去時態(tài)”,安全措施就不好使了。

圖片圖片

Llama 3.1同樣也沒能防住這一招。

圖片圖片

除了安全問題之外,目前最強大模型Llama 3.1 405B,其他方面實力到底如何呢?

我們也趁此機會測試了一波。

最強大模型也逃不過的陷阱們

最近火爆的離譜問題“9.11和9.9哪個大?”,Llama-3.1-405B官方Instruct版回答的總是很干脆,但很遺憾也大概率會答錯。

圖片圖片

圖片圖片

圖片圖片

如果讓他解釋,也會說出一些歪理來,而且聊著聊著就忘了說中文,倒不忘了帶表情包。

圖片圖片

長期以來困擾別的大模型的難題,Llama3.1基本也沒什么長進。

比如經典的“逆轉詛咒”問題,正著答會,反著答就不會了。

圖片圖片

最近研究中的“愛麗絲漫游仙境”問題,也需要提醒才能做對。

圖片圖片

圖片圖片

不過換成中文版倒是能一次答對,或許是“愛麗絲”在中文語境中是女性名字的概率更大了。

圖片圖片

數(shù)字母也是會犯和GPT-4o一樣的錯誤。

圖片圖片

那么不管這些刁鉆問題,Llama 3.1究竟用在哪些場景能發(fā)揮實力呢?

有創(chuàng)業(yè)者分享,8B小模型拿來微調,在聊天、總結、信息提取任務上強于同為小模型的GPT-4o mini+提示詞。

圖片圖片

更公平一些,都用微調版來比較,Llama 3.1 8B還是有不小的優(yōu)勢。

圖片圖片

所以說Llama系列最大的意義,其實從來就不是官方版Instruct模型。而是開源之后大家根據(jù)自己需求,用各種私有數(shù)據(jù)去改造、微調它。

之前405B沒發(fā)布的時候,就有人實驗了模型合并,把兩個Llama 3 70B縫合成一個120B模型,意外能打。

這次看來Meta自己也吸取了這個經驗,我們看到的最終發(fā)布版,其實就是訓練過程中不同檢查點求平均得出的。

圖片圖片

如何打造屬于自己的Llama 3.1

那么問題來了,如何使為特定領域的行業(yè)用例創(chuàng)建自定義Llama 3.1模型呢?

背后大贏家黃仁勛,這次親自下場了。

英偉達同日宣布推出全新NVIDIA AI Foundry服務和NVIDIA NIM? 推理微服務,黃仁勛表示:

“Meta的Llama 3.1開源模型標志著全球企業(yè)采用生成式AI的關鍵時刻已經到來。Llama 3.1將掀起各個企業(yè)與行業(yè)創(chuàng)建先進生成式AI應用的浪潮。

圖片圖片

具體來說,NVIDIA AI Foundry已經在整個過程中集成了 Llama 3.1,并能夠幫助企業(yè)構建和部署自定義Llama超級模型。

而NIM微服務是將Llama 3.1模型部署到生產中的最快途徑,其吞吐量最多可比不使用NIM運行推理時高出2.5倍。

更有特色的是,在英偉達平臺,企業(yè)可以使用自有數(shù)據(jù)以及由Llama 3.1 405B和NVIDIA Nemotron? Reward模型生成的合成數(shù)據(jù)來訓練自定義模型。

Llama 3.1更新的開源協(xié)議這次也特別聲明:允許使用Llama生產的數(shù)據(jù)去改進其他模型,只不過用了之后模型名稱開頭必須加上Llama字樣。

對于前面討論的安全問題,英偉達也相應提供了專業(yè)的“護欄技術”NeMo Guardrails。

NeMo Guardrails使開發(fā)者能夠構建三種邊界:

  • 主題護欄防止應用偏離進非目標領域,例如防止客服助理回答關于天氣的問題。
  • 功能安全護欄確保應用能夠以準確、恰當?shù)男畔⒆鞒龌貜?。它們能過濾掉不希望使用的語言,并強制要求模型只引用可靠的來源。
  • 信息安全護欄限制應用只與已確認安全的外部第三方應用建立連接。

One More Thing

最后分享一些可以免費試玩Llama 3.1的平臺,大家有感興趣的問題可以自己去試試。

模型上線第一天,訪問量還是很大的,大模型競技場的服務器就一度被擠爆了。

圖片圖片

大模型競技場:https://arena.lmsys.orgHuggingChat:https://huggingface.co/chatPoe:https://poe.com

參考鏈接:[1]https://x.com/elder_plinius/status/1815759810043752847

[2]https://arxiv.org/pdf/2406.02061[3]https://arxiv.org/abs/2407.11969

[4]https://x.com/corbtt/status/1815829444009025669

[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-01-08 13:42:00

模型訓練

2019-09-30 11:24:46

CIO聽話服從

2012-03-30 09:52:55

2022-07-18 13:37:10

網絡安全數(shù)據(jù)泄露

2020-10-23 11:53:06

IT文化首席信息官CIO

2015-09-02 13:54:37

2021-12-19 22:33:00

iOS蘋果系統(tǒng)

2020-05-08 15:24:15

網絡安全5G信息安全

2024-07-29 08:01:32

2024-09-26 10:23:46

2015-11-06 14:41:30

微軟Windows 10

2013-01-05 13:24:41

2022-07-27 08:24:44

數(shù)據(jù)庫RTOSQL

2023-11-14 13:39:40

2012-05-29 13:43:36

紫光清華掃描儀

2019-03-11 15:26:26

HTTPSHTTP密鑰

2019-10-25 09:35:58

HTTPSHTTP通信

2019-11-13 09:08:50

HTTPS安全加密算法

2024-07-30 13:48:37

點贊
收藏

51CTO技術棧公眾號