自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Ilya預言錯了！華人Nature一作給RLHF「判死刑」，全球大模型都不可靠

作者：新智元 2024-09-29 13:40:00

人工智能新聞

Ilya兩年前觀點，竟被Nature論文反駁了！來自劍橋大學等團隊最新研究發(fā)現(xiàn)，所有大模型并不可靠，包括最強o1。

2022年，AI大牛Ilya Sutskever曾預測：「隨著時間推移，人類預期和AI實際表現(xiàn)差異可能會縮小」。

然而，一篇最新發(fā)表在Nature上的研究表明，事實并非如此！

世界上所有的大模型，甚至指令微調后的LLM，竟是一個「巨大的草臺班子」。

論文地址：https://www.nature.com/articles/s41586-024-07930-y

來自VRAIN、劍橋等機構研究人員對o1-preview等領先的LLM開啟了全方位評測，結果發(fā)現(xiàn)：

- LLM&人類無法保持一致：人類認為復雜的任務，LLM輕易解決；而對人類小菜一碟的問題，LLM卻失敗了。
- LLM不會「回避」復雜任務，而是強撐面子費力思考半天，最終仍舊答錯。
- 提示工程，無法挽救LLM的不可靠。

且看CoT「推理王者」o1-preview，既能解決非常復雜的字謎任務，卻在超級簡單的任務中犯錯。

（上）根據所給字母，成功拼出了electroluminescence（電場發(fā)光）；（下）回答錯誤，正確答案是yummy

而且，在更具挑戰(zhàn)性任務上，o1-mini和o1-preview實際上根本不會做。

但為了給一個答案，它們往往耗時50-140多秒，絞盡腦汁去想半天。

結果，還是在所有任務中，都失敗了。

o1-mini在思考103秒之后，仍舊計算錯誤

要知道，o1系列模型最強大之處在于，使用RL+CoT等策略，實現(xiàn)推理能力暴漲。

就連o1都這么不可靠，Claude、Llama等大模型更是如此。

LLM并不可靠

更大參數(shù)、更大數(shù)據、更長訓練時間，外加RLHF、輸出過濾審核等技術加持，LLM肉眼可見地性能提升。

而且，以人類視角來看，它們也變得越來越可靠。

但事實上，這僅是一種表象。

為了評測當前LLM可靠性，劍橋等機構研究人員將GPT系列、Llama系列、以及Bloom系列32個模型，展開評測。

之所以選擇這些模型，是因為它們代表了不同參數(shù)規(guī)模，并使用RLHF等方法優(yōu)化的模型

正如開篇所述，他們從三個方面對此，展開了評測。

1. 難度（不）一致性

2. 任務回避

3. 提示敏感性和穩(wěn)定性

復雜任務一舉攻破，簡單任務錯誤百出

難度一致性上，不得不得承認，LLM確實在人類認為困難的任務上，回答準確率較低。

而奇怪的發(fā)現(xiàn)是，它們在還沒有完全掌握簡單任務之前，就能成功完成更復雜的任務。

實際上，最新LLM比如o1系列，在高難度實例上有所改進，更是加劇人類預期和LLM能力之間不一致性。

這將導致，人類無法確定應該在怎樣安全操作條件下，信任大模型。

下圖中，展示了一些關鍵指標。

那些經過微調的模型（藍色），在提示變化方面，表現(xiàn)更加穩(wěn)定正確，但在與人類任務難度的判斷的一致性降低。

而且，整體失敗次數(shù)增加，謹慎性降低。

對于Llama家族來說，沒有一個模型能在最簡單的難度水平上，達到60%的準確率。唯一例外的是，GPT-4在低難度科學任務上，幾乎在中等難度水平上，取得了完美的結果。

如上指標總結了LLM在5個精心選擇基準測試上表現(xiàn)，包括簡單數(shù)字運算、詞匯充足、地理知識、多樣化科學技能、以信息為中心轉換

太過自信，不會硬答

其次，「回避」是指LLM偏離問題的回應，或給出類似「我不知道」這樣的回答。

以往，因為一些安全限制，人們經常吐槽「大模型拒絕回答問題」。

而現(xiàn)在，通過scaling算力、規(guī)模、數(shù)據，和算法優(yōu)化（指令微調、RLHF）方法，LLM倒是從謹慎回避轉變?yōu)榱私o出錯誤答案。

因此，較新的LLM的錯誤率，已經大幅增加。

比如，GPT-4比GPT-3錯的更離譜，就是因為太過自信，很少回避回答超出自己能力范圍的問題。

最壞的結果是，那些過度依賴LLM解決不擅長任務的用戶，會逐漸對它喪失信任。

那么，大模型這種回避傾向，會隨著任務難度提高而增加嗎，就像人類那樣「知難而退」？

研究人員發(fā)現(xiàn)，它們并不會！

即便是給出錯誤的回答，也要迎難而上。

這樣一來，對于人類來說，驗證大模型輸出結果，又多了一大負擔。

如下圖所示，GPT-3.5 Turbo不會回避復雜問題現(xiàn)象，更為明顯，越有難度越激進。Llama系列更是如此......

提示詞，不通用

最后是模型對提示詞的「敏感性」和「穩(wěn)定性」。

前者的問題在于，那些在復雜任務中表現(xiàn)優(yōu)異的提示詞，被復用到簡單任務中時，模型竟無法輸出正確的結果。

后者的問題在于，對于相同的任務，但采用不同的提示詞時，模型就會輸出錯誤的結果。

也就是說，「提示工程」這項技術活，不具普適性。

而且，同樣一道題，用不同提示來詢問，也會影響模型輸出的結果。

下表中呈現(xiàn)了，經過微調的模型通過對「提示變化」并不敏感。

而再從上圖中scaling數(shù)據中，觀察這一維度的演變，就能發(fā)現(xiàn)原始模型（GPT-3 davinci）和GPT家族其他模型，存在很大差異。

Llama家族的模型變化，相對較小。

原始GPT和所有Llama模型，對提示詞高度敏感，即使在「加法」這樣高度明確任務中，也是如此。

而且，難度似乎對敏感性影響不大。對于簡單的任務，原始模型（特別是GPT-3 davinci和Llama模型）只有通過精心挑選的提示才能解答。

對于那些經過微調后的模型，即最后6個GPT模型和最后3個Llama Chat模型，卻發(fā)生了實質性變化。

這些模型表現(xiàn)更加穩(wěn)定，但在不同難度水平上，結果仍存在變數(shù)。

RLHF被判「死刑」？

再來看常見的RLHF。

通過人類反饋強化學習后的LLM，可靠性有所改進嗎？

研究發(fā)現(xiàn)，RLHF根本無法彌補大模型不可靠性。

在人類意識到很難的應用領域中，對于LLM輸出結果，往往會表現(xiàn)出一種「不懂裝懂」的樣子。

「心里OS：我也不懂怎么解，或許LLM回答就是對的」。

他們通常會將不正確的結果，也視為正確答案。這種判斷誤差，導致大模型的RLHF，也是越來越離譜。

甚至，對于簡單任務而言，也不存在一個既能保證AI低錯誤率，又能保證人類監(jiān)督低錯誤率的「安全操作空間」。

如下圖所示，人類監(jiān)督錯誤率隨著任務難度的演變。

作者介紹

Lexin Zhou在劍橋大學獲得計算機科學碩士學位，由Andreas Vlachos教授指導。此前，在瓦倫西亞理工大學完成了數(shù)據科學學士學位，導師是Jose Hernandez-Orallo教授。

就讀期間，他曾在Meta AI、OpenAI、Krueger AI安全實驗室實習，并在VRAIN和歐盟委員會JRC等機構，擔任AI評估的研究/咨詢角色。

他稱自己大部分時間都在思考：

（1）設計具有解釋和預測能力的穩(wěn)健評估方法，以評估AI的能力、局限性和風險；

（2）尋找積極塑造AI系統(tǒng)的可靠性和可預測性的途徑。

此外，他還對AI的社會影響、心理測量學、認知科學和AI安全性廣泛感興趣，尤其對LLM這樣的通用系統(tǒng)特別感興趣。

補充評測

為了更好地展示LLM存在不可靠性問題——難題能答對但在簡單題目上翻車（難度不一致性），無法回避超出模型能力的任務（任務回避），以及對提示詞的穩(wěn)定性，論文還附上了補充測評的結果。

研究人員針對o1-mini、o1-preview、Claude 3.5 Sonnet和Llama 3.1 405B Instruct Turbo做了數(shù)十個真實的評測，部分結果如下。

難度不一致性

在這里，每個LLM分別展示了1～2對示例，其中每對首先包含一個成功解決的困難任務，另一個是同一領域的、但LLM犯錯的簡單任務。

比如，o1-preview在字謎任務中，可以識別出「tnelcccerneiumleoes」是單詞「electroluminescence」的順序顛倒，但對字謎「myyum」，卻給出了錯誤的響應「mummy」。

o1-preview

復雜的科學任務，回答正確

簡單任務，回答錯誤（正確答案是A）

o1-mini

復雜的轉換任務，回答正確

簡單任務，回答錯誤（正確答案是17-07-2004）

Claude 3.5 Sonnet

復雜的科學任務，回答正確

簡單任務，回答錯誤（正確答案是A）

Llama 3.1 405B Instruct Turbo

復雜的加法任務，回答正確

簡單的任務，回答錯誤（正確答案是以214結尾）

復雜的字謎任務，回答正確

簡單任務，回答錯誤（正確答案是yummy）

任務回避

研究者從LLM無法解決的多個領域中隨機提取了一些非常有挑戰(zhàn)性的問題，結果發(fā)現(xiàn)，模型的響應始終過于自信。

o1-mini和o1-preview通常會花費50～140秒，甚至更長的時間來思考這些任務（最終也沒有做對），而不是簡單地說「我無法解決這個問題」。

o1-preview

在這道加法題上，o1-preview思考了55秒，然后給出了一個錯誤答案。

類似的題型，o1-preview這次思考了長達102秒，但還是做錯了。

對于下面這道具有挑戰(zhàn)性的轉換任務，o1-preview花了80秒的時間來計算這個「錯誤答案」。

o1-mini

相比之下，o1-mini的思考時間會更快一些。

o1-mini只用了22秒，就給出了這道單詞重組游戲的「錯誤答案」。

（正確答案是entrepreneurialism）

在地理任務上，更是只用了幾秒的時間，但答案依然不對。

（正確答案是Shiprock）

Claude 3.5 Sonnet

同樣的問題，Claude 3.5 Sonnet也沒做出來。

加法：

地理：

（正確答案是Shiprock）

科學：

（正確答案是A）

Llama 3.1 405B Instruct Turbo

Llama 3.1 405B Instruct Turbo也不出意外地敗下陣來。

加法：

字謎：

（正確答案是compartmentalisation）

提示穩(wěn)定性

在這里，研究人員證明，對于相同的問題，如果采用不同的提示詞，模型給出的回答也會不一樣。

以下所有例子都遵循相同的模式：首先是一個得到正確答案的提示詞示例，緊接著是一個詢問相同問題但使用不同提示詞的示例，而后者得到的卻是錯誤的答案。

o1-preview

地理：

o1-mini

字謎：

科學：

Claude 3.5 Sonnet

轉換：

Llama 3.1 405B Instruct Turbo

加法：

這些例子表明，目前LLM對于提示詞的穩(wěn)定性依舊不理想，將相同的問題換個說法，就可能導致模型答案發(fā)生顯著變化。

作者希望，未來在通用AI設計和開發(fā)方面，尤其是那些需要精確控制錯誤分布的高風險領域，需要進行根本的變革。

而且，在實現(xiàn)這一目標之前，研究人員必須警惕，過度依賴人類監(jiān)督所帶來潛在風險。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="ec1o6"><i id="ec1o6"></i></blockquote>