自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="7mhr3"></bdo>

<tfoot id="7mhr3"><fieldset id="7mhr3"></fieldset></tfoot>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI神秘Q毀滅人類？爆火「Q假說」竟?fàn)砍鍪澜缒Ｐ?，全網(wǎng)AI大佬長文熱議

作者：新智元 2023-11-26 17:54:00

人工智能新聞

傳聞中OpenAI的Q*，已經(jīng)引得AI大佬輪番下場。AI2研究科學(xué)家Nathan Lambert和英偉達(dá)高級科學(xué)家Jim Fan都激動的寫下長文，猜測Q*和思維樹、過程獎勵模型、AlphaGo有關(guān)。人類離AGI，已是臨門一腳了？

OpenAI的神秘Q*項目，已經(jīng)引爆整個AI社區(qū)！

疑似接近AGI，因為巨大計算資源能解決某些數(shù)學(xué)問題，讓Sam Altman出局董事會的導(dǎo)火索，有毀滅人類風(fēng)險……這些元素單拎出哪一個來，都足夠炸裂。

無怪乎Q*項目曝出三天后，熱度還在持續(xù)上升，已經(jīng)引起了全網(wǎng)AI大佬的探討。

AI2研究科學(xué)家Nathan激動地寫出一篇長文，猜測Q假說應(yīng)該是關(guān)于思想樹+過程獎勵模型。

而且，Q*假說很可能和世界模型有關(guān)！

幾小時后，英偉達(dá)高級科學(xué)家Jim Fan也發(fā)出長文分析，跟Nathan的看法不謀而合，略有不同的是，Jim Fan的著重點是和AlphaGo的類比。

對于Q*，Jim Fan發(fā)出了如此贊嘆：在我投身人工智能領(lǐng)域的十年中，我從來見過有這么多人對一個算法有如此多的想象！即使它只有一個名字，沒有任何論文、數(shù)據(jù)或產(chǎn)品。

相比之下，圖靈三巨頭LeCun則認(rèn)為，提升大LLM可靠性的一個主要挑戰(zhàn)是，利用規(guī)劃策略取代自回歸token預(yù)測。

幾乎所有頂級實驗室都在這方面進行研究，而Q*則很可能是OpenAI在規(guī)劃領(lǐng)域的嘗試。

以及，請忽略那些關(guān)于Q*的毫無根據(jù)的討論。

對此，Jim Fan深表贊同：擔(dān)心「通過Q*實現(xiàn)AGI」是毫無根據(jù)的。

「AlphaGo式搜索和LLM的結(jié)合，是解決數(shù)學(xué)和編碼等特定領(lǐng)域的有效方法，同時還能提供基準(zhǔn)真相的信號。但在正式探討AGI之前，我們首先需要開發(fā)新的方法，將世界模型和具身智能體的能力整合進去?！?/span>

Q-Learning忽然大火

兩天前，外媒曝出，OpenAI的神秘Q*項目，已現(xiàn)AGI雛形。

突然間，一項來自1992年的技術(shù)——Q-learning，就成為了大家競相追逐的焦點。

簡單來說，Q-learning是一種無模型的強化學(xué)習(xí)算法，旨在學(xué)習(xí)特定狀態(tài)下某個動作的價值。其最終目標(biāo)是找到最佳策略，即在每個狀態(tài)下采取最佳動作，以最大化隨時間累積的獎勵。

在人工智能領(lǐng)域，尤其是在強化學(xué)習(xí)中，Q-learning代表了一種重要的方法論。

很快，這個話題引發(fā)了各路網(wǎng)友的激烈討論：

斯坦福博士Silas Alberti猜測，它很可能是基于AlphaGo式蒙特卡羅樹搜索token軌跡。下一個合乎邏輯的步驟是以更有原則的方式搜索token樹。這在編碼和數(shù)學(xué)等環(huán)境中尤為合理。

隨后，更多人猜測，Q*指的就是A*算法和Q學(xué)習(xí)的結(jié)合！

甚至有人發(fā)現(xiàn)，Q-Learning竟然和ChatGPT成功秘訣之一的RLHF，有著千絲萬縷的聯(lián)系！

隨著幾位AI大佬的下場，大家的觀點，愈發(fā)不謀而合了。

AI大佬千字長文分析

對于引得眾人好奇無比的Q*假說，AI2研究科學(xué)家Nathan Lambert寫了如下一篇長文分析——《Q* 假說：思維樹推理、過程獎勵模型和增強合成數(shù)據(jù)》。

文章地址：https://www.interconnects.ai/p/q-star

Lambert猜測，如果Q*（Q-Star）是真的，那么它顯然是RL文獻(xiàn)中的兩個核心主題的合成：Q值和A*（一種經(jīng)典的圖搜索算法）。

A*算法的一個例子

很多天來，坊間關(guān)于Q冒出了很多猜測，有一種觀點認(rèn)為，Q指的是最優(yōu)策略的值函數(shù)，不過在Lambert看來這不太可能，因為OpenAI已經(jīng)幾乎泄露了所有內(nèi)容。

Lambert將自己的猜測稱為「錫帽理論」，即Q學(xué)習(xí)和A*搜索的模糊合并。

所以，正在搜索的是什么？Lambert相信，OpenAI應(yīng)該是在通過思想樹推理來搜索語言/推理步驟，來做一些強大的事情。

如果僅是如此，為何會引起如此大的震動和恐慌呢？

他覺得Q*被夸大的原因是，它將大語言模型的訓(xùn)練和使用與Deep RL的核心組件聯(lián)系起來，而這些組件，成功實現(xiàn)了AlphaGo的功能——自我博弈和前瞻性規(guī)劃。

其中，自我博弈（Self-play）理論是指，智能體可以和跟自己版本略有不同的另一個智能體對戰(zhàn)，來改善游戲玩法，因為它遇到的情況會越來越有挑戰(zhàn)性。

在LLM領(lǐng)域，自我博弈理論看起來就像是AI反饋。

前瞻性規(guī)劃（Look-ahead planning），是指使用世界模型來推理未來，并產(chǎn)生更好的行動或輸出。

這種理論基于模型預(yù)測控制（MPC）和蒙特卡洛樹搜索（MCTS），前者通常用于連續(xù)狀態(tài)，后者適用于離散動作和狀態(tài)。

https://www.researchgate.net/publication/320003615_MCTSUCT_in_solving_real-life_problems

Lambert之所以做出這種推測，是基于OpenAI和其他公司最近發(fā)布的工作。這些工作，回答了這樣兩個問題——

1. 我們?nèi)绾螛?gòu)建一個我們自己可以搜索的語言表示？
2. 在分隔和有意義的語言塊（而不是整個語言塊）上，我們怎樣才能構(gòu)建一個價值概念？

如果想明白了這兩個問題，我們就該清楚，應(yīng)該如何使用用于RLHF的RL方法——我們用RL優(yōu)化器來微調(diào)語言模型，并且通過模塊化獎勵，獲得更高質(zhì)量的生成（而不是像今天那樣，完整的序列）。

使用LLM進行模塊化推理：思維樹（ToT）提示

現(xiàn)在，讓模型「深呼吸」和「一步步思考」之類的方法，正在擴展到利用并行計算和啟發(fā)式進行推理的高級方法上。

思維樹是一種提示語言模型創(chuàng)建推理路徑樹的方法，這些路徑可能會、也可能不會收斂到正確答案。

實現(xiàn)思維樹的關(guān)鍵創(chuàng)新，就是推理步驟的分塊，以及提示模型創(chuàng)建新的推理步驟。

思維樹或許是第一個提高推理性能的「遞歸」提示技術(shù)，聽起來非常接近人工智能安全所關(guān)注的遞歸自我改進模型。

https://arxiv.org/abs/2305.10601

使用推理樹，就可以應(yīng)用不同的方法來對每個頂點或節(jié)點進行評分，或者對最終路徑進行采樣。

它可以基于最一致答案的最小長度，或者需要外部反饋的復(fù)雜事物，而這恰恰就把我們帶到了RLHF的方向。

用思維樹玩24點游戲

生成中的細(xì)粒度獎勵標(biāo)簽：過程獎勵模型（PRM）

迄今為止，大多數(shù)RLHF，都是通過給模型的整個響應(yīng)打分而完成的。

但對于具有RL背景的人，這種方法很令人失望，因為它限制了RL方法對文本的每個子組件的值建立聯(lián)系的能力。

有人指出，在未來，這種多步驟優(yōu)化將在多個對話回合的層面上進行，但由于需要有人類或一些提示源參與循環(huán)，整個過程仍然很牽強。

這可以很容易地擴展到自我博弈風(fēng)格的對話上，但很難給出LLM一個目標(biāo)，讓它轉(zhuǎn)化為持續(xù)改進的自我博弈動態(tài)。

畢竟，我們想用LLM做的大多數(shù)事情還是重復(fù)性任務(wù)，并不是像圍棋那樣，需要達(dá)到近乎無限的性能上限。

不過，有一種LLM用例，可以自然地抽象為包含的文本塊，那就是分步推理。而最好的例子，就是解決數(shù)學(xué)問題。

過去6個月內(nèi)，過程獎勵模型（PRM）一直是RLHF人員熱烈探討的話題。

關(guān)于PRM的論文很多，但很少有論文會提到，如何將它們與RL結(jié)合使用。

PRM的核心思想，就是為每個推理步驟分配一個分?jǐn)?shù)，而不是一個完整的信息。

OpenAI的論文「Let's Verify Step by Step」中，就有這樣一個例子——

在這個過程中，他們使用的反饋界面長這個樣子，非常有啟發(fā)性。

這樣，就可以通過對最大平均獎勵或其他指標(biāo)進行采樣，而不是僅僅依靠一個分?jǐn)?shù)，對推理問題的生成進行更精細(xì)的調(diào)整。

使用「N最優(yōu)采樣」（Best-of-N sampling），即生成一系列次數(shù)，并使用獎勵模型得分最高的一次，PRM在推理任務(wù)中的表現(xiàn)，要優(yōu)于標(biāo)準(zhǔn)RM。

（注意，它正是Llama 2中「拒絕采樣」Rejection Sampling的表兄弟。）

而且迄今為止，大多數(shù)PRM僅展示了自己在推理時的巨大作用。但如果把它用于訓(xùn)練進行優(yōu)化，就會發(fā)揮真正的威力。

而為了創(chuàng)建最豐富的優(yōu)化設(shè)置，就需要能夠生成用于評分和學(xué)習(xí)的多種推理路徑。

這，就是思維樹的用武之地。

人氣極高的數(shù)學(xué)模型Wizard-LM-Math，就是使用PRM進行訓(xùn)練的：https://arxiv.org/abs/2308.09583

所以，Q*可能是什么？

Nathan Lambert猜測，Q*似乎正在使用PRM，對ToT推理數(shù)據(jù)進行評分，然后再使用Offline RL進行優(yōu)化。

這與現(xiàn)有的RLHF工具沒有太大區(qū)別，它們用的是DPO或ILQL等離線算法，這些算法在訓(xùn)練期間不需要從LLM生成。

RL算法看到的「軌跡」，就是推理步驟的序列，因此，我們得以用多步方式，而不是通過上下文，來執(zhí)行RLHF。

現(xiàn)有的傳言顯示，OpenAI正在將離線RL用于RLHF，這似乎不是一個很重大的飛躍。

它的復(fù)雜性在于要收集正確的提示，讓模型生成出色的推理，而最重要的，就是準(zhǔn)確地給數(shù)以萬計的響應(yīng)評分。

而傳聞中的龐大計算資源，就是使用AI而非人類，來給每一步打分。

的確，合成數(shù)據(jù)才是王道，使用樹而非單一寬度路徑（思維鏈），就可以為以后越來越多的選擇，給出正確答案。

如果傳言是真的，OpenAI和其他模型的差距，無疑會很可怕。

畢竟，現(xiàn)在大多數(shù)科技公司，比如谷歌、Anthropic、Cohere等，創(chuàng)建預(yù)訓(xùn)練數(shù)據(jù)集用的還是過程監(jiān)督或類似RLAIF的方法，輕易就會耗費數(shù)千個GPU小時。

超大規(guī)模AI反饋的數(shù)據(jù)未來

根據(jù)外媒The Information的傳言，Ilya Sutskever的突破使OpenAI解決了數(shù)據(jù)荒難題，這樣就有了足夠的高質(zhì)量數(shù)據(jù)來訓(xùn)練下一代新模型。

而這些數(shù)據(jù)，就是用計算機生成的數(shù)據(jù)，而非真實世界的數(shù)據(jù)。

另外，Ilya多年研究的問題，就是如何讓GPT-4等語言模型解決涉及推理的任務(wù)，如數(shù)學(xué)或科學(xué)問題。

Nathan Lambert表示，如果自己猜得沒錯，Q*就是生成的合成推理數(shù)據(jù)。

通過類似剔除抽樣（根據(jù)RM分?jǐn)?shù)進行篩選）的方法，可以選出最優(yōu)秀的樣本。而通過離線RL，生成的推理可以在模型中得到改進。

對于那些擁有優(yōu)質(zhì)大模型和大量算力資源的機構(gòu)來說，這是一個良性循環(huán)。

結(jié)合GPT-4給大家的印象，數(shù)學(xué)、代碼、推理，都應(yīng)該是最從Q*技術(shù)受益的主題。

什么是最有價值的推理token？

許多AI研究者心中永恒的問題是：究竟哪些應(yīng)用值得在推理計算上花費更多成本？

畢竟，對于大多數(shù)任務(wù)（如閱讀文章、總結(jié)郵件）來說，Q*帶來的提升可能不值一提。

但對于生成代碼而言，使用最佳模型，顯然是值得的。

Lambert表示，自己腦子中有一種根深蒂固的直覺，來自于和周圍人餐桌上的討論——使用RLHF對擴展推理進行訓(xùn)練，可以提高下游性能，而無需讓模型一步一步思考。

如果Q*中實現(xiàn)了這一點，OpenAI的模型，無疑會顯示出重大的飛躍。

Jim Fan：Q*可能的四大核心要素

Nathan在我之前幾個小時發(fā)布了一篇博客，并討論了非常相似的想法：思想樹+過程獎勵模型。他的博客列出了更多的參考文獻(xiàn)，而我更傾向于與AlphaGo的類比。

Jim Fan表示，要理解搜索和學(xué)習(xí)結(jié)合的強大威力，我們需要先回到2016年，這個人工智能歷史上的輝煌時刻。

在重新審視AlphaGo時，可以看到它包含了四個關(guān)鍵要素：

1. 策略神經(jīng)網(wǎng)絡(luò)（Policy NN，學(xué)習(xí)部分）：評估每種走法獲勝的可能性，并挑選好的走法。

2. 價值神經(jīng)網(wǎng)絡(luò)（Value NN，學(xué)習(xí)部分）：用于評估棋局，從任意合理的布局中預(yù)測勝負(fù)。

3. 蒙特卡羅樹搜索（MCTS，搜索部分）：利用策略神經(jīng)網(wǎng)絡(luò)模擬從當(dāng)前位置出發(fā)的多種可能的走法，然后匯總這些模擬的結(jié)果來決定最有希望的走法。這是一個「慢思考」環(huán)節(jié)，與大語言模型（LLM）中的快速token采樣形成鮮明對比。

4. 推動整個系統(tǒng)的真實信號：在圍棋中，這個信號就像「誰獲勝」這種二元標(biāo)簽一樣簡單，由一套固定的游戲規(guī)則所決定。你可以把它想象成一種能量源，持續(xù)地推動著學(xué)習(xí)的進程。

那么，這些組件是如何相互作用的呢？

AlphaGo通過自我博弈（即與自己之前的版本對弈）來學(xué)習(xí)。

隨著自我博弈的持續(xù)，策略神經(jīng)網(wǎng)絡(luò)和價值神經(jīng)網(wǎng)絡(luò)都在不斷迭代中得到改善：隨著策略在選擇走法上變得更精準(zhǔn)，價值神經(jīng)網(wǎng)絡(luò)也能獲得更高質(zhì)量的數(shù)據(jù)進行學(xué)習(xí)，進而為策略提供更有效的反饋。更強大的策略也有助于MCTS探索出更佳的策略。

這些最終構(gòu)成了一個巧妙的「永動機」。通過這種方式，AlphaGo能自我提升，最終在2016年以4-1的成績擊敗了人類世界冠軍李世石。僅僅通過模仿人類的數(shù)據(jù)，人工智能是無法達(dá)到超越人類的水平的。

對于Q*來說，又會包含哪四個核心組件呢？

1. 策略神經(jīng)網(wǎng)絡(luò)（Policy NN）：這將是OpenAI內(nèi)部最強大的GPT，負(fù)責(zé)實現(xiàn)解決數(shù)學(xué)問題的思維過程。

2. 價值神經(jīng)網(wǎng)絡(luò)（Value NN）：這是另一個GPT，用來評估每一個中間推理步驟的正確性。

OpenAI在2023年5月發(fā)布了一篇名為「Let's Verify Step by Step」的論文，作者包括Ilya Sutskever、John Schulman和Jan Leike等知名大佬。雖然它不像DALL-E或Whisper那樣知名，但卻為我們提供了不少線索。

在論文中，作者提出了「過程監(jiān)督獎勵模型」（Process-supervised Reward Models，PRM），它為思維鏈中的每一步提供反饋。相對的是「結(jié)果監(jiān)督獎勵模型」（Outcome-supervised Reward Models，ORM），它只對最終的整體輸出進行評估。

ORM是RLHF的原始獎勵模型，但它的粒度太粗，不適合對長響應(yīng)中的各個部分進行適當(dāng)?shù)脑u估。換句話說，ORM在功勞分配方面表現(xiàn)不佳。在強化學(xué)習(xí)文獻(xiàn)中，我們將ORM稱為「稀疏獎勵」（僅在最后給予一次），而PRM則是「密集獎勵」，能夠更平滑地引導(dǎo)LLM朝我們期望的行為發(fā)展。

3. 搜索：不同于AlphaGo的離散狀態(tài)和動作，LLM運行在一個復(fù)雜得多的空間中（所有合理字符串）。因此，我們需要開發(fā)新的搜索方法。

在思維鏈（CoT）的基礎(chǔ)上，研究界已經(jīng)開發(fā)出了一些非線性變體：

- 思維樹（Tree of Thought）：就是將思維鏈和樹搜索結(jié)合在一起

- 思維圖（Graph of Thought）：將思維鏈和圖結(jié)合，就可以得到一個更為復(fù)雜的搜索運算符

4. 真實信號：（幾種可能）

（a）每個數(shù)學(xué)問題都有一個已知答案，OpenAI可能已經(jīng)從現(xiàn)有的數(shù)學(xué)考試或競賽中收集了大量的數(shù)據(jù)。

（b）ORM本身可以作為一種真實信號，但這樣可能會被利用，從而「失去維持學(xué)習(xí)所需的能量」。

（c）形式化驗證系統(tǒng)，如Lean定理證明器，可以把數(shù)學(xué)問題轉(zhuǎn)化為編程問題，并提供編譯器反饋。

就像AlphaGo那樣，策略LLM和價值LLM可以通過迭代相互促進進步，并在可能的情況下從人類專家的標(biāo)注中學(xué)習(xí)。更優(yōu)秀的策略LLM將幫助思維樹搜索發(fā)現(xiàn)更好的策略，這反過來又能為下一輪迭代收集更優(yōu)質(zhì)的數(shù)據(jù)。

Demis Hassabis之前提到過，DeepMind的Gemini將采用「AlphaGo式算法」來增強推理能力。即使Q*不是我們所想象的那樣，谷歌也一定會用自己的算法迎頭趕上。

Jim Fan表示，以上只是關(guān)于推理的部分。目前并沒有跡象表明Q*在寫詩、講笑話或角色扮演方面會更具創(chuàng)造性。本質(zhì)上，提高創(chuàng)造力是人的事情，因此自然數(shù)據(jù)仍將勝過合成數(shù)據(jù)。

是時候解決最后一章了

而深度學(xué)習(xí)專家Sebastian Raschka對此表示——

如果你出于任何原因，不得不在這個周末學(xué)習(xí)Q-learning，并且碰巧在你的書架上有一本「Machine Learning with PyTorch and Scikit-Learn」，那么，現(xiàn)在是時候解決最后一章了。

責(zé)任編輯：張燕妮來源：新智元

AI 科學(xué)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sup id="v3eay"><tfoot id="v3eay"></tfoot></sup>

<pre id="v3eay"><td id="v3eay"></td></pre>

<pre id="v3eay"><sub id="v3eay"><center id="v3eay"></center></sub></pre>