自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="khnyo"><rt id="khnyo"></rt></sup>

^{<blockquote id="khnyo"></blockquote>}

<sub id="khnyo"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

LLM實(shí)踐系列-細(xì)聊LLM的拒絕采樣

發(fā)布于 2024-11-20 15:21

瀏覽

0收藏

最近學(xué)強(qiáng)化的過(guò)程中，總是遇到“拒絕采樣”這個(gè)概念，我嘗試科普一下，爭(zhēng)取用最大白話的方式讓每個(gè)感興趣的同學(xué)都理解其中思想。

拒絕采樣是 LLM 從統(tǒng)計(jì)學(xué)借鑒過(guò)來(lái)的一個(gè)概念。其實(shí)大家很早就接觸過(guò)這個(gè)概念，每個(gè)刷過(guò) leetcode 的同學(xué)大概率都遇到過(guò)這樣一個(gè)問(wèn)題：“如何用一枚骰子獲得 1/7 的概率？”

答案很簡(jiǎn)單：把骰子扔兩次，獲得 6 * 6 = 36 種可能的結(jié)果，丟棄最后一個(gè)結(jié)果，剩下的 35 個(gè)結(jié)果平分成 7 份，對(duì)應(yīng)的概率值便為 1/7 。使用這種思想，我們可以利用一枚骰子獲得任意 1/N 的概率。

在這個(gè)問(wèn)題中，我們可以看到拒絕采樣的一些關(guān)鍵要素：

采樣：從易于采樣的分布（兩個(gè)骰子的所有可能結(jié)果）中生成樣本；
縮放：（扔兩次骰子）獲得更大的樣本分布；
拒絕：丟棄（拒絕）不符合條件的樣本（第36種情況）；
接受：對(duì)于剩下的樣本，重新調(diào)整概率（通過(guò)分組），獲得目標(biāo)概率分布。

用大白話來(lái)總結(jié)就是：我們想獲得某個(gè)分布（1/7）的樣本，但卻沒(méi)有辦法。于是我們對(duì)另外一個(gè)分布（1/6）進(jìn)行采樣，但這個(gè)分布不能涵蓋原始分布，需要我們縮放這個(gè)分布（扔兩次）來(lái)包裹起來(lái)目標(biāo)分布。然后，我們以某種規(guī)則拒絕明顯不是目標(biāo)分布的采樣點(diǎn)，剩下的采樣點(diǎn)就可以看作是從目標(biāo)分布采樣出來(lái)的了。

統(tǒng)計(jì)學(xué)的拒絕采樣

LLM實(shí)踐系列-細(xì)聊LLM的拒絕采樣-AI.x社區(qū)

LLM 的拒絕采樣

LLM 的拒絕采樣操作起來(lái)非常簡(jiǎn)單：讓自己的模型針對(duì) prompt 生成多個(gè)候選 response，然后用 reward_model 篩選出來(lái)高質(zhì)量的 response （也可以是 pair 對(duì)），拿來(lái)再次進(jìn)行訓(xùn)練。

解剖這個(gè)過(guò)程：

提議分布是我們自己的模型，目標(biāo)分布是最好的語(yǔ)言模型；
prompt + response = 一個(gè)采樣結(jié)果；
do_sample 多次 = 縮放提議分布（也可以理解為扔多次骰子）；
采樣結(jié)果得到 reward_model 的認(rèn)可 = 符合目標(biāo)分布。

經(jīng)過(guò)這一番操作，我們能獲得很多的訓(xùn)練樣本，“這些樣本既符合最好的語(yǔ)言模型的說(shuō)話習(xí)慣，又不偏離原始語(yǔ)言模型的表達(dá)習(xí)慣”，學(xué)習(xí)它們就能讓我們的模型更接近最好的語(yǔ)言模型。

統(tǒng)計(jì)學(xué)與 LLM 的映射關(guān)系

統(tǒng)計(jì)學(xué)的拒絕采樣有幾個(gè)關(guān)鍵要素：

原始分布采樣困難，提議分布采樣簡(jiǎn)單；
提議分布縮放后能涵蓋原始分布；
有辦法判斷從提議分布獲取的樣本是否屬于原始分布，這需要我們知道原始分布的密度函數(shù)。

LLM 的拒絕采樣也有幾個(gè)對(duì)應(yīng)的關(guān)鍵要素：

我們不知道最好的語(yǔ)言模型怎么說(shuō)話，但我們知道自己的語(yǔ)言模型如何說(shuō)話；
讓自己的語(yǔ)言模型反復(fù)說(shuō)話，得到的語(yǔ)料大概率會(huì)包括最好的語(yǔ)言模型的說(shuō)話方式；
reward_model 可以判斷某句話是否屬于最好的語(yǔ)言模型的說(shuō)話方式。

目前為止，是不是看上去很有道理，很好理解。但其實(shí)這里有一個(gè)致命的邏輯漏洞：為什么我們的模型反復(fù) do_sample，就一定能覆蓋最好的語(yǔ)言模型呢？這不合邏輯啊，狗嘴里采樣多少次也吐不出象牙啊。

緊接著，就需要我們引出另一個(gè)概念了：RLHF 的優(yōu)化目標(biāo)是什么？

RLHF 與拒絕采樣

LLM實(shí)踐系列-細(xì)聊LLM的拒絕采樣-AI.x社區(qū)

本文轉(zhuǎn)載自??NLP工作站??，作者： ybq ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型推理優(yōu)化實(shí)踐：KV cache復(fù)用與投機(jī)采樣

wx5bbef785639a1 ? 6000瀏覽 ? 0回復(fù)
【LLM】AgentGym：具有自我演化能力的通用LLM agent

sbf_2000 ? 4203瀏覽 ? 0回復(fù)
編碼大模型系列：Meta創(chuàng)新的“代碼編譯優(yōu)化”的LLM

魯班模錘1 ? 3403瀏覽 ? 0回復(fù)
LLM-based Agent在B端商業(yè)化的技術(shù)探索與實(shí)踐

51CTO技術(shù)棧 ? 3115瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：Fine-Tuning總覽

魯班模錘1 ? 3187瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：Prompt-Tuning

探索AGI ? 3037瀏覽 ? 0回復(fù)
探究大語(yǔ)言模型（LLM）漏洞和安全優(yōu)秀實(shí)踐

51CTO內(nèi)容精選 ? 2588瀏覽 ? 0回復(fù)
LLM 剪枝+蒸餾：NVIDIA 的最佳實(shí)踐

amei2000go ? 3723瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：深入注意力機(jī)制

魯班模錘1 ? 2838瀏覽 ? 0回復(fù)
微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡

amei2000go ? 2345瀏覽 ? 0回復(fù)
LLM實(shí)踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)

NLP工作站 ? 2861瀏覽 ? 0回復(fù)
AI架構(gòu)系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小實(shí)驗(yàn)

魯班模錘1 ? 4160瀏覽 ? 0回復(fù)
HunYuan MoE：聊一聊 LLM 參數(shù)量、計(jì)算量和 MFU 等

sbf_2000 ? 6097瀏覽 ? 0回復(fù)
LLM大模型在金融行業(yè)入口實(shí)踐

數(shù)字化助推器 ? 2305瀏覽 ? 0回復(fù)
HunYuan MoE：聊一聊 LLM 參數(shù)量、計(jì)算量和 MFU 等

amei2000go ? 2957瀏覽 ? 0回復(fù)
Agent實(shí)踐之如何在京東LLM落地

數(shù)字化助推器 ? 2182瀏覽 ? 0回復(fù)
我從 2024 年的 LLM 應(yīng)用開(kāi)發(fā)實(shí)踐中學(xué)到了什么？Part 1

Baihai_IDP ? 2099瀏覽 ? 0回復(fù)
Dify從入門(mén)到高階系列一：詳解各種工作流節(jié)點(diǎn)，如何降低LLM開(kāi)發(fā)門(mén)檻？

AI博物院 ? 2698瀏覽 ? 0回復(fù)
LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致

NLP工作站 ? 581瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致 8天前發(fā)布
Llama4 模型細(xì)節(jié) & 效果實(shí)測(cè) 2025-04-09 07:07:26發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：實(shí)現(xiàn)了個(gè)ChatGPT趨動(dòng)的游戲，玩得樂(lè)此不疲

下一篇：測(cè)測(cè)Kimi新開(kāi)的k0-math，你是數(shù)學(xué)模型，但我就測(cè)文本

社區(qū)精華內(nèi)容

目錄

<cite id="hvnru"><track id="hvnru"></track></cite>