自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="06i3q"><input id="06i3q"></input></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

后向傳播

LV.1

張發(fā)恩創(chuàng)作的人工智能技術(shù)文章

聲望 94

關(guān)注 0

粉絲 0

社區(qū)頭條作者熱門內(nèi)容榜上榜作者

私信

關(guān)注

主帖 7

回帖

Reward Hacking | 強(qiáng)化學(xué)習(xí)提升大模型推理能力，獎(jiǎng)勵(lì)機(jī)制是關(guān)鍵 | 機(jī)制不合理，會(huì)導(dǎo)致多變的欺詐行為

大語(yǔ)言模型（LLM）的飛速發(fā)展正深刻改變著我們與信息和技術(shù)交互的方式（想想大家有多久不用傳統(tǒng)搜索引擎了）。它們展現(xiàn)出的能力令人矚目，但要驅(qū)動(dòng)它們超越模仿，在復(fù)雜推理、規(guī)劃和解決未知問(wèn)題等層面達(dá)到更高的“智能”水平，傳統(tǒng)的預(yù)訓(xùn)練（Pretrain）和監(jiān)督微調(diào)（SFT）范式顯得力有不逮。強(qiáng)化學(xué)習(xí)（RL），特別是結(jié)合人類或規(guī)則反饋的RLHFRL，已成為關(guān)鍵的引擎，推動(dòng)LLM智能向更高層級(jí)躍遷。RL的核心在于賦予模型一種“目標(biāo)導(dǎo)...

2天前 179瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個(gè)里程碑？| 目前還不是業(yè)界焦點(diǎn)，但有潛力是重大基礎(chǔ)創(chuàng)新

精華

人工智能（AI）快速發(fā)展，模型訓(xùn)練是核心環(huán)節(jié)，優(yōu)化器扮演著至關(guān)重要的角色，它負(fù)責(zé)調(diào)整模型的參數(shù)，讓模型在數(shù)據(jù)上表現(xiàn)得更好。多年來(lái)，AdamW優(yōu)化器一直是優(yōu)化器的標(biāo)桿，因其穩(wěn)定性和高效性深受研究者和工程師的喜愛(ài)。然而，隨著AI模型規(guī)模的不斷擴(kuò)大，訓(xùn)練成本和時(shí)間的需求也在激增，這讓人們開(kāi)始尋找更高效的優(yōu)化方法。近期，一種名為Muon的優(yōu)化器算法悄然出現(xiàn)（源代碼????https:github.comKellerJordanMuon????），...

2025-04-17 06:40:28 621瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

GRPO教會(huì)DeepSeek R1高智商推理，但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之，消除偏見(jiàn)帶來(lái)改進(jìn)

DeepSeekR1在數(shù)學(xué)推理、問(wèn)題解決等復(fù)雜任務(wù)上的表現(xiàn)令全世界矚目。它在AIME2024等高難度數(shù)學(xué)測(cè)試中取得了79.8分好成績(jī)（OpenAIo11217得分79.2）。而這一切的背后，有一個(gè)關(guān)鍵技術(shù)功不可沒(méi)——GroupRelativePolicyOptimization（GRPO），一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化算法。盡管GRPO教會(huì)R1高智商推理，但有研究人員發(fā)現(xiàn)，它存在一些缺陷，比如它會(huì)導(dǎo)致模型生成冗長(zhǎng)的錯(cuò)誤回答，或者更傾向于解決簡(jiǎn)單問(wèn)題而忽略難題。大家在用DeepSeekR1...

2025-04-07 00:08:13 976瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

LLaMA 4來(lái)了 | 千呼萬(wàn)喚始出來(lái)，猶抱琵琶半遮面 | 不盡如人意

精華

社區(qū)頭條

開(kāi)源世界的期待與漣漪人工智能的浪潮奔涌向前，Meta的Llama系列一直扮演著特殊的角色?；叵隠lama2的橫空出世和開(kāi)源姿態(tài)，極大地降低了高性能大模型的門檻，在全球范圍內(nèi)點(diǎn)燃了研究和應(yīng)用的熱情，催生了無(wú)數(shù)創(chuàng)新，其影響力至今仍在激蕩。相較之下，Llama3的發(fā)布雖然帶來(lái)了性能提升，但在社區(qū)看來(lái)，似乎少了些Llama2那樣的顛覆性震撼，更像是一次穩(wěn)健但略顯保守的迭代。在這樣的背景下，Llama4的發(fā)布承載了社區(qū)極高的期待。4月6日...

2025-04-07 00:04:09 1080瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個(gè)里程碑？| 目前還不是業(yè)界焦點(diǎn)，但有潛力是重大基礎(chǔ)創(chuàng)新

精華

人工智能（AI）快速發(fā)展，模型訓(xùn)練是核心環(huán)節(jié)，優(yōu)化器扮演著至關(guān)重要的角色，它負(fù)責(zé)調(diào)整模型的參數(shù)，讓模型在數(shù)據(jù)上表現(xiàn)得更好。多年來(lái)，AdamW優(yōu)化器一直是優(yōu)化器的標(biāo)桿，因其穩(wěn)定性和高效性深受研究者和工程師的喜愛(ài)。然而，隨著AI模型規(guī)模的不斷擴(kuò)大，訓(xùn)練成本和時(shí)間的需求也在激增，這讓人們開(kāi)始尋找更高效的優(yōu)化方法。近期，一種名為Muon的優(yōu)化器算法悄然出現(xiàn)（源代碼????https:github.comKellerJordanMuon????），...

2025-03-25 00:43:07 1104瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

GPT-4.5發(fā)布了，參數(shù)規(guī)?？赡茉?-5萬(wàn)億之間，宣稱是最好的聊天模型，但有“強(qiáng)弩之末”的感覺(jué)

2月28日OpenAI發(fā)布了GPT4.5，OpenAI稱這是其迄今為止最大的預(yù)訓(xùn)練模型。我有點(diǎn)期待GPT4.5會(huì)帶來(lái)令人振奮的突破。然而，從官方披露的信息以及實(shí)際表現(xiàn)來(lái)看，GPT4.5沒(méi)有展現(xiàn)出超越前代模型的顯著優(yōu)勢(shì)。有點(diǎn)“強(qiáng)弩之末”的感覺(jué)?？赡茉俅悟?yàn)證了業(yè)界比較廣泛的認(rèn)知：“單純擴(kuò)大模型參數(shù)規(guī)模，對(duì)性能提升的邊際效應(yīng)正在遞減”。接下來(lái)分幾個(gè)章節(jié)，談?wù)勎业母惺?。期待與現(xiàn)實(shí)的落差GPT4.5被OpenAI定位為“ourlargestandbestmodelforcha...

2025-03-13 06:57:59 1908瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

社區(qū)頭條

GRPO(GroupRelativePolicyOptimization)算法核心思想：想象一下，老師在教一個(gè)學(xué)生寫作文。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法（比如PPO）會(huì)給學(xué)生的每一句話打分，告訴他這句好，那句不好。但GRPO不這么做，它更像是一位“佛系”老師：不看過(guò)程，看結(jié)果：GRPO不會(huì)逐句指導(dǎo)學(xué)生，而是讓學(xué)生一口氣寫完幾篇不同的作文（一組作文）。幾篇作文一起比較：然后，老師把這幾篇作文放在一起比較，根據(jù)一個(gè)預(yù)先定好的規(guī)則（基于規(guī)則的獎(jiǎng)勵(lì)模型），評(píng)判...

2025-02-28 12:15:57 2609瀏覽 0點(diǎn)贊 0回復(fù) 0收藏

獲得成就

已積累 2077 人氣

獲得 0 個(gè)點(diǎn)贊

獲得 0 次收藏

<sub id="opfwz"></sub>

<style id="opfwz"></style>

<label id="opfwz"><button id="opfwz"><center id="opfwz"></center></button></label>

<cite id="opfwz"><track id="opfwz"></track></cite>