自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

微軟推出 XOT 方法，提升語(yǔ)言模型推理能力

作者：故淵 2023-11-15 14:17:23

微軟近日推出了名為“Everything of Thought”（XOT）的方法，靈感來(lái)自谷歌 DeepMind 的 AlphaZero，利用緊湊的神經(jīng)網(wǎng)絡(luò)，來(lái)增強(qiáng) AI 模型推理能力。

11 月 15 日消息，微軟近日推出了名為“Everything of Thought”（XOT）的方法，靈感來(lái)自谷歌 DeepMind 的 AlphaZero，利用緊湊的神經(jīng)網(wǎng)絡(luò)，來(lái)增強(qiáng) AI 模型推理能力。

微軟和佐治亞理工學(xué)院、華東師范大學(xué)合作開發(fā)了該算法，整合了強(qiáng)化學(xué)習(xí)（reinforcement learning）和蒙特卡洛樹搜索（MCTS）能力，在復(fù)雜決策環(huán)境中，進(jìn)一步提高解決問(wèn)題的有效性。

IT之家注：微軟研究團(tuán)隊(duì)表示 XOT 方法可以讓語(yǔ)言模型擴(kuò)展到不熟悉的問(wèn)題上，在 Game of 24、8-Puzzle 和 Pocket Cube 嚴(yán)苛測(cè)試中提升明顯。結(jié)果表明，XOT 明顯優(yōu)于其他方法，甚至解決了其他方法失敗的問(wèn)題。但是，XOT 并沒(méi)有達(dá)到 100% 的可靠性。

XOT 框架包括以下關(guān)鍵步驟:

預(yù)訓(xùn)練階段：MCTS 模塊在特定任務(wù)上進(jìn)行預(yù)訓(xùn)練，以學(xué)習(xí)有關(guān)有效思維搜索的領(lǐng)域知識(shí)。輕量級(jí)策略和價(jià)值網(wǎng)絡(luò)指導(dǎo)搜索。思想搜索: 在推理過(guò)程中，預(yù)訓(xùn)練的 MCTS 模塊使用策略 / 價(jià)值網(wǎng)絡(luò)來(lái)有效地探索和生成 LLM 的思想軌跡。
思想修正：LLM 審查 MCTS 的思想并識(shí)別任何錯(cuò)誤。修正的想法是通過(guò)額外的 MCTS 模擬產(chǎn)生的。
LLM 推理: 將修改后的想法提供給 LLM 解決問(wèn)題的最終提示。

IT之家在此附上論文 [PDF] 地址，感興趣的用戶可以深入閱讀。

責(zé)任編輯：龐桂玉來(lái)源： IT之家

微軟語(yǔ)言模型 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="gtpdq"><track id="gtpdq"></track></legend>

<legend id="gtpdq"><track id="gtpdq"></track></legend>

<sub id="gtpdq"></sub>