自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟推出 XOT 方法,提升語(yǔ)言模型推理能力

人工智能
微軟近日推出了名為“Everything of Thought”(XOT)的方法,靈感來(lái)自谷歌 DeepMind 的 AlphaZero,利用緊湊的神經(jīng)網(wǎng)絡(luò),來(lái)增強(qiáng) AI 模型推理能力。

11 月 15 日消息,微軟近日推出了名為“Everything of Thought”(XOT)的方法,靈感來(lái)自谷歌 DeepMind 的 AlphaZero,利用緊湊的神經(jīng)網(wǎng)絡(luò),來(lái)增強(qiáng) AI 模型推理能力。

微軟和佐治亞理工學(xué)院、華東師范大學(xué)合作開發(fā)了該算法,整合了強(qiáng)化學(xué)習(xí)(reinforcement learning)和蒙特卡洛樹搜索 (MCTS) 能力,在復(fù)雜決策環(huán)境中,進(jìn)一步提高解決問(wèn)題的有效性。

IT之家注:微軟研究團(tuán)隊(duì)表示 XOT 方法可以讓語(yǔ)言模型擴(kuò)展到不熟悉的問(wèn)題上,在 Game of 24、8-Puzzle 和 Pocket Cube 嚴(yán)苛測(cè)試中提升明顯。結(jié)果表明,XOT 明顯優(yōu)于其他方法,甚至解決了其他方法失敗的問(wèn)題。但是,XOT 并沒(méi)有達(dá)到 100% 的可靠性。

XOT 框架包括以下關(guān)鍵步驟:

  • 預(yù)訓(xùn)練階段:MCTS 模塊在特定任務(wù)上進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)有關(guān)有效思維搜索的領(lǐng)域知識(shí)。輕量級(jí)策略和價(jià)值網(wǎng)絡(luò)指導(dǎo)搜索。思想搜索: 在推理過(guò)程中,預(yù)訓(xùn)練的 MCTS 模塊使用策略 / 價(jià)值網(wǎng)絡(luò)來(lái)有效地探索和生成 LLM 的思想軌跡。
  • 思想修正:LLM 審查 MCTS 的思想并識(shí)別任何錯(cuò)誤。修正的想法是通過(guò)額外的 MCTS 模擬產(chǎn)生的。
  • LLM 推理: 將修改后的想法提供給 LLM 解決問(wèn)題的最終提示。

IT之家在此附上論文 [PDF] 地址,感興趣的用戶可以深入閱讀。

責(zé)任編輯:龐桂玉 來(lái)源: IT之家
相關(guān)推薦

2023-05-05 13:29:04

模型推理

2024-08-27 09:35:47

2023-06-05 10:01:18

模型測(cè)評(píng)

2025-02-13 08:51:23

DeepSeek大模型

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-04-11 11:35:03

大語(yǔ)言模型LLMs

2023-11-07 14:07:51

GPT-4大語(yǔ)言模型

2025-02-25 09:49:12

2012-12-12 15:01:34

2023-06-20 13:44:49

清華推理

2025-02-17 14:43:51

2023-06-05 13:02:19

OlaGPT語(yǔ)言模型

2024-03-13 11:58:00

自動(dòng)化數(shù)據(jù)

2023-11-03 13:07:00

AI模型

2025-01-27 12:03:11

2022-04-12 14:12:43

谷歌研究模型

2011-05-18 10:29:24

分析數(shù)據(jù)業(yè)務(wù)優(yōu)化物聯(lián)網(wǎng)

2023-09-27 07:39:57

大型語(yǔ)言模型MiniGPT-4

2025-04-24 08:52:34

2024-06-17 13:34:54

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)