自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

引入大語言模型、首個(gè)支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

人工智能 新聞
本文中,來自香港理工大學(xué)、寧波東方理工大學(xué)(暫名)、普渡大學(xué)和大疆科技的研究者和算法團(tuán)隊(duì)發(fā)布了名為 RLLTE 的開源強(qiáng)化學(xué)習(xí)框架。

近年來,強(qiáng)化學(xué)習(xí)的研究熱度不斷攀升,在智能制造、自動(dòng)駕駛、大語言模型等多個(gè)領(lǐng)域取得了耀眼成績,展示出巨大的研究潛力。然而,強(qiáng)化學(xué)習(xí)算法高效、可靠的工程實(shí)現(xiàn)仍是長期存在的問題。由于其算法結(jié)構(gòu)的復(fù)雜性,微小的代碼差異就可能嚴(yán)重影響實(shí)際性能。

為了解決這一問題,科研和開發(fā)者社區(qū)先后提出了多個(gè)強(qiáng)化學(xué)習(xí)框架,如強(qiáng)調(diào)穩(wěn)定性和可靠性的 Stable-Baselines3、模塊化設(shè)計(jì)的 Tianshou 以及單文件實(shí)現(xiàn)算法的 CleanRL,為強(qiáng)化學(xué)習(xí)的學(xué)術(shù)研究和應(yīng)用開發(fā)做出了積極貢獻(xiàn)。然而,大部分項(xiàng)目的活躍周期較短,未建立合理的長期演進(jìn)計(jì)劃,并且代碼風(fēng)格迥異,限制了社區(qū)的開源協(xié)作。它們也沒有構(gòu)建完整的項(xiàng)目生態(tài),僅專注于模型訓(xùn)練,而忽略了評估、部署等現(xiàn)實(shí)需求。同時(shí),這些項(xiàng)目缺乏完備的測試數(shù)據(jù),導(dǎo)致復(fù)現(xiàn)成本極高,阻礙了后續(xù)研究的進(jìn)行。

為了解決以上問題,來自香港理工大學(xué)、寧波東方理工大學(xué)(暫名)、普渡大學(xué)和大疆科技的研究者和算法團(tuán)隊(duì),受到電信中「長期演進(jìn)技術(shù)(LTE)」的啟發(fā),發(fā)布了名為 RLLTE 的開源強(qiáng)化學(xué)習(xí)框架,旨在為促進(jìn)強(qiáng)化學(xué)習(xí)研究和應(yīng)用提供開發(fā)組件和工程標(biāo)準(zhǔn)。RLLTE 不僅提供高質(zhì)量的算法實(shí)現(xiàn),還可作為工具庫用于新算法的開發(fā)。

圖片


  • 論文鏈接:https://arxiv.org/pdf/2309.16382.pdf
  • 代碼 / Demo 鏈接:https://github.com/RLE-Foundation/rllte
  • 官方網(wǎng)站:https://docs.rllte.dev/

圖片

圖 1 RLLTE 框架示意圖

RLLTE 從「探索 - 利用」的角度出發(fā)對強(qiáng)化學(xué)習(xí)算法進(jìn)行完全解耦,將它們分解為若干最小基元,例如用于處理觀測的編碼器(Encoder),以及用于經(jīng)驗(yàn)存儲(chǔ)和采樣的存儲(chǔ)器(Storage)。RLLTE 為每一種基元提供了豐富的模組供開發(fā)者選擇,使得開發(fā)者可以以「搭積木」的方式進(jìn)行強(qiáng)化學(xué)習(xí)算法的構(gòu)建。RLLTE 框架的主要功能和亮點(diǎn)如下:

  • 極致模塊化:RLLTE 的核心設(shè)計(jì)思想是像 PyTorch 一樣為強(qiáng)化學(xué)習(xí)算法開發(fā)提供標(biāo)準(zhǔn)、便捷、即插即用的開發(fā)組件,而并非專注于提供具體的算法實(shí)現(xiàn)。因此,RLLTE 實(shí)現(xiàn)的算法中每個(gè)組件都是可替換的,并且支持用戶使用自定義的模塊。這一解耦過程有助于算法可解釋性的研究和更深層次的改進(jìn)探索。
  • 長期演進(jìn):RLLTE 作為一個(gè)長期演進(jìn)的框架,將會(huì)持續(xù)更新強(qiáng)化學(xué)習(xí)中的先進(jìn)算法和工具。為了保持項(xiàng)目的體量和高質(zhì)量,RLLTE 只更新通用的算法,抑或是在采樣效率或者泛化能力方面做出的改進(jìn),并且要求這些算法必須在廣受認(rèn)可的基線上取得杰出的性能。
  • 數(shù)據(jù)增強(qiáng):近年來的大量研究將數(shù)據(jù)增強(qiáng)技巧引入強(qiáng)化學(xué)習(xí)算法,以實(shí)現(xiàn)采樣效率和泛化能力的顯著提升。RLLTE 默認(rèn)支持?jǐn)?shù)據(jù)增強(qiáng)操作,并提供大量觀測(Observations)增強(qiáng)和內(nèi)在獎(jiǎng)勵(lì)(Intrinsic Rewards)模組供開發(fā)者選擇。
  • 豐富的項(xiàng)目生態(tài):RLLTE 同時(shí)考慮學(xué)術(shù)界和工業(yè)界的需求,構(gòu)建了豐富的項(xiàng)目生態(tài)。開發(fā)者可以在一個(gè)框架中實(shí)現(xiàn)任務(wù)設(shè)計(jì)、模型訓(xùn)練、評估以及部署。并且,RLLTE 還嘗試將大語言模型引入該框架,以降低用戶學(xué)習(xí)成本,加速強(qiáng)化學(xué)習(xí)的應(yīng)用構(gòu)建。
  • 完備的基線數(shù)據(jù):現(xiàn)有的強(qiáng)化學(xué)習(xí)框架通常只在有限的任務(wù)上進(jìn)行算法測試,缺乏完備的測試數(shù)據(jù)(訓(xùn)練曲線和測試分?jǐn)?shù)等)。由于強(qiáng)化學(xué)習(xí)訓(xùn)練的高算力消耗,這是可以理解的,但阻礙了后續(xù)的研究進(jìn)行。為了解決這一問題,RLLTE 依托 Hugging Face 平臺(tái)建立了數(shù)據(jù)倉庫,并對內(nèi)置算法在廣受認(rèn)可的基線上進(jìn)行測試以提供完整的訓(xùn)練數(shù)據(jù)。
  • 多硬件支持:在當(dāng)前全球算力需求激增的背景下,RLLTE 被設(shè)計(jì)為支持多種算力設(shè)備以保證靈活性和可拓展性。當(dāng)前,框架支持使用 NVIDIA GPU 和 HUAWEI NPU 進(jìn)行訓(xùn)練,并支持在 NVIDIA TensorRT 以及 HUAWEI CANN 架構(gòu)下進(jìn)行推理端部署。RLTLE 也是首個(gè)支持國產(chǎn)算力生態(tài)的強(qiáng)化學(xué)習(xí)框架。

圖片

圖 2 RLLTE 框架和其他常見開源 RL 框架的功能對比

RLLTE 框架介紹

RLLTE 框架主要包含三個(gè)層級(jí):核心層(Core)、應(yīng)用層(Application)以及工具層(Tool)。

  • 核心層從「探索 - 利用」的角度對 RL 算法進(jìn)行完全解耦,并將其拆分成以下 6 大基元:

圖片

圖 3 RLLTE 核心層架構(gòu)

RLLTE 為每一類基元提供了大量模組供開發(fā)者選擇。例如,storage 模塊中提供了 VanillaReplayStorage 和 DictReplayStorage 分別用于存儲(chǔ)普通格式和字典格式的觀測數(shù)據(jù)。

  • 應(yīng)用層基于核心層的模組提供強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)(rllte.agent)、預(yù)訓(xùn)練(Pre-training)、模型部署(Deployment)以及開發(fā)助手(Copilot)。
  • 工具層為任務(wù)設(shè)計(jì)(rllte.env)、模型評估(rllte.evaluation)以及基線數(shù)據(jù)(rllte.hub)提供方便的應(yīng)用接口。

用戶可以直接調(diào)用 RLLTE 實(shí)現(xiàn)好的算法進(jìn)行訓(xùn)練,例如使用 DrQ-v2 算法解決視覺控制任務(wù):

開始訓(xùn)練,將會(huì)看到以下輸出:

圖片

或者,使用內(nèi)置的算法原型和模塊進(jìn)行快速算法開發(fā):

圖片

使用 RLLTE,開發(fā)者只需幾十行代碼即可實(shí)現(xiàn) A2C 等知名強(qiáng)化學(xué)習(xí)算法。并且,對于實(shí)現(xiàn)好的算法,開發(fā)者可以更換其內(nèi)置模塊以進(jìn)行性能比較和算法改進(jìn)。例如,比較不同的 Encoder 對同一算法性能的影響:

圖片

對于訓(xùn)練好的模型,開發(fā)者可以調(diào)用 rllte.evaluation 中的工具進(jìn)行算法評估和可視化:

圖片

在學(xué)術(shù)研究中,使用 rllte.hub 快速獲取算法的訓(xùn)練數(shù)據(jù)和模型參數(shù):

圖片

大語言模型融入 RL 框架

RLLTE 是首個(gè)嘗試引入大語言模型的強(qiáng)化學(xué)習(xí)框架,以此來降低開發(fā)者的學(xué)習(xí)成本,以及協(xié)助進(jìn)行強(qiáng)化學(xué)習(xí)應(yīng)用的開發(fā)。

圖片

RLLTE 參考了 LocalGPT 等項(xiàng)目的設(shè)計(jì)理念,開發(fā)了 Copilot,無需額外訓(xùn)練并且保證用戶數(shù)據(jù)的絕對隱私。其首先使用 instructor embedding 工具對由項(xiàng)目文檔、教程以及強(qiáng)化學(xué)習(xí)論文等構(gòu)成的語料庫進(jìn)行處理,以建立本地化的向量數(shù)據(jù)庫,然后使用諸如 Vicuna-7B 的大模型對問題進(jìn)行理解,并基于該向量數(shù)據(jù)庫給出答案。用戶可以根據(jù)自己的算力情況自由更換基礎(chǔ)模型,未來我們也將進(jìn)一步豐富該語料庫并添加更多高級(jí)功能來實(shí)現(xiàn)更加智能的強(qiáng)化學(xué)習(xí)專屬 Copilot。

作為一個(gè)長期演進(jìn)的強(qiáng)化學(xué)習(xí)框架,RLLTE 未來將持續(xù)跟蹤最新的研究進(jìn)展并提供高質(zhì)量的算法實(shí)現(xiàn),以適應(yīng)開發(fā)者變化的需求并對強(qiáng)化學(xué)習(xí)社區(qū)產(chǎn)生積極影響。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2014-03-21 10:45:33

FacebookHack

2024-01-12 17:25:45

MoE模型開源人工智能

2024-10-14 13:40:00

2023-05-16 20:47:38

2023-09-25 07:31:19

算力AI框架

2025-02-28 12:32:42

2023-09-13 13:21:52

模型數(shù)據(jù)

2022-12-07 09:49:34

AI模型

2023-01-04 20:00:02

SparseGPT降低算力成本

2024-01-17 12:10:44

AI訓(xùn)練

2024-03-28 14:45:56

2021-09-17 13:05:55

模型人工智能框架

2024-08-13 13:30:00

2024-07-29 09:10:00

模型數(shù)據(jù)

2024-03-19 13:12:36

自動(dòng)駕駛模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)