自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

直接用GPT-4控制空調(diào),微軟免訓(xùn)練方法讓LLM邁向工業(yè)控制

人工智能 新聞
最近,微軟亞洲研究院提出可以將 LLM 用于工業(yè)控制,而且僅需少量示例樣本就能達(dá)成優(yōu)于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的效果。該研究嘗試使用 GPT-4 來(lái)控制空氣調(diào)節(jié)系統(tǒng)(HVAC),得到了相當(dāng)積極的結(jié)果。

隨著大型語(yǔ)言模型(LLM)技術(shù)的日漸成熟,其應(yīng)用范圍正在不斷擴(kuò)大。從智能寫作到搜索引擎,LLM 的應(yīng)用潛力正在一點(diǎn)點(diǎn)被挖掘。

最近,微軟亞洲研究院提出可以將 LLM 用于工業(yè)控制,而且僅需少量示例樣本就能達(dá)成優(yōu)于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的效果。該研究嘗試使用 GPT-4 來(lái)控制空氣調(diào)節(jié)系統(tǒng)(HVAC),得到了相當(dāng)積極的結(jié)果。

圖片

論文地址:http://export.arxiv.org/abs/2308.03028

在智能控制領(lǐng)域,強(qiáng)化學(xué)習(xí)(RL)是最流行的決策方法之一,但卻存在樣本低效問題以及由此導(dǎo)致的訓(xùn)練成本高問題。當(dāng)智能體從頭開始學(xué)習(xí)一個(gè)任務(wù)時(shí)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)范式從根本上講就難以解決這些問題。畢竟就算是人類,通常也需要數(shù)千小時(shí)的學(xué)習(xí)才能成為領(lǐng)域?qū)<?,這大概對(duì)應(yīng)于數(shù)百萬(wàn)次交互。

但是,對(duì)于工業(yè)場(chǎng)景的許多控制任務(wù),比如庫(kù)存管理、量化交易和 HVAC 控制,人們更傾向于使用高性能控制器來(lái)低成本地處理不同任務(wù),這對(duì)傳統(tǒng)控制方法而言是巨大的挑戰(zhàn)。

舉個(gè)例子,我們可能希望只需極少量的微調(diào)和有限數(shù)量的參考演示就能控制不同建筑的 HVAC。HVAC 控制可能在不同任務(wù)上的基本原理都類似,但是場(chǎng)景遷移的動(dòng)態(tài)情況甚至狀態(tài) / 動(dòng)作空間可能會(huì)不一樣。

不僅如此,用于從頭開始訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的演示通常也不夠多。因此,我們很難使用強(qiáng)化學(xué)習(xí)或其它傳統(tǒng)控制方法訓(xùn)練出普遍適用于這類場(chǎng)景的智能體。

使用基礎(chǔ)模型的先驗(yàn)知識(shí)是一種頗具潛力的方法。這些基礎(chǔ)模型使用了互聯(lián)網(wǎng)規(guī)模的多樣化數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,因此可作為豐富先驗(yàn)知識(shí)的來(lái)源而被用于各種工業(yè)控制任務(wù)?;A(chǔ)模型已經(jīng)展現(xiàn)出了強(qiáng)大的涌現(xiàn)能力以及對(duì)多種下游任務(wù)的快速適應(yīng)能力,具體的案例包括 GPT-4、Bard、DALL-E、CLIP。其中前兩者是大型語(yǔ)言模型(LLM)的代表,后兩者則能處理文本和圖像。

基礎(chǔ)模型近來(lái)取得的巨大成功已經(jīng)催生出了一些利用 LLM 執(zhí)行決策的方法。這些方法大致上可分為三類:針對(duì)具體下游任務(wù)對(duì) LLM 進(jìn)行微調(diào)、將 LLM 與可訓(xùn)練組件組合使用、直接使用預(yù)訓(xùn)練的 LLM。

之前的研究在使用基礎(chǔ)模型進(jìn)行控制實(shí)驗(yàn)時(shí),通常選用的任務(wù)是機(jī)器人操控、家庭助理或游戲環(huán)境,而微軟亞洲研究院的這個(gè)團(tuán)隊(duì)則專注于工業(yè)控制任務(wù)。對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)方法而言,該任務(wù)有三大難點(diǎn):

1) 決策智能體通常面對(duì)的是一系列異構(gòu)的任務(wù),比如具有不同的狀態(tài)和動(dòng)作空間或遷移動(dòng)態(tài)情況。強(qiáng)化學(xué)習(xí)方法需要為異構(gòu)的任務(wù)訓(xùn)練不同的模型,這樣做的成本很高。

2) 決策智能體的開發(fā)過程需要很低的技術(shù)債(technical debt),這說(shuō)明所提供的樣本數(shù)量不夠(甚至可能沒有),而傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法需要大數(shù)據(jù)才能訓(xùn)練,因此可能無(wú)法設(shè)計(jì)針對(duì)特定任務(wù)的模型。

3) 決策智能體需要以在線方式快速適應(yīng)新場(chǎng)景或不斷變化的動(dòng)態(tài)情況,比如完全依靠新的在線交互經(jīng)驗(yàn)而無(wú)需訓(xùn)練。

為了解決這些難題,微軟亞洲研究院的 Lei Song 等研究者提出直接使用預(yù)訓(xùn)練 LLM 來(lái)控制 HVAC。該方法只需少量樣本就能解決異構(gòu)的任務(wù),其過程不涉及到任何訓(xùn)練,僅使用樣本作為少樣本學(xué)習(xí)的示例來(lái)進(jìn)行上下文學(xué)習(xí)。

據(jù)介紹,這項(xiàng)研究的目標(biāo)是探索直接使用預(yù)訓(xùn)練 LLM 來(lái)執(zhí)行工業(yè)控制任務(wù)的潛力。具體來(lái)說(shuō),他們?cè)O(shè)計(jì)了一種機(jī)制來(lái)從專家演示和歷史交互挑選示例,還設(shè)計(jì)了一種可將目標(biāo)、指示、演示和當(dāng)前狀態(tài)轉(zhuǎn)換為 prompt 的 prompt 生成器。然后,再使用生成的 prompt,通過 LLM 來(lái)給出控制。

研究者表示,其目的是探究不同的設(shè)計(jì)方式會(huì)如何影響 LLM 在工業(yè)控制任務(wù)上的表現(xiàn),而該方法的很多方面都難以把控。

  • 第一,盡管該方法的概念很簡(jiǎn)單,但相比于傳統(tǒng)的決策方法,其性能表現(xiàn)還不明朗。
  • 第二,基礎(chǔ)模型向不同任務(wù)的泛化能力(比如對(duì)于不同的上下文、動(dòng)作空間等)仍然有待研究。
  • 第三,該方法對(duì)語(yǔ)言包裝器不同設(shè)計(jì)的敏感性也值得研究(例如,prompt 中哪一部分對(duì)性能影響最大)。

研究者希望通過解答這些問題凸顯出這些方法的潛力以及展現(xiàn)可以如何為技術(shù)債較低的工業(yè)控制任務(wù)設(shè)計(jì)解決方法。

這篇論文的主要貢獻(xiàn)包括: 

  • 開發(fā)了一種可將基礎(chǔ)模型用于工業(yè)控制但無(wú)需訓(xùn)練的方法,其能以較低的技術(shù)債用于多種異構(gòu)的任務(wù)。 
  • 研究者通過 GPT-4 控制 HVAC 進(jìn)行了實(shí)驗(yàn),得到了積極的實(shí)驗(yàn)結(jié)果,展現(xiàn)了這些方法的潛力。 
  • 研究者進(jìn)行了廣泛的消融研究(涉及泛化能力、示例選取和 prompt 設(shè)計(jì)),闡明了該方向的未來(lái)發(fā)展。

方法

該研究使用 GPT-4 來(lái)優(yōu)化對(duì) HVAC 設(shè)備的控制,工作流程如下圖 1 所示:

圖片

圖 1:使用 GPT-4 控制 HVAC 的工作流程示意圖

該工作流程中的 LLM 和環(huán)境組件如下:

LLM:一個(gè)預(yù)訓(xùn)練大型語(yǔ)言模型,用作決策器。它會(huì)根據(jù)給出的 prompt 生成對(duì)應(yīng)的響應(yīng)。其 prompt 中應(yīng)包含對(duì)當(dāng)前狀態(tài)的描述、簡(jiǎn)單的 HVAC 控制指令、相關(guān)狀態(tài)的演示等。

環(huán)境:一個(gè)交互式環(huán)境或模擬器,可以執(zhí)行 LLM 建議的動(dòng)作并提供反饋。實(shí)驗(yàn)中所使用的具體評(píng)估環(huán)境為 BEAR (Zhang et al., 2022a)。為了在 BEAR 中創(chuàng)建環(huán)境,必須提供兩個(gè)參數(shù):建筑類型(如大型辦公室、小型辦公室、醫(yī)院等)和天氣條件(如炎熱干燥、炎熱潮濕、溫暖干燥等)。此外,值得注意的是,每種天氣狀況都對(duì)應(yīng)于特定的城市。例如,炎熱干燥的天氣狀況與水牛城有關(guān)。

在 BEAR 中,每個(gè)狀態(tài)都由一個(gè)數(shù)值向量表示,其中除了最后四個(gè)維度外,每個(gè)維度都對(duì)應(yīng)于建筑物中一個(gè)房間的當(dāng)前溫度。最后四個(gè)維度分別代表室外溫度、全局水平輻射(GHI)、地面溫度和居住者功率。在所有環(huán)境中,首要目標(biāo)是保持室溫在 22 ℃ 附近,同時(shí)盡可能減少能耗。

BEAR 中的操作被編碼為范圍從 -1 到 1 的實(shí)數(shù)。負(fù)值表示制冷模式,正值表示加熱模式。這些動(dòng)作的絕對(duì)值對(duì)應(yīng)于閥門打開程度,這能說(shuō)明能耗情況。如果絕對(duì)值更大,那么能耗也就更大。在兼顧舒適度和能耗的條件下,研究者在實(shí)驗(yàn)中使用了以下獎(jiǎng)勵(lì)函數(shù):

圖片

其中 n 表示房間數(shù),T=22℃ 是目標(biāo)溫度,t_i 表示第 i 個(gè)房間的溫度。超參數(shù) α 用于實(shí)現(xiàn)能耗和舒適度的平衡。

此外,該工作流程中還包含在線緩沖器、轉(zhuǎn)譯器、嵌入模型、專家演示數(shù)據(jù)集、KNN 模型、聚類模型、prompt 生成器等組件。其中 prompt 生成器的執(zhí)行過程如圖 2 所示,其中紫色的文本僅用于說(shuō)明,而非 prompt 的一部分。

圖片

圖 2:新方法是如何生成 prompt 的

實(shí)驗(yàn)

該研究通過實(shí)驗(yàn)展示了 GPT-4 控制 HVAC 設(shè)備的效果,其中涉及不同的建筑物和天氣條件。只要能提供適當(dāng)?shù)闹甘竞脱菔荆ú灰欢ㄅc目標(biāo)建筑和天氣條件相關(guān)),GPT-4 的表現(xiàn)就能超過專門為特定建筑和天氣條件精心訓(xùn)練的強(qiáng)化學(xué)習(xí)策略。此外,研究者還進(jìn)行了全面的消融研究,以確定 prompt 中每個(gè)部分的貢獻(xiàn)。

圖片

表 1:GPT-4 使用不同專家演示時(shí)的表現(xiàn)

圖片

表 2:GPT-4 使用不同類型和數(shù)量的演示時(shí)的表現(xiàn)

圖片

圖 3:在相同天氣條件下,不同建筑對(duì)應(yīng)不同的專家策略的情況

圖片

圖 4:在不同天氣條件下,同一建筑使用不同專家策略的情況

圖片

表 3:GPT-4 使用不同類型的注釋時(shí)的表現(xiàn)

圖片

表 4:GPT-4 使用不同類型的描述和指示時(shí)的表現(xiàn)

圖片

表 5:在 prompt 中實(shí)數(shù)是否進(jìn)行舍入的不同情況下,GPT-4 的性能

圖片

表 6:PPO 和 GPT 在

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-07-02 01:09:02

2024-07-16 13:13:26

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-12-26 08:17:23

微軟GPT-4

2023-11-03 13:07:00

AI模型

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-08-15 15:03:00

AI工具

2023-12-17 22:04:04

微軟GPT-4

2023-03-17 22:10:53

ChatGPTOpenAIGPT-4

2023-09-06 16:44:03

2023-07-04 13:42:00

代碼訓(xùn)練

2024-09-09 10:00:00

模型訓(xùn)練

2023-03-20 21:44:10

微軟GPT-4AI

2023-04-06 16:09:46

程序員AI

2024-01-29 12:49:00

AI模型

2024-06-13 13:53:03

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2024-08-08 13:04:28

2023-03-30 11:08:49

AI模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)