自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

直接用GPT-4控制空調(diào)，微軟免訓(xùn)練方法讓LLM邁向工業(yè)控制

作者：機(jī)器之心 2023-08-11 13:34:06

人工智能新聞

最近，微軟亞洲研究院提出可以將 LLM 用于工業(yè)控制，而且僅需少量示例樣本就能達(dá)成優(yōu)于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的效果。該研究嘗試使用 GPT-4 來(lái)控制空氣調(diào)節(jié)系統(tǒng)（HVAC），得到了相當(dāng)積極的結(jié)果。

隨著大型語(yǔ)言模型（LLM）技術(shù)的日漸成熟，其應(yīng)用范圍正在不斷擴(kuò)大。從智能寫作到搜索引擎，LLM 的應(yīng)用潛力正在一點(diǎn)點(diǎn)被挖掘。

最近，微軟亞洲研究院提出可以將 LLM 用于工業(yè)控制，而且僅需少量示例樣本就能達(dá)成優(yōu)于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的效果。該研究嘗試使用 GPT-4 來(lái)控制空氣調(diào)節(jié)系統(tǒng)（HVAC），得到了相當(dāng)積極的結(jié)果。

論文地址：http://export.arxiv.org/abs/2308.03028

在智能控制領(lǐng)域，強(qiáng)化學(xué)習(xí)（RL）是最流行的決策方法之一，但卻存在樣本低效問題以及由此導(dǎo)致的訓(xùn)練成本高問題。當(dāng)智能體從頭開始學(xué)習(xí)一個(gè)任務(wù)時(shí)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)范式從根本上講就難以解決這些問題。畢竟就算是人類，通常也需要數(shù)千小時(shí)的學(xué)習(xí)才能成為領(lǐng)域?qū)＜?，這大概對(duì)應(yīng)于數(shù)百萬(wàn)次交互。

但是，對(duì)于工業(yè)場(chǎng)景的許多控制任務(wù)，比如庫(kù)存管理、量化交易和 HVAC 控制，人們更傾向于使用高性能控制器來(lái)低成本地處理不同任務(wù)，這對(duì)傳統(tǒng)控制方法而言是巨大的挑戰(zhàn)。

舉個(gè)例子，我們可能希望只需極少量的微調(diào)和有限數(shù)量的參考演示就能控制不同建筑的 HVAC。HVAC 控制可能在不同任務(wù)上的基本原理都類似，但是場(chǎng)景遷移的動(dòng)態(tài)情況甚至狀態(tài) / 動(dòng)作空間可能會(huì)不一樣。

不僅如此，用于從頭開始訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的演示通常也不夠多。因此，我們很難使用強(qiáng)化學(xué)習(xí)或其它傳統(tǒng)控制方法訓(xùn)練出普遍適用于這類場(chǎng)景的智能體。

使用基礎(chǔ)模型的先驗(yàn)知識(shí)是一種頗具潛力的方法。這些基礎(chǔ)模型使用了互聯(lián)網(wǎng)規(guī)模的多樣化數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，因此可作為豐富先驗(yàn)知識(shí)的來(lái)源而被用于各種工業(yè)控制任務(wù)?；A(chǔ)模型已經(jīng)展現(xiàn)出了強(qiáng)大的涌現(xiàn)能力以及對(duì)多種下游任務(wù)的快速適應(yīng)能力，具體的案例包括 GPT-4、Bard、DALL-E、CLIP。其中前兩者是大型語(yǔ)言模型（LLM）的代表，后兩者則能處理文本和圖像。

基礎(chǔ)模型近來(lái)取得的巨大成功已經(jīng)催生出了一些利用 LLM 執(zhí)行決策的方法。這些方法大致上可分為三類：針對(duì)具體下游任務(wù)對(duì) LLM 進(jìn)行微調(diào)、將 LLM 與可訓(xùn)練組件組合使用、直接使用預(yù)訓(xùn)練的 LLM。

之前的研究在使用基礎(chǔ)模型進(jìn)行控制實(shí)驗(yàn)時(shí)，通常選用的任務(wù)是機(jī)器人操控、家庭助理或游戲環(huán)境，而微軟亞洲研究院的這個(gè)團(tuán)隊(duì)則專注于工業(yè)控制任務(wù)。對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)方法而言，該任務(wù)有三大難點(diǎn)：

1) 決策智能體通常面對(duì)的是一系列異構(gòu)的任務(wù)，比如具有不同的狀態(tài)和動(dòng)作空間或遷移動(dòng)態(tài)情況。強(qiáng)化學(xué)習(xí)方法需要為異構(gòu)的任務(wù)訓(xùn)練不同的模型，這樣做的成本很高。

2) 決策智能體的開發(fā)過程需要很低的技術(shù)債（technical debt），這說(shuō)明所提供的樣本數(shù)量不夠（甚至可能沒有），而傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法需要大數(shù)據(jù)才能訓(xùn)練，因此可能無(wú)法設(shè)計(jì)針對(duì)特定任務(wù)的模型。

3) 決策智能體需要以在線方式快速適應(yīng)新場(chǎng)景或不斷變化的動(dòng)態(tài)情況，比如完全依靠新的在線交互經(jīng)驗(yàn)而無(wú)需訓(xùn)練。

為了解決這些難題，微軟亞洲研究院的 Lei Song 等研究者提出直接使用預(yù)訓(xùn)練 LLM 來(lái)控制 HVAC。該方法只需少量樣本就能解決異構(gòu)的任務(wù)，其過程不涉及到任何訓(xùn)練，僅使用樣本作為少樣本學(xué)習(xí)的示例來(lái)進(jìn)行上下文學(xué)習(xí)。

據(jù)介紹，這項(xiàng)研究的目標(biāo)是探索直接使用預(yù)訓(xùn)練 LLM 來(lái)執(zhí)行工業(yè)控制任務(wù)的潛力。具體來(lái)說(shuō)，他們?cè)O(shè)計(jì)了一種機(jī)制來(lái)從專家演示和歷史交互挑選示例，還設(shè)計(jì)了一種可將目標(biāo)、指示、演示和當(dāng)前狀態(tài)轉(zhuǎn)換為 prompt 的 prompt 生成器。然后，再使用生成的 prompt，通過 LLM 來(lái)給出控制。

研究者表示，其目的是探究不同的設(shè)計(jì)方式會(huì)如何影響 LLM 在工業(yè)控制任務(wù)上的表現(xiàn)，而該方法的很多方面都難以把控。

第一，盡管該方法的概念很簡(jiǎn)單，但相比于傳統(tǒng)的決策方法，其性能表現(xiàn)還不明朗。
第二，基礎(chǔ)模型向不同任務(wù)的泛化能力（比如對(duì)于不同的上下文、動(dòng)作空間等）仍然有待研究。
第三，該方法對(duì)語(yǔ)言包裝器不同設(shè)計(jì)的敏感性也值得研究（例如，prompt 中哪一部分對(duì)性能影響最大）。

研究者希望通過解答這些問題凸顯出這些方法的潛力以及展現(xiàn)可以如何為技術(shù)債較低的工業(yè)控制任務(wù)設(shè)計(jì)解決方法。

這篇論文的主要貢獻(xiàn)包括：

開發(fā)了一種可將基礎(chǔ)模型用于工業(yè)控制但無(wú)需訓(xùn)練的方法，其能以較低的技術(shù)債用于多種異構(gòu)的任務(wù)。
研究者通過 GPT-4 控制 HVAC 進(jìn)行了實(shí)驗(yàn)，得到了積極的實(shí)驗(yàn)結(jié)果，展現(xiàn)了這些方法的潛力。
研究者進(jìn)行了廣泛的消融研究（涉及泛化能力、示例選取和 prompt 設(shè)計(jì)），闡明了該方向的未來(lái)發(fā)展。

方法

該研究使用 GPT-4 來(lái)優(yōu)化對(duì) HVAC 設(shè)備的控制，工作流程如下圖 1 所示：

圖 1：使用 GPT-4 控制 HVAC 的工作流程示意圖

該工作流程中的 LLM 和環(huán)境組件如下：

LLM：一個(gè)預(yù)訓(xùn)練大型語(yǔ)言模型，用作決策器。它會(huì)根據(jù)給出的 prompt 生成對(duì)應(yīng)的響應(yīng)。其 prompt 中應(yīng)包含對(duì)當(dāng)前狀態(tài)的描述、簡(jiǎn)單的 HVAC 控制指令、相關(guān)狀態(tài)的演示等。

環(huán)境：一個(gè)交互式環(huán)境或模擬器，可以執(zhí)行 LLM 建議的動(dòng)作并提供反饋。實(shí)驗(yàn)中所使用的具體評(píng)估環(huán)境為 BEAR (Zhang et al., 2022a)。為了在 BEAR 中創(chuàng)建環(huán)境，必須提供兩個(gè)參數(shù)：建筑類型（如大型辦公室、小型辦公室、醫(yī)院等）和天氣條件（如炎熱干燥、炎熱潮濕、溫暖干燥等）。此外，值得注意的是，每種天氣狀況都對(duì)應(yīng)于特定的城市。例如，炎熱干燥的天氣狀況與水牛城有關(guān)。

在 BEAR 中，每個(gè)狀態(tài)都由一個(gè)數(shù)值向量表示，其中除了最后四個(gè)維度外，每個(gè)維度都對(duì)應(yīng)于建筑物中一個(gè)房間的當(dāng)前溫度。最后四個(gè)維度分別代表室外溫度、全局水平輻射（GHI）、地面溫度和居住者功率。在所有環(huán)境中，首要目標(biāo)是保持室溫在 22 ℃ 附近，同時(shí)盡可能減少能耗。

BEAR 中的操作被編碼為范圍從 -1 到 1 的實(shí)數(shù)。負(fù)值表示制冷模式，正值表示加熱模式。這些動(dòng)作的絕對(duì)值對(duì)應(yīng)于閥門打開程度，這能說(shuō)明能耗情況。如果絕對(duì)值更大，那么能耗也就更大。在兼顧舒適度和能耗的條件下，研究者在實(shí)驗(yàn)中使用了以下獎(jiǎng)勵(lì)函數(shù)：

其中 n 表示房間數(shù)，T=22℃ 是目標(biāo)溫度，t_i 表示第 i 個(gè)房間的溫度。超參數(shù) α 用于實(shí)現(xiàn)能耗和舒適度的平衡。

此外，該工作流程中還包含在線緩沖器、轉(zhuǎn)譯器、嵌入模型、專家演示數(shù)據(jù)集、KNN 模型、聚類模型、prompt 生成器等組件。其中 prompt 生成器的執(zhí)行過程如圖 2 所示，其中紫色的文本僅用于說(shuō)明，而非 prompt 的一部分。

圖 2：新方法是如何生成 prompt 的

實(shí)驗(yàn)

該研究通過實(shí)驗(yàn)展示了 GPT-4 控制 HVAC 設(shè)備的效果，其中涉及不同的建筑物和天氣條件。只要能提供適當(dāng)?shù)闹甘竞脱菔荆ú灰欢ㄅc目標(biāo)建筑和天氣條件相關(guān)），GPT-4 的表現(xiàn)就能超過專門為特定建筑和天氣條件精心訓(xùn)練的強(qiáng)化學(xué)習(xí)策略。此外，研究者還進(jìn)行了全面的消融研究，以確定 prompt 中每個(gè)部分的貢獻(xiàn)。

表 1：GPT-4 使用不同專家演示時(shí)的表現(xiàn)

表 2：GPT-4 使用不同類型和數(shù)量的演示時(shí)的表現(xiàn)

圖 3：在相同天氣條件下，不同建筑對(duì)應(yīng)不同的專家策略的情況

圖 4：在不同天氣條件下，同一建筑使用不同專家策略的情況

表 3：GPT-4 使用不同類型的注釋時(shí)的表現(xiàn)

表 4：GPT-4 使用不同類型的描述和指示時(shí)的表現(xiàn)

表 5：在 prompt 中實(shí)數(shù)是否進(jìn)行舍入的不同情況下，GPT-4 的性能

表 6：PPO 和 GPT 在

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

GPT-4 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="ouszw"><p id="ouszw"></p></blockquote>

<sub id="ouszw"></sub>