自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大語言模型變身軟體機(jī)器人設(shè)計「自然選擇器」,GPT、Gemini、Grok爭做最佳

人工智能 新聞
這項研究為 AI 輔助軟體機(jī)器人設(shè)計開辟了嶄新道路,有望實現(xiàn)更自動化、更智能的設(shè)計流程。

大型語言模型 (LLM) 在軟體機(jī)器人設(shè)計領(lǐng)域展現(xiàn)出了令人振奮的應(yīng)用潛力。密歇根大學(xué)安娜堡分校的研究團(tuán)隊開發(fā)了一個名為「RoboCrafter-QA」的基準(zhǔn)測試,用于評估 LLM 在軟體機(jī)器人設(shè)計中的表現(xiàn),探索了這些模型能否擔(dān)任機(jī)器人設(shè)計的「自然選擇器」角色。

這項研究為 AI 輔助軟體機(jī)器人設(shè)計開辟了嶄新道路,有望實現(xiàn)更自動化、更智能的設(shè)計流程。

圖片

  • 作者: Changhe Chen, Xiaohao Xu, Xiangdong Wang, Xiaonan Huang 
  • 機(jī)構(gòu): 密歇根大學(xué)安娜堡分校
  • 原論文: Large Language Models as Natural Selector for Embodied Soft Robot Design
  • Github:https://github.com/AisenGinn/evogym_data_generation 
  • 視頻:https://youtu.be/bM_Ez7Da4ME

研究背景

軟體機(jī)器人相比傳統(tǒng)剛性機(jī)器人具有顯著優(yōu)勢,特別是在復(fù)雜、非結(jié)構(gòu)化和動態(tài)環(huán)境中,其固有的柔順性能夠?qū)崿F(xiàn)更安全、更適應(yīng)性強(qiáng)的交互。然而,軟體機(jī)器人設(shè)計面臨巨大挑戰(zhàn):

  1. 與剛性機(jī)器人明確定義的運(yùn)動鏈不同,軟體機(jī)器人擁有幾乎無限的自由度
  2. 非線性材料特性復(fù)雜
  3. 需要精密協(xié)調(diào)形態(tài)、驅(qū)動和控制系統(tǒng)

這些因素使軟體機(jī)器人設(shè)計成為一項高度挑戰(zhàn)性的多學(xué)科問題,傳統(tǒng)上依賴專家直覺、迭代原型設(shè)計和計算成本高昂的模擬。

研究創(chuàng)新:從生物進(jìn)化到 AI 驅(qū)動設(shè)計

研究團(tuán)隊提出了生物和機(jī)器人設(shè)計范式的概念性轉(zhuǎn)變:

圖片


  1. 生物進(jìn)化:通過自然選擇壓力驅(qū)動,但進(jìn)程緩慢且受限。
  2. 人類工程設(shè)計:由人類直覺和專業(yè)知識引導(dǎo),但仍受人類認(rèn)知能力限制。
  3. AI 驅(qū)動設(shè)計:LLM 作為「自然選擇器」,利用其龐大的知識庫評估和指導(dǎo)軟體機(jī)器人的設(shè)計。

RoboCrafter-QA 基準(zhǔn)測試

研究團(tuán)隊開發(fā)的 RoboCrafter-QA 基準(zhǔn)測試專門用于評估多模態(tài) LLM 對軟體機(jī)器人設(shè)計理解的能力。該測試采用問答形式,為 LLM 提供環(huán)境描述和任務(wù)目標(biāo),然后要求模型從兩個候選機(jī)器人設(shè)計中選擇性能更佳的一個。

圖片

數(shù)據(jù)生成流程

  1. 設(shè)計空間定義:在 5×5 的基于體素的設(shè)計空間中進(jìn)行機(jī)器人形態(tài)演化,每個體素代表一種材料類型(空、剛性、軟性、水平驅(qū)動器或垂直驅(qū)動器)。
  2. 進(jìn)化過程:從 30 個隨機(jī)生成的獨(dú)特機(jī)器人設(shè)計開始,使用經(jīng)過 PPO(近端策略優(yōu)化)訓(xùn)練的控制器評估每個機(jī)器人。
  3. 選擇與變異:保留每代中表現(xiàn)最佳的 50% 機(jī)器人,其余通過變異產(chǎn)生后代,確保設(shè)計多樣性。

測試任務(wù)多樣性

基準(zhǔn)測試包含 12 種不同的任務(wù)環(huán)境,涵蓋:

  • 運(yùn)動任務(wù)(如平地行走、橋梁行走)
  • 物體操作(如推動、攜帶)
  • 攀爬與平衡任務(wù)

圖片

不同結(jié)構(gòu)的機(jī)器人的性能差異示意:

圖片

問題示例:

圖片

評估指標(biāo)

  1. 準(zhǔn)確率:模型生成與預(yù)期答案匹配的比例
  2. 一致性:衡量 LLM 響應(yīng)的可重復(fù)性
  3. 難度加權(quán)準(zhǔn)確率 (DWA):根據(jù)機(jī)器人任務(wù)性能的細(xì)微差異量化模型的判別能力

實驗結(jié)果

研究團(tuán)隊對四種最先進(jìn)的大型語言模型進(jìn)行了測試評估:GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。

圖片

主要發(fā)現(xiàn):

  1. 模型性能層次:Gemini-1.5-Pro 在簡單任務(wù)(68.75%)和困難任務(wù)(62.48%)中均表現(xiàn)最佳,其次是 Gemini-2.0-flash 和 Grok-2(準(zhǔn)確率約 66%),而 GPT-o3-mini 表現(xiàn)最弱。
  2. 任務(wù)難度敏感性:所有模型在更復(fù)雜的任務(wù)中準(zhǔn)確率均有下降,特別是當(dāng)需要區(qū)分細(xì)微性能差異的設(shè)計時。例如,Gemini-1.5-Pro 在 Walker-v0 任務(wù)中,簡單級別準(zhǔn)確率為 75.40%,困難級別則降至 65.20%。
  3. 模型在特定環(huán)境中的弱點(diǎn):在跳躍和雙向行走等任務(wù)中,所有模型均表現(xiàn)出明顯弱點(diǎn),這可能與這些任務(wù)需要精確時序控制或處理雙向決策相關(guān)。

性能分析:獎勵差異水平分析

為評估 LLM 在不同難度水平下選擇更優(yōu)設(shè)計的能力,研究團(tuán)隊采用了難度加權(quán)準(zhǔn)確率 (DWA) 指標(biāo)。該指標(biāo)特別關(guān)注模型在區(qū)分細(xì)微性能差異設(shè)計時的能力,對難度更高的問題(獎勵差異更?。┵x予更高權(quán)重。

不同 LLM 的全局 DWA 指標(biāo):

圖片

研究結(jié)果顯示,Gemini-1.5-Pro 在全球平均 DWA 方面表現(xiàn)最佳,達(dá)到 63.72%,這表明它在 RoboCrafter-QA 基準(zhǔn)測試中具有略微優(yōu)越的體現(xiàn)設(shè)計推理能力。

研究團(tuán)隊還可視化了不同獎勵差異水平下的錯誤分布情況,發(fā)現(xiàn) LLM 的大部分錯誤出現(xiàn)在 0.8-1.0 的高難度區(qū)間,這進(jìn)一步突顯了當(dāng)前模型在進(jìn)行細(xì)粒度設(shè)計區(qū)分方面的局限性。

圖片

提示設(shè)計消融研究

為確定影響 LLM 做出正確選擇的關(guān)鍵因素,研究團(tuán)隊針對提示設(shè)計進(jìn)行了消融研究,重點(diǎn)關(guān)注任務(wù)描述和驅(qū)動器描述對模型性能的影響。研究還進(jìn)行了一項實驗,修改提示指令,要求 LLM 選擇表現(xiàn)較差的設(shè)計而非較好的設(shè)計,以進(jìn)一步分析 LLM 決策過程的穩(wěn)健性。

提示設(shè)計消融研究結(jié)果:

圖片

消融研究結(jié)果揭示了任務(wù)描述和驅(qū)動器描述在促使語言模型選擇最優(yōu)設(shè)計中的關(guān)鍵作用:

  1. 任務(wù)描述的重要性:模糊任務(wù)描述 (NoEnv) 顯著降低了所有模型的性能,例如 GPT-o3-mini 的準(zhǔn)確率從 55.34% 降至 52.08%,Gemini-1.5-pro 從 69.75% 降至 62.50%,這強(qiáng)調(diào)了任務(wù)描述在引導(dǎo) LLM 決策過程中的重要性。
  2. 驅(qū)動器描述的影響有限:忽略驅(qū)動器描述 (NoAct) 對性能影響較小,性能保持穩(wěn)定或略有變化。這可能表明在缺乏驅(qū)動器信息的情況下,LLM 會假設(shè)驅(qū)動器能夠最大化設(shè)計的獎勵。
  3. 選擇較差設(shè)計的挑戰(zhàn):當(dāng)指示模型選擇較差的設(shè)計時,模型表現(xiàn)出比完整信息提示更低的準(zhǔn)確率(例如,Gemini-2.0-flash 從 66.62% 降至 58.45%),這表明它們在識別劣質(zhì)設(shè)計方面不太擅長,可能是由于訓(xùn)練偏向于選擇更好的設(shè)計所致。

這些發(fā)現(xiàn)強(qiáng)調(diào)了在設(shè)計選擇任務(wù)中,為最大化 LLM 性能提供全面任務(wù)描述的必要性。與此同時,研究也表明當(dāng)前模型在理解設(shè)計權(quán)衡和進(jìn)行反直覺選擇(如選擇較差設(shè)計)方面仍存在局限性,這可能需要通過更具針對性的訓(xùn)練或提示策略來解決。

總結(jié)與啟示

通過對獎勵差異水平的性能分析和提示設(shè)計消融研究,我們可以看出:

  1. 當(dāng)前最先進(jìn)的 LLM 在區(qū)分明顯不同的設(shè)計時表現(xiàn)良好,但在處理細(xì)微性能差異時仍面臨挑戰(zhàn)。
  2. 提供清晰、全面的任務(wù)描述對于 LLM 做出正確設(shè)計選擇至關(guān)重要。
  3. 模型表現(xiàn)出偏向選擇更優(yōu)設(shè)計的趨勢,這與其預(yù)訓(xùn)練方式可能有關(guān)。

這些發(fā)現(xiàn)為利用 LLM 進(jìn)行軟體機(jī)器人設(shè)計提供了重要指導(dǎo),同時也揭示了未來改進(jìn)方向:可能需要開發(fā)針對體現(xiàn)設(shè)計的特定訓(xùn)練策略,或構(gòu)建更復(fù)雜的提示框架,以提高模型在處理細(xì)微設(shè)計權(quán)衡時的性能。

實用價值:LLM 輔助機(jī)器人設(shè)計初始化

除了評估模型選擇能力外,研究還探索了 LLM 在設(shè)計初始化中的應(yīng)用。通過提供參考環(huán)境中的高獎勵和低獎勵設(shè)計實例,研究測試了 LLM 是否能為新環(huán)境生成可行的初始設(shè)計。

圖片

實驗結(jié)果表明:

  • 具有參考知識的 LLM 生成的設(shè)計全部有效,平均獎勵值達(dá) 0.115,方差僅為 0.035。
  • 無參考知識的設(shè)計中僅 38% 有效,平均獎勵為 - 0.607。
  • 隨機(jī)基線雖然產(chǎn)生了 100% 有效設(shè)計,但平均獎勵較低(0.044),方差高(0.405)

這表明 LLM 能夠有效地遷移知識,在零樣本設(shè)計生成中表現(xiàn)出色。

研究結(jié)論與展望

RoboCrafter-QA 基準(zhǔn)測試為評估多模態(tài) LLM 在軟體機(jī)器人設(shè)計中的表現(xiàn)提供了寶貴工具。研究發(fā)現(xiàn),雖然當(dāng)前模型在簡單設(shè)計選擇上表現(xiàn)良好,但在處理細(xì)微權(quán)衡和復(fù)雜環(huán)境時仍面臨挑戰(zhàn)。

未來研究方向:

  1. 探索 LLM 驅(qū)動的控制策略優(yōu)化
  2. 擴(kuò)展設(shè)計空間復(fù)雜性
  3. 研究仿真到現(xiàn)實的遷移,包括材料特性和控制器可遷移性
  4. 整合多模態(tài)提示(視覺、觸覺)增強(qiáng) LLM 的設(shè)計理解
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2013-01-18 09:05:35

設(shè)計需求

2022-01-05 22:00:52

機(jī)器人軟體機(jī)器人

2023-08-25 15:40:24

2021-03-13 08:00:59

機(jī)器人AI人工智能

2025-01-22 08:30:00

2010-09-06 08:52:00

CSS選擇器

2019-08-27 11:15:20

機(jī)器人人工智能編程

2023-03-14 13:57:22

狀態(tài)機(jī)聊天機(jī)器人

2024-09-29 06:55:37

2021-03-25 09:25:55

機(jī)器人人工智能系統(tǒng)

2017-05-25 12:05:03

機(jī)器人軟體機(jī)器人大蜘蛛

2019-08-02 09:25:57

機(jī)器人人工智能系統(tǒng)

2024-09-02 08:30:00

大模型AI

2023-06-29 15:04:21

微軟ChatGPT

2024-12-18 13:24:30

谷歌AI大語言模型

2023-05-23 09:56:14

機(jī)器人谷歌

2024-12-13 15:41:46

2022-04-18 14:29:57

人工智能強(qiáng)化學(xué)習(xí)機(jī)器人

2023-06-19 07:32:55

聊天機(jī)器人ChatGPT

2021-01-09 23:00:48

機(jī)器人工程師醫(yī)學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號