大語言模型變身軟體機(jī)器人設(shè)計「自然選擇器」,GPT、Gemini、Grok爭做最佳
大型語言模型 (LLM) 在軟體機(jī)器人設(shè)計領(lǐng)域展現(xiàn)出了令人振奮的應(yīng)用潛力。密歇根大學(xué)安娜堡分校的研究團(tuán)隊開發(fā)了一個名為「RoboCrafter-QA」的基準(zhǔn)測試,用于評估 LLM 在軟體機(jī)器人設(shè)計中的表現(xiàn),探索了這些模型能否擔(dān)任機(jī)器人設(shè)計的「自然選擇器」角色。
這項研究為 AI 輔助軟體機(jī)器人設(shè)計開辟了嶄新道路,有望實現(xiàn)更自動化、更智能的設(shè)計流程。
- 作者: Changhe Chen, Xiaohao Xu, Xiangdong Wang, Xiaonan Huang
- 機(jī)構(gòu): 密歇根大學(xué)安娜堡分校
- 原論文: Large Language Models as Natural Selector for Embodied Soft Robot Design
- Github:https://github.com/AisenGinn/evogym_data_generation
- 視頻:https://youtu.be/bM_Ez7Da4ME
研究背景
軟體機(jī)器人相比傳統(tǒng)剛性機(jī)器人具有顯著優(yōu)勢,特別是在復(fù)雜、非結(jié)構(gòu)化和動態(tài)環(huán)境中,其固有的柔順性能夠?qū)崿F(xiàn)更安全、更適應(yīng)性強(qiáng)的交互。然而,軟體機(jī)器人設(shè)計面臨巨大挑戰(zhàn):
- 與剛性機(jī)器人明確定義的運(yùn)動鏈不同,軟體機(jī)器人擁有幾乎無限的自由度
- 非線性材料特性復(fù)雜
- 需要精密協(xié)調(diào)形態(tài)、驅(qū)動和控制系統(tǒng)
這些因素使軟體機(jī)器人設(shè)計成為一項高度挑戰(zhàn)性的多學(xué)科問題,傳統(tǒng)上依賴專家直覺、迭代原型設(shè)計和計算成本高昂的模擬。
研究創(chuàng)新:從生物進(jìn)化到 AI 驅(qū)動設(shè)計
研究團(tuán)隊提出了生物和機(jī)器人設(shè)計范式的概念性轉(zhuǎn)變:
- 生物進(jìn)化:通過自然選擇壓力驅(qū)動,但進(jìn)程緩慢且受限。
- 人類工程設(shè)計:由人類直覺和專業(yè)知識引導(dǎo),但仍受人類認(rèn)知能力限制。
- AI 驅(qū)動設(shè)計:LLM 作為「自然選擇器」,利用其龐大的知識庫評估和指導(dǎo)軟體機(jī)器人的設(shè)計。
RoboCrafter-QA 基準(zhǔn)測試
研究團(tuán)隊開發(fā)的 RoboCrafter-QA 基準(zhǔn)測試專門用于評估多模態(tài) LLM 對軟體機(jī)器人設(shè)計理解的能力。該測試采用問答形式,為 LLM 提供環(huán)境描述和任務(wù)目標(biāo),然后要求模型從兩個候選機(jī)器人設(shè)計中選擇性能更佳的一個。
數(shù)據(jù)生成流程
- 設(shè)計空間定義:在 5×5 的基于體素的設(shè)計空間中進(jìn)行機(jī)器人形態(tài)演化,每個體素代表一種材料類型(空、剛性、軟性、水平驅(qū)動器或垂直驅(qū)動器)。
- 進(jìn)化過程:從 30 個隨機(jī)生成的獨(dú)特機(jī)器人設(shè)計開始,使用經(jīng)過 PPO(近端策略優(yōu)化)訓(xùn)練的控制器評估每個機(jī)器人。
- 選擇與變異:保留每代中表現(xiàn)最佳的 50% 機(jī)器人,其余通過變異產(chǎn)生后代,確保設(shè)計多樣性。
測試任務(wù)多樣性
基準(zhǔn)測試包含 12 種不同的任務(wù)環(huán)境,涵蓋:
- 運(yùn)動任務(wù)(如平地行走、橋梁行走)
- 物體操作(如推動、攜帶)
- 攀爬與平衡任務(wù)
不同結(jié)構(gòu)的機(jī)器人的性能差異示意:
問題示例:
評估指標(biāo)
- 準(zhǔn)確率:模型生成與預(yù)期答案匹配的比例
- 一致性:衡量 LLM 響應(yīng)的可重復(fù)性
- 難度加權(quán)準(zhǔn)確率 (DWA):根據(jù)機(jī)器人任務(wù)性能的細(xì)微差異量化模型的判別能力
實驗結(jié)果
研究團(tuán)隊對四種最先進(jìn)的大型語言模型進(jìn)行了測試評估:GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。
主要發(fā)現(xiàn):
- 模型性能層次:Gemini-1.5-Pro 在簡單任務(wù)(68.75%)和困難任務(wù)(62.48%)中均表現(xiàn)最佳,其次是 Gemini-2.0-flash 和 Grok-2(準(zhǔn)確率約 66%),而 GPT-o3-mini 表現(xiàn)最弱。
- 任務(wù)難度敏感性:所有模型在更復(fù)雜的任務(wù)中準(zhǔn)確率均有下降,特別是當(dāng)需要區(qū)分細(xì)微性能差異的設(shè)計時。例如,Gemini-1.5-Pro 在 Walker-v0 任務(wù)中,簡單級別準(zhǔn)確率為 75.40%,困難級別則降至 65.20%。
- 模型在特定環(huán)境中的弱點(diǎn):在跳躍和雙向行走等任務(wù)中,所有模型均表現(xiàn)出明顯弱點(diǎn),這可能與這些任務(wù)需要精確時序控制或處理雙向決策相關(guān)。
性能分析:獎勵差異水平分析
為評估 LLM 在不同難度水平下選擇更優(yōu)設(shè)計的能力,研究團(tuán)隊采用了難度加權(quán)準(zhǔn)確率 (DWA) 指標(biāo)。該指標(biāo)特別關(guān)注模型在區(qū)分細(xì)微性能差異設(shè)計時的能力,對難度更高的問題(獎勵差異更?。┵x予更高權(quán)重。
不同 LLM 的全局 DWA 指標(biāo):
研究結(jié)果顯示,Gemini-1.5-Pro 在全球平均 DWA 方面表現(xiàn)最佳,達(dá)到 63.72%,這表明它在 RoboCrafter-QA 基準(zhǔn)測試中具有略微優(yōu)越的體現(xiàn)設(shè)計推理能力。
研究團(tuán)隊還可視化了不同獎勵差異水平下的錯誤分布情況,發(fā)現(xiàn) LLM 的大部分錯誤出現(xiàn)在 0.8-1.0 的高難度區(qū)間,這進(jìn)一步突顯了當(dāng)前模型在進(jìn)行細(xì)粒度設(shè)計區(qū)分方面的局限性。
提示設(shè)計消融研究
為確定影響 LLM 做出正確選擇的關(guān)鍵因素,研究團(tuán)隊針對提示設(shè)計進(jìn)行了消融研究,重點(diǎn)關(guān)注任務(wù)描述和驅(qū)動器描述對模型性能的影響。研究還進(jìn)行了一項實驗,修改提示指令,要求 LLM 選擇表現(xiàn)較差的設(shè)計而非較好的設(shè)計,以進(jìn)一步分析 LLM 決策過程的穩(wěn)健性。
提示設(shè)計消融研究結(jié)果:
消融研究結(jié)果揭示了任務(wù)描述和驅(qū)動器描述在促使語言模型選擇最優(yōu)設(shè)計中的關(guān)鍵作用:
- 任務(wù)描述的重要性:模糊任務(wù)描述 (NoEnv) 顯著降低了所有模型的性能,例如 GPT-o3-mini 的準(zhǔn)確率從 55.34% 降至 52.08%,Gemini-1.5-pro 從 69.75% 降至 62.50%,這強(qiáng)調(diào)了任務(wù)描述在引導(dǎo) LLM 決策過程中的重要性。
- 驅(qū)動器描述的影響有限:忽略驅(qū)動器描述 (NoAct) 對性能影響較小,性能保持穩(wěn)定或略有變化。這可能表明在缺乏驅(qū)動器信息的情況下,LLM 會假設(shè)驅(qū)動器能夠最大化設(shè)計的獎勵。
- 選擇較差設(shè)計的挑戰(zhàn):當(dāng)指示模型選擇較差的設(shè)計時,模型表現(xiàn)出比完整信息提示更低的準(zhǔn)確率(例如,Gemini-2.0-flash 從 66.62% 降至 58.45%),這表明它們在識別劣質(zhì)設(shè)計方面不太擅長,可能是由于訓(xùn)練偏向于選擇更好的設(shè)計所致。
這些發(fā)現(xiàn)強(qiáng)調(diào)了在設(shè)計選擇任務(wù)中,為最大化 LLM 性能提供全面任務(wù)描述的必要性。與此同時,研究也表明當(dāng)前模型在理解設(shè)計權(quán)衡和進(jìn)行反直覺選擇(如選擇較差設(shè)計)方面仍存在局限性,這可能需要通過更具針對性的訓(xùn)練或提示策略來解決。
總結(jié)與啟示
通過對獎勵差異水平的性能分析和提示設(shè)計消融研究,我們可以看出:
- 當(dāng)前最先進(jìn)的 LLM 在區(qū)分明顯不同的設(shè)計時表現(xiàn)良好,但在處理細(xì)微性能差異時仍面臨挑戰(zhàn)。
- 提供清晰、全面的任務(wù)描述對于 LLM 做出正確設(shè)計選擇至關(guān)重要。
- 模型表現(xiàn)出偏向選擇更優(yōu)設(shè)計的趨勢,這與其預(yù)訓(xùn)練方式可能有關(guān)。
這些發(fā)現(xiàn)為利用 LLM 進(jìn)行軟體機(jī)器人設(shè)計提供了重要指導(dǎo),同時也揭示了未來改進(jìn)方向:可能需要開發(fā)針對體現(xiàn)設(shè)計的特定訓(xùn)練策略,或構(gòu)建更復(fù)雜的提示框架,以提高模型在處理細(xì)微設(shè)計權(quán)衡時的性能。
實用價值:LLM 輔助機(jī)器人設(shè)計初始化
除了評估模型選擇能力外,研究還探索了 LLM 在設(shè)計初始化中的應(yīng)用。通過提供參考環(huán)境中的高獎勵和低獎勵設(shè)計實例,研究測試了 LLM 是否能為新環(huán)境生成可行的初始設(shè)計。
實驗結(jié)果表明:
- 具有參考知識的 LLM 生成的設(shè)計全部有效,平均獎勵值達(dá) 0.115,方差僅為 0.035。
- 無參考知識的設(shè)計中僅 38% 有效,平均獎勵為 - 0.607。
- 隨機(jī)基線雖然產(chǎn)生了 100% 有效設(shè)計,但平均獎勵較低(0.044),方差高(0.405)
這表明 LLM 能夠有效地遷移知識,在零樣本設(shè)計生成中表現(xiàn)出色。
研究結(jié)論與展望
RoboCrafter-QA 基準(zhǔn)測試為評估多模態(tài) LLM 在軟體機(jī)器人設(shè)計中的表現(xiàn)提供了寶貴工具。研究發(fā)現(xiàn),雖然當(dāng)前模型在簡單設(shè)計選擇上表現(xiàn)良好,但在處理細(xì)微權(quán)衡和復(fù)雜環(huán)境時仍面臨挑戰(zhàn)。
未來研究方向:
- 探索 LLM 驅(qū)動的控制策略優(yōu)化
- 擴(kuò)展設(shè)計空間復(fù)雜性
- 研究仿真到現(xiàn)實的遷移,包括材料特性和控制器可遷移性
- 整合多模態(tài)提示(視覺、觸覺)增強(qiáng) LLM 的設(shè)計理解