自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="bbnfp"><strong id="bbnfp"></strong></u>

<sup id="bbnfp"><big id="bbnfp"></big></sup>

<em id="bbnfp"><big id="bbnfp"></big></em><sub id="bbnfp"></sub>

<sub id="bbnfp"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大語言模型變身軟體機(jī)器人設(shè)計「自然選擇器」，GPT、Gemini、Grok爭做最佳

作者：機(jī)器之心 2025-04-07 09:52:00

人工智能新聞

這項研究為 AI 輔助軟體機(jī)器人設(shè)計開辟了嶄新道路，有望實現(xiàn)更自動化、更智能的設(shè)計流程。

大型語言模型 (LLM) 在軟體機(jī)器人設(shè)計領(lǐng)域展現(xiàn)出了令人振奮的應(yīng)用潛力。密歇根大學(xué)安娜堡分校的研究團(tuán)隊開發(fā)了一個名為「RoboCrafter-QA」的基準(zhǔn)測試，用于評估 LLM 在軟體機(jī)器人設(shè)計中的表現(xiàn)，探索了這些模型能否擔(dān)任機(jī)器人設(shè)計的「自然選擇器」角色。

這項研究為 AI 輔助軟體機(jī)器人設(shè)計開辟了嶄新道路，有望實現(xiàn)更自動化、更智能的設(shè)計流程。

作者： Changhe Chen, Xiaohao Xu, Xiangdong Wang, Xiaonan Huang
機(jī)構(gòu)：密歇根大學(xué)安娜堡分校
原論文： Large Language Models as Natural Selector for Embodied Soft Robot Design
Github：https://github.com/AisenGinn/evogym_data_generation
視頻：https://youtu.be/bM_Ez7Da4ME

研究背景

軟體機(jī)器人相比傳統(tǒng)剛性機(jī)器人具有顯著優(yōu)勢，特別是在復(fù)雜、非結(jié)構(gòu)化和動態(tài)環(huán)境中，其固有的柔順性能夠?qū)崿F(xiàn)更安全、更適應(yīng)性強(qiáng)的交互。然而，軟體機(jī)器人設(shè)計面臨巨大挑戰(zhàn)：

與剛性機(jī)器人明確定義的運(yùn)動鏈不同，軟體機(jī)器人擁有幾乎無限的自由度
非線性材料特性復(fù)雜
需要精密協(xié)調(diào)形態(tài)、驅(qū)動和控制系統(tǒng)

這些因素使軟體機(jī)器人設(shè)計成為一項高度挑戰(zhàn)性的多學(xué)科問題，傳統(tǒng)上依賴專家直覺、迭代原型設(shè)計和計算成本高昂的模擬。

研究創(chuàng)新：從生物進(jìn)化到 AI 驅(qū)動設(shè)計

研究團(tuán)隊提出了生物和機(jī)器人設(shè)計范式的概念性轉(zhuǎn)變：

生物進(jìn)化：通過自然選擇壓力驅(qū)動，但進(jìn)程緩慢且受限。
人類工程設(shè)計：由人類直覺和專業(yè)知識引導(dǎo)，但仍受人類認(rèn)知能力限制。
AI 驅(qū)動設(shè)計：LLM 作為「自然選擇器」，利用其龐大的知識庫評估和指導(dǎo)軟體機(jī)器人的設(shè)計。

RoboCrafter-QA 基準(zhǔn)測試

研究團(tuán)隊開發(fā)的 RoboCrafter-QA 基準(zhǔn)測試專門用于評估多模態(tài) LLM 對軟體機(jī)器人設(shè)計理解的能力。該測試采用問答形式，為 LLM 提供環(huán)境描述和任務(wù)目標(biāo)，然后要求模型從兩個候選機(jī)器人設(shè)計中選擇性能更佳的一個。

數(shù)據(jù)生成流程

設(shè)計空間定義：在 5×5 的基于體素的設(shè)計空間中進(jìn)行機(jī)器人形態(tài)演化，每個體素代表一種材料類型（空、剛性、軟性、水平驅(qū)動器或垂直驅(qū)動器）。
進(jìn)化過程：從 30 個隨機(jī)生成的獨(dú)特機(jī)器人設(shè)計開始，使用經(jīng)過 PPO（近端策略優(yōu)化）訓(xùn)練的控制器評估每個機(jī)器人。
選擇與變異：保留每代中表現(xiàn)最佳的 50% 機(jī)器人，其余通過變異產(chǎn)生后代，確保設(shè)計多樣性。

測試任務(wù)多樣性

基準(zhǔn)測試包含 12 種不同的任務(wù)環(huán)境，涵蓋：

運(yùn)動任務(wù)（如平地行走、橋梁行走）
物體操作（如推動、攜帶）
攀爬與平衡任務(wù)

不同結(jié)構(gòu)的機(jī)器人的性能差異示意：

問題示例：

評估指標(biāo)

準(zhǔn)確率：模型生成與預(yù)期答案匹配的比例
一致性：衡量 LLM 響應(yīng)的可重復(fù)性
難度加權(quán)準(zhǔn)確率 (DWA)：根據(jù)機(jī)器人任務(wù)性能的細(xì)微差異量化模型的判別能力

實驗結(jié)果

研究團(tuán)隊對四種最先進(jìn)的大型語言模型進(jìn)行了測試評估：GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。

主要發(fā)現(xiàn)：

模型性能層次：Gemini-1.5-Pro 在簡單任務(wù)（68.75%）和困難任務(wù)（62.48%）中均表現(xiàn)最佳，其次是 Gemini-2.0-flash 和 Grok-2（準(zhǔn)確率約 66%），而 GPT-o3-mini 表現(xiàn)最弱。
任務(wù)難度敏感性：所有模型在更復(fù)雜的任務(wù)中準(zhǔn)確率均有下降，特別是當(dāng)需要區(qū)分細(xì)微性能差異的設(shè)計時。例如，Gemini-1.5-Pro 在 Walker-v0 任務(wù)中，簡單級別準(zhǔn)確率為 75.40%，困難級別則降至 65.20%。
模型在特定環(huán)境中的弱點(diǎn)：在跳躍和雙向行走等任務(wù)中，所有模型均表現(xiàn)出明顯弱點(diǎn)，這可能與這些任務(wù)需要精確時序控制或處理雙向決策相關(guān)。

性能分析：獎勵差異水平分析

為評估 LLM 在不同難度水平下選擇更優(yōu)設(shè)計的能力，研究團(tuán)隊采用了難度加權(quán)準(zhǔn)確率 (DWA) 指標(biāo)。該指標(biāo)特別關(guān)注模型在區(qū)分細(xì)微性能差異設(shè)計時的能力，對難度更高的問題（獎勵差異更?。┵x予更高權(quán)重。

不同 LLM 的全局 DWA 指標(biāo)：

研究結(jié)果顯示，Gemini-1.5-Pro 在全球平均 DWA 方面表現(xiàn)最佳，達(dá)到 63.72%，這表明它在 RoboCrafter-QA 基準(zhǔn)測試中具有略微優(yōu)越的體現(xiàn)設(shè)計推理能力。

研究團(tuán)隊還可視化了不同獎勵差異水平下的錯誤分布情況，發(fā)現(xiàn) LLM 的大部分錯誤出現(xiàn)在 0.8-1.0 的高難度區(qū)間，這進(jìn)一步突顯了當(dāng)前模型在進(jìn)行細(xì)粒度設(shè)計區(qū)分方面的局限性。

提示設(shè)計消融研究

為確定影響 LLM 做出正確選擇的關(guān)鍵因素，研究團(tuán)隊針對提示設(shè)計進(jìn)行了消融研究，重點(diǎn)關(guān)注任務(wù)描述和驅(qū)動器描述對模型性能的影響。研究還進(jìn)行了一項實驗，修改提示指令，要求 LLM 選擇表現(xiàn)較差的設(shè)計而非較好的設(shè)計，以進(jìn)一步分析 LLM 決策過程的穩(wěn)健性。

提示設(shè)計消融研究結(jié)果：

消融研究結(jié)果揭示了任務(wù)描述和驅(qū)動器描述在促使語言模型選擇最優(yōu)設(shè)計中的關(guān)鍵作用：

任務(wù)描述的重要性：模糊任務(wù)描述 (NoEnv) 顯著降低了所有模型的性能，例如 GPT-o3-mini 的準(zhǔn)確率從 55.34% 降至 52.08%，Gemini-1.5-pro 從 69.75% 降至 62.50%，這強(qiáng)調(diào)了任務(wù)描述在引導(dǎo) LLM 決策過程中的重要性。
驅(qū)動器描述的影響有限：忽略驅(qū)動器描述 (NoAct) 對性能影響較小，性能保持穩(wěn)定或略有變化。這可能表明在缺乏驅(qū)動器信息的情況下，LLM 會假設(shè)驅(qū)動器能夠最大化設(shè)計的獎勵。
選擇較差設(shè)計的挑戰(zhàn)：當(dāng)指示模型選擇較差的設(shè)計時，模型表現(xiàn)出比完整信息提示更低的準(zhǔn)確率（例如，Gemini-2.0-flash 從 66.62% 降至 58.45%），這表明它們在識別劣質(zhì)設(shè)計方面不太擅長，可能是由于訓(xùn)練偏向于選擇更好的設(shè)計所致。

這些發(fā)現(xiàn)強(qiáng)調(diào)了在設(shè)計選擇任務(wù)中，為最大化 LLM 性能提供全面任務(wù)描述的必要性。與此同時，研究也表明當(dāng)前模型在理解設(shè)計權(quán)衡和進(jìn)行反直覺選擇（如選擇較差設(shè)計）方面仍存在局限性，這可能需要通過更具針對性的訓(xùn)練或提示策略來解決。

總結(jié)與啟示

通過對獎勵差異水平的性能分析和提示設(shè)計消融研究，我們可以看出：

當(dāng)前最先進(jìn)的 LLM 在區(qū)分明顯不同的設(shè)計時表現(xiàn)良好，但在處理細(xì)微性能差異時仍面臨挑戰(zhàn)。
提供清晰、全面的任務(wù)描述對于 LLM 做出正確設(shè)計選擇至關(guān)重要。
模型表現(xiàn)出偏向選擇更優(yōu)設(shè)計的趨勢，這與其預(yù)訓(xùn)練方式可能有關(guān)。

這些發(fā)現(xiàn)為利用 LLM 進(jìn)行軟體機(jī)器人設(shè)計提供了重要指導(dǎo)，同時也揭示了未來改進(jìn)方向：可能需要開發(fā)針對體現(xiàn)設(shè)計的特定訓(xùn)練策略，或構(gòu)建更復(fù)雜的提示框架，以提高模型在處理細(xì)微設(shè)計權(quán)衡時的性能。

實用價值：LLM 輔助機(jī)器人設(shè)計初始化

除了評估模型選擇能力外，研究還探索了 LLM 在設(shè)計初始化中的應(yīng)用。通過提供參考環(huán)境中的高獎勵和低獎勵設(shè)計實例，研究測試了 LLM 是否能為新環(huán)境生成可行的初始設(shè)計。

實驗結(jié)果表明：

具有參考知識的 LLM 生成的設(shè)計全部有效，平均獎勵值達(dá) 0.115，方差僅為 0.035。
無參考知識的設(shè)計中僅 38% 有效，平均獎勵為 - 0.607。
隨機(jī)基線雖然產(chǎn)生了 100% 有效設(shè)計，但平均獎勵較低（0.044），方差高（0.405）

這表明 LLM 能夠有效地遷移知識，在零樣本設(shè)計生成中表現(xiàn)出色。

研究結(jié)論與展望

RoboCrafter-QA 基準(zhǔn)測試為評估多模態(tài) LLM 在軟體機(jī)器人設(shè)計中的表現(xiàn)提供了寶貴工具。研究發(fā)現(xiàn)，雖然當(dāng)前模型在簡單設(shè)計選擇上表現(xiàn)良好，但在處理細(xì)微權(quán)衡和復(fù)雜環(huán)境時仍面臨挑戰(zhàn)。

未來研究方向：

探索 LLM 驅(qū)動的控制策略優(yōu)化
擴(kuò)展設(shè)計空間復(fù)雜性
研究仿真到現(xiàn)實的遷移，包括材料特性和控制器可遷移性
整合多模態(tài)提示（視覺、觸覺）增強(qiáng) LLM 的設(shè)計理解

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 機(jī)器人智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="ln3hx"></style><blockquote id="ln3hx"></blockquote>

<style id="ln3hx"></style>