自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文本、圖像、點(diǎn)云任意模態(tài)輸入,AI能夠一鍵生成高質(zhì)量CAD模型了

人工智能 新聞
該項(xiàng)目由憶生科技聯(lián)合香港大學(xué)、上海科技大學(xué)共同完成,是全球首個(gè)同時(shí)支持文本描述、圖像、點(diǎn)云等多模態(tài)輸入的計(jì)算機(jī)輔助設(shè)計(jì)(CAD)生成大模型。

本文第一作者為上??萍即髮W(xué)信息學(xué)院碩士生徐京偉和憶生科技的王晨宇,指導(dǎo)老師為香港大學(xué)的馬毅教授和高盛華教授。王晨宇畢業(yè)于上海科技大學(xué)并獲得工學(xué)碩士學(xué)位。其所在的憶生科技由馬毅教授于 23 年底創(chuàng)立,致力于打造完整、自主、自洽的機(jī)器智能系統(tǒng)。

該項(xiàng)目由憶生科技聯(lián)合香港大學(xué)、上??萍即髮W(xué)共同完成,是全球首個(gè)同時(shí)支持文本描述、圖像、點(diǎn)云等多模態(tài)輸入的計(jì)算機(jī)輔助設(shè)計(jì)(CAD)生成大模型。

計(jì)算機(jī)輔助設(shè)計(jì)(Computer-Aided Design,簡稱 CAD)軟件是工業(yè)軟件的重要分支,也是工業(yè)設(shè)計(jì)流程中的核心工具。然而,目前的 CAD 軟件普遍缺乏簡易的交互工具,這在一定程度上限制了未曾接觸過 CAD 的用戶嘗試和探索的可能性。對(duì)于 CAD 建模從業(yè)者而言,多模態(tài)大模型技術(shù)的快速發(fā)展尚未充分轉(zhuǎn)化為 CAD 領(lǐng)域?qū)嶋H應(yīng)用的便利性和效率提升。如果能夠通過多模態(tài)交互工具有效優(yōu)化建模流程,提升效率、節(jié)約時(shí)間與精力,不僅可以進(jìn)一步釋放專業(yè)用戶的創(chuàng)造潛能,還將為相關(guān)產(chǎn)業(yè)的發(fā)展注入新的活力。

為應(yīng)對(duì)這一挑戰(zhàn),項(xiàng)目團(tuán)隊(duì)構(gòu)建了首個(gè)覆蓋文本、圖像和點(diǎn)云輸入的多模態(tài) CAD 數(shù)據(jù)集 Omni-CAD。該數(shù)據(jù)集致力于賦能多模態(tài)大語言模型,使其能夠基于條件輸入生成高質(zhì)量的 CAD 模型。與此同時(shí),針對(duì) CAD 模型的拓?fù)滟|(zhì)量、空間封閉性等核心屬性,團(tuán)隊(duì)還設(shè)計(jì)了一系列創(chuàng)新的評(píng)估指標(biāo),為模型性能提供更全面的衡量標(biāo)準(zhǔn)。借助這一技術(shù),用戶只需輸入簡單的文本指令,或上傳目標(biāo)形狀的圖像,即可快速生成符合要求的 CAD 模型。這一突破不僅降低了非專業(yè)用戶的使用門檻,激發(fā)了更多人參與 CAD 設(shè)計(jì)的興趣,還為 CAD 建模從業(yè)者提供了高效可靠的工具支持。

圖片

  • 論文標(biāo)題:CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
  • 論文地址:https://arxiv.org/pdf/2411.04954
  • 項(xiàng)目主頁:https://cad-mllm.github.io/

研究背景計(jì)算機(jī)輔助設(shè)計(jì)(CAD)技術(shù)通過數(shù)字化工具,幫助設(shè)計(jì)師創(chuàng)建、修改和優(yōu)化復(fù)雜對(duì)象,廣泛應(yīng)用于工業(yè)設(shè)計(jì)與制造。但傳統(tǒng)的流程較為復(fù)雜,對(duì)專業(yè)知識(shí)有較高要求,導(dǎo)致非專業(yè)用戶難以參與設(shè)計(jì)。如何降低使用門檻,讓非專業(yè)人士通過簡單指令完成設(shè)計(jì)構(gòu)想,已成為該領(lǐng)域亟待解決的挑戰(zhàn)之一。盡管之前一些工作已經(jīng)在探索 CAD 的生成任務(wù),但這些方法抑或難以滿足用戶對(duì)交互設(shè)計(jì)的需求,抑或只能針對(duì)特定的輸入進(jìn)行生成,因此我們希望提供一個(gè)統(tǒng)一的框架能夠處理不同或多種輸入條件的 CAD 生成任務(wù)。

而另一方面,盡管多模態(tài)大模型(MLLMs)展現(xiàn)了跨模態(tài)生成的潛力,但在 CAD 領(lǐng)域依然面臨挑戰(zhàn)。尤其是在如何高效表征各種模態(tài)和 CAD 模型上,同時(shí),數(shù)據(jù)集匱乏問題也一直是一大瓶頸。因此,我們提出了 CAD-MLLM,首個(gè)支持文本、圖像和點(diǎn)云三種模態(tài)及其組合模態(tài)輸入的以命令序列來表征的參數(shù)化 CAD 大模型,并搭配構(gòu)建了一個(gè)超過 45 萬條數(shù)據(jù)的多模態(tài) CAD 數(shù)據(jù)集 Omni-CAD,推進(jìn)該領(lǐng)域的研究。

技術(shù)創(chuàng)新

1. 首個(gè)支持多模態(tài)輸入的參數(shù)化 CAD 生成多模態(tài)大模型

我們提出了一個(gè)能夠同時(shí)處理文本、圖像和點(diǎn)云,最多三種模態(tài)輸入數(shù)據(jù)的模型。圖像和點(diǎn)云輸入首先通過一個(gè)凍結(jié)的編碼器提取特征,經(jīng)投影層對(duì)齊到大語言模型(LLM)的特征空間。隨后,將各種模態(tài)的特征進(jìn)行整合,并利用低秩適應(yīng)(LoRA)對(duì) LLM 進(jìn)行微調(diào),實(shí)現(xiàn)基于多模態(tài)輸入數(shù)據(jù)的精確 CAD 模型生成。

圖片

2. 首個(gè)多模態(tài) CAD 數(shù)據(jù)集

為了支持模型訓(xùn)練,我們設(shè)計(jì)了一套全面的數(shù)據(jù)構(gòu)造和標(biāo)注管道,構(gòu)建了包含 45 萬條的多模態(tài) CAD 模型數(shù)據(jù)集 Omni-CAD。每條數(shù)據(jù)包含對(duì)應(yīng)的 CAD 模型構(gòu)造命令序列,以及文本描述、8 個(gè)不同視角的圖像(下圖隨機(jī)挑其中 4 個(gè)視角展示)以及點(diǎn)云數(shù)據(jù),極大地填補(bǔ)了 CAD 多模態(tài)數(shù)據(jù)資源的空白,也有助于推動(dòng) CAD 生成領(lǐng)域的進(jìn)一步發(fā)展。

圖片

圖片

3. 評(píng)估指標(biāo)

在評(píng)估指標(biāo)上,之前的工作更多聚焦在模型的重建質(zhì)量和結(jié)構(gòu)保真度上,而我們針對(duì) CAD 模型的特性,基于最終生成的 CAD 模型的拓?fù)滟|(zhì)量和空間封閉性,創(chuàng)新性地提出了四種量化指標(biāo)。其中,Segment Error(SegE)檢測 CAD 模型節(jié)點(diǎn)連接分段的準(zhǔn)確性,Dangling Edge Length (DangEL) 評(píng)估懸邊的比例來衡量生成模型流形的保真度,Self-Intersection Ratio (SIR) 檢測生成模型中的自相交面問題。而 Flux Enclosure Error (FluxEE) 則通過高斯散度原理,計(jì)算常矢量場穿過生成表面的通量,評(píng)估模型的空間封閉性。

性能評(píng)估

1. 基于點(diǎn)云的 CAD 模型生成性能

我們與多個(gè)點(diǎn)云重建或者基于點(diǎn)云生成的基準(zhǔn)工作進(jìn)行比較,評(píng)測結(jié)果展示出我們的方法在重建精度上表現(xiàn)出色。而在拓?fù)渫暾缘脑u(píng)估上,我們模型生成的 CAD 模型大多數(shù)生成結(jié)果都能保持嚴(yán)格的流形結(jié)構(gòu),沒有出現(xiàn)懸邊,具有較高的拓?fù)渫暾?。相比之下,基?zhǔn)模型在重建結(jié)果中往往存在許多懸空邊緣(如圖中藍(lán)線所示)。

圖片

圖片

圖片

2. 魯棒性測評(píng)

在基于點(diǎn)云生成 CAD 模型的比較實(shí)驗(yàn)中,我們針對(duì)兩種受干擾的輸入數(shù)據(jù)的情況進(jìn)行了測評(píng):添加噪聲的點(diǎn)云數(shù)據(jù)及部分點(diǎn)缺失的點(diǎn)云數(shù)據(jù)。在從測試集中隨機(jī)挑選的 1000 個(gè)樣本上,使用 Chamfer Distance 來衡量生成結(jié)果,在兩種情況下,CAD-MLLM 的性能均優(yōu)于基線工作,特別是在一些極端條件下,依然展現(xiàn)出了良好的性能。

圖片

圖片

3. 多模態(tài)數(shù)據(jù)訓(xùn)練必要性測評(píng)

我們通過三個(gè)實(shí)際場景來展示多模態(tài)數(shù)據(jù)訓(xùn)練對(duì)于模型生成能力的輔助提升,1)裁剪的點(diǎn)云數(shù)據(jù);2)帶有噪聲的點(diǎn)云數(shù)據(jù);3)雙視角圖像輸入。以上三種情況,單一模態(tài)數(shù)據(jù)的訓(xùn)練,會(huì)由于細(xì)節(jié)丟失或者視角限制使得輸入信息的不準(zhǔn)確,進(jìn)而導(dǎo)致生成結(jié)果的不完整或者不精準(zhǔn),而加入完整的模型的文本描述,可有效彌補(bǔ)未觀測到的部分,生成更為完整、精確的 CAD 模型。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-11 09:53:27

人工智能AI 圖像

2023-11-30 13:04:56

LCM圖像

2023-09-25 12:02:34

AI模型

2023-07-04 08:35:52

MetaGPT開源

2023-11-20 12:49:01

2023-08-28 13:06:47

2023-05-09 09:35:22

2025-01-17 11:05:00

模型訓(xùn)練

2024-07-04 10:13:18

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數(shù)程序

2019-02-20 17:43:18

2023-10-04 09:56:33

圖片AI

2023-05-12 16:10:13

數(shù)字經(jīng)濟(jì)

2022-08-01 16:36:50

算力

2024-03-04 12:32:20

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)