Cephalo:專(zhuān)門(mén)用于仿生設(shè)計(jì)的多模態(tài)視覺(jué)大型語(yǔ)言模型 原創(chuàng) 精華
材料科學(xué)側(cè)重于研究和開(kāi)發(fā)具有特定性能和應(yīng)用的材料。該領(lǐng)域的研究人員旨在了解材料的結(jié)構(gòu)、性能和性能,以創(chuàng)新和改進(jìn)現(xiàn)有技術(shù),并為各種應(yīng)用創(chuàng)造新材料。該學(xué)科結(jié)合了化學(xué)、物理和工程原理,以應(yīng)對(duì)挑戰(zhàn)并改進(jìn)航空航天、汽車(chē)、電子和醫(yī)療保健中使用的材料。
材料科學(xué)面臨的一個(gè)重大挑戰(zhàn)是整合來(lái)自科學(xué)文獻(xiàn)的大量視覺(jué)和文本數(shù)據(jù),傳統(tǒng)方法通常無(wú)法有效地組合這些數(shù)據(jù)類(lèi)型,從而限制了生成全面見(jiàn)解和解決方案的能力。難點(diǎn)在于從圖像中提取相關(guān)信息并將其與文本數(shù)據(jù)相關(guān)聯(lián),這對(duì)于推進(jìn)該領(lǐng)域的研究和應(yīng)用至關(guān)重要。
1.Cephalo
麻省理工學(xué)院(MIT)的研究人員推出了Cephalo,這是一系列專(zhuān)為材料科學(xué)應(yīng)用設(shè)計(jì)的多模態(tài)視覺(jué)語(yǔ)言模型(V-LLMs)。Cephalo旨在彌合視覺(jué)感知和語(yǔ)言理解之間的差距,以分析和設(shè)計(jì)仿生材料。
Cephalo 利用復(fù)雜的算法從科學(xué)文獻(xiàn)中檢測(cè)和分離圖像及其相應(yīng)的文本描述。它使用視覺(jué)編碼器和自回歸轉(zhuǎn)換器集成這些數(shù)據(jù),使模型能夠解釋復(fù)雜的視覺(jué)場(chǎng)景,生成準(zhǔn)確的語(yǔ)言描述,并有效地回答查詢。
該模型使用來(lái)自數(shù)千篇科學(xué)論文和以科學(xué)為重點(diǎn)的維基百科頁(yè)面的集成圖像和文本數(shù)據(jù)進(jìn)行訓(xùn)練。它展示了其處理復(fù)雜數(shù)據(jù)和提供有見(jiàn)地的分析的能力。
如上圖所示,Cephalo推出的模型在4B和12B之間,基座模型有Phi-3和Idefics-2,分別采用GPT-40和Idefics-2針對(duì)原始數(shù)據(jù)進(jìn)行提煉。當(dāng)然本項(xiàng)目還利用層合并技術(shù)形成更大規(guī)模的大模型以及嘗試采用MoE的方式進(jìn)行實(shí)驗(yàn)。緊接著來(lái)看看本次項(xiàng)目的成果,在各個(gè)領(lǐng)域的影響力還是巨大的。
2.特色1:語(yǔ)料構(gòu)成
圖像文本數(shù)據(jù)集的Token記長(zhǎng)度記數(shù)直方圖,a代表來(lái)至示來(lái)自維基百科,b代表來(lái)之論文語(yǔ)料庫(kù),原始說(shuō)明。c-e顯示了使用不同視覺(jué)文本模型處理的結(jié)果。c顯示了Idefics-2處理維基百科后的圖像描述的Token長(zhǎng)度。面板d和e顯示了使用Idefics-2和GPT-4o處理的論文語(yǔ)料庫(kù)數(shù)據(jù)集的結(jié)果。
GPT-4o數(shù)據(jù)集通常會(huì)產(chǎn)生更長(zhǎng)的描述,對(duì)內(nèi)容的詳細(xì)分析讓它提供了增強(qiáng)的推理能力和對(duì)圖像內(nèi)容的細(xì)致解釋的能力。所有Token均使用 Phi-3-Vision標(biāo)記器(tokenizer)完成。
上圖為從wiki和論文中獲取圖像分辨率的直方統(tǒng)計(jì)圖。相對(duì)而言,論文的圖片質(zhì)量普遍高一點(diǎn)。
為了開(kāi)發(fā)一種強(qiáng)大的數(shù)據(jù)集生成方法,研究人員使用PyMuPDF中的 fitz 庫(kù)從0到1實(shí)現(xiàn)全新的算法。該過(guò)程首先識(shí)別PDF中每頁(yè)的所有圖像。隨后找到以“Fig”或類(lèi)似標(biāo)識(shí)符開(kāi)頭的文本塊。然后該算法將這些文本塊與位于其下方的最近圖像進(jìn)行匹配。
匹配過(guò)程通過(guò)幾個(gè)清理步驟進(jìn)行改進(jìn),包括處理不同的圖像顏色圖和格式,以及刪除特定符號(hào),例如期刊添加到文檔中的符號(hào)。一些 PDF 產(chǎn)生了分割的圖形,需要額外的處理才能確保數(shù)據(jù)集的完整性。
通過(guò)與通用V-LLM(視覺(jué)大模型)共享圖像和原始標(biāo)題,并讓模型開(kāi)發(fā)圖像的全面描述,可以開(kāi)發(fā)用于訓(xùn)練的圖像文本對(duì)。研究人員同時(shí)使用開(kāi)源 V-LLM、Idefics2和GPT-4o來(lái)完成針對(duì)圖的信息提煉。作為替代方案,我們還探索了使用純文本的 LLM(例如,Phi-3-Bioinspired,它提供了另一種選擇。具有視覺(jué)功能的 LLM 來(lái)處理和提煉數(shù)據(jù)集通常更好,并提供更詳細(xì)和合理的描述。
上圖中的數(shù)據(jù)集的字段既包含原始的Caption,也有經(jīng)過(guò)vLLM綜合內(nèi)容生成的QA字段,更加豐滿了(例如下圖的a重新生成b的描述。)
3.特色2:層合并
混合模型Cephalo-Idefics-2-vision-10b-alpha通過(guò)有效地將特定領(lǐng)域的專(zhuān)業(yè)知識(shí)與一般的對(duì)話能力相結(jié)合,表現(xiàn)出卓越的性能。這是通過(guò)將lamm-mit/Cephalo-Idefics-2-vision-8b-beta模型的解碼器的前32層與聊天/指令調(diào)整的HuggingFaceM4/idefics2-8b-chatty模型的最后N層合并。在針對(duì)合并模型的最后N層進(jìn)行微調(diào)。若N=8,則產(chǎn)生10b的模型。
a顯示了使用低秩自適應(yīng)對(duì)第一個(gè)模型進(jìn)行微調(diào)。
b講述了合并的過(guò)程,這個(gè)過(guò)程使用兩個(gè)模型,模型A和模型B,來(lái)構(gòu)建更大的模型。模型A是一個(gè)領(lǐng)域特定的微調(diào)模型,模型B是一個(gè)通用的聊天/指令調(diào)整模型。研究人員選擇一組層(來(lái)自模型 A 的所有層,模型 B 的深層)。這遵循使用領(lǐng)域特定模型的早期層和通用模型的后期層的策略。然后將選定的層合并為一個(gè)新的組合模型,該模型經(jīng)過(guò)微調(diào)。
c新模型的微調(diào)是通過(guò)凍結(jié)源模型A的所有層并對(duì)源自模型B的層進(jìn)行全面微調(diào)來(lái)完成的。生成的模型可以實(shí)現(xiàn)圖像字幕、視覺(jué)問(wèn)答和多模態(tài)內(nèi)容生成等任務(wù)。
給它一張雞蛋的圖,讓它描述,同時(shí)問(wèn)它要是摔了會(huì)如何。從物理的角度還是回答得有模有樣的!
當(dāng)然本次的研究還順手訓(xùn)練了基于原來(lái)模型的MoE,3*4B的LLM。
Cephalo可以生成精確的圖像到文本和文本到圖像的翻譯,提供高質(zhì)量、上下文相關(guān)的訓(xùn)練數(shù)據(jù)。此功能顯著增強(qiáng)了人類(lèi) AI和多智能體AI框架內(nèi)的理解和交互。研究人員已經(jīng)在各種用例中測(cè)試了Cephalo,包括分析斷裂力學(xué)、蛋白質(zhì)結(jié)構(gòu)和仿生設(shè)計(jì),展示了其多功能性和有效性。
在性能和結(jié)果方面,Cephalo的模型范圍從 4B到 12B不等,可適應(yīng)不同的計(jì)算需求和應(yīng)用。這些模型在各種用例中進(jìn)行了測(cè)試,例如生物材料、斷裂和工程分析以及仿生設(shè)計(jì)。例如,Cephalo展示了其解釋復(fù)雜視覺(jué)場(chǎng)景和生成精確語(yǔ)言描述的能力,增強(qiáng)了對(duì)失效和斷裂等物質(zhì)現(xiàn)象的理解。這種視覺(jué)和語(yǔ)言的整合可以進(jìn)行更準(zhǔn)確和詳細(xì)的分析,支持材料科學(xué)創(chuàng)新解決方案的開(kāi)發(fā)。
此外,這些模型在特定應(yīng)用中顯示出顯著改進(jìn)。例如,Cephalo可以在分析生物材料時(shí)生成微觀結(jié)構(gòu)的詳細(xì)描述,這對(duì)于理解材料特性和性能至關(guān)重要。在斷裂分析中,該模型準(zhǔn)確描述裂紋擴(kuò)展并提出提高材料韌性的方法的能力尤為重要。這些結(jié)果凸顯了Cephalo在推進(jìn)材料研究和為現(xiàn)實(shí)世界挑戰(zhàn)提供實(shí)用解決方案方面的潛力。
本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公
