自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)自然科學(xué)領(lǐng)域大模型DARWIN:超過GPT-4,能自我設(shè)計(jì)新材料

人工智能 新聞
最近,來自 UNSW AI Institute 和澳大利亞國(guó)家超算中心以及 GreenDynamics 推出了 DARWIN,它是一系列為物理、化學(xué)和材料科學(xué)應(yīng)用而精心設(shè)計(jì)的專業(yè)化大語言模型(LLM),這一系列模型以開源的 LLaMA-7B 為基礎(chǔ),在多個(gè)科學(xué)任務(wù)中取得了最先進(jìn)的結(jié)果,旨在通過人工智能驅(qū)動(dòng)的自動(dòng)化來增強(qiáng)和加快探索發(fā)現(xiàn)的過程。

隨著技術(shù)的不斷進(jìn)步,自然科學(xué)領(lǐng)域正在發(fā)生一場(chǎng)引人注目的變革。傳統(tǒng)依賴人工和資源密集型的方法正在發(fā)生重大轉(zhuǎn)變,其中人工智能驅(qū)動(dòng)的自動(dòng)化方法正得到越來越廣泛的使用。

最近,來自 UNSW AI Institute 和澳大利亞國(guó)家超算中心以及 GreenDynamics 推出了 DARWIN,它是一系列為物理、化學(xué)和材料科學(xué)應(yīng)用而精心設(shè)計(jì)的專業(yè)化大語言模型(LLM),這一系列模型以開源的 LLaMA-7B 為基礎(chǔ),在多個(gè)科學(xué)任務(wù)中取得了最先進(jìn)的結(jié)果,旨在通過人工智能驅(qū)動(dòng)的自動(dòng)化來增強(qiáng)和加快探索發(fā)現(xiàn)的過程。

該研究以「DARWIN Series: Domain Specific Large Language Models for Natural Science」為題,發(fā)布在 arXiv 預(yù)印平臺(tái)上。

論文地址:https://arxiv.org/pdf/2308.13565.pdf

Github 鏈接:https://github.com/MasterAI-EAM/Darwin

借助現(xiàn)有的開源大語言模型,DARWIN的研究人員利用開源科學(xué)FAIR數(shù)據(jù)集和科學(xué)文獻(xiàn),提取并整合結(jié)構(gòu)化和非結(jié)構(gòu)化的科學(xué)知識(shí)。研究人員使用 100,000 多個(gè)指令數(shù)據(jù)點(diǎn)(instruction data points)對(duì)模型進(jìn)行了微調(diào)(finetuning),生成了多樣化的指令數(shù)據(jù),確保模型輸出內(nèi)容的事實(shí)準(zhǔn)確性。

在微調(diào)過程中,研究人員引入了科學(xué)指令生成(SIG)模型,這是一個(gè)從科學(xué)文本自動(dòng)生成指令文本內(nèi)容的系統(tǒng)。實(shí)現(xiàn)了基于科學(xué)文本的指令自動(dòng)生成。這樣一來,不僅高效地將科學(xué)知識(shí)注入模型,也減少了對(duì)門檻高,耗時(shí)耗力的人工指令構(gòu)建,和領(lǐng)域知識(shí)圖譜的需求。此外,研究人員還探索了多任務(wù)訓(xùn)練(multi-task training)策略,揭示了科學(xué)任務(wù)之間的相互聯(lián)系。

在測(cè)試環(huán)節(jié),與科學(xué)領(lǐng)域的現(xiàn)有基準(zhǔn)相比,DARWIN 系列表現(xiàn)出了卓越的性能(見圖 1),這表明它有可能對(duì)科學(xué)發(fā)現(xiàn)產(chǎn)生變革性的影響。同時(shí),DARWIN的推廣會(huì)顯著減少研究者對(duì)閉源人工智能模型的依賴。使用 DARWIN 的總體目標(biāo)包括緩解當(dāng)前模型的局限性、改進(jìn)領(lǐng)域模型訓(xùn)練的方法以及促進(jìn)科學(xué)界人工智能的發(fā)展。

研究人員提出了:

(1)名為 DARWIN 的新型系列大語言模型(LLM Series)。DARWIN標(biāo)志著科學(xué)領(lǐng)域基準(zhǔn)測(cè)試的性能得到了提高,也顯示著研究人員在利用 LLM 進(jìn)行科學(xué)探索的集體努力中取得了重大進(jìn)展,進(jìn)一步確認(rèn)了 LLM 在加速科學(xué)發(fā)現(xiàn)中的潛在作用。

(2)一種經(jīng)濟(jì)高效的科學(xué)指令生成(SIG)模型。這是建立在高質(zhì)量?jī)?nèi)容的基礎(chǔ)上。將學(xué)術(shù)論文(而不是模型產(chǎn)出的文本)納入訓(xùn)練過程之后,訓(xùn)練數(shù)據(jù)集的可靠性顯著提高。此外,研究人員還對(duì)冗長(zhǎng)的文本輸入采用了 「待續(xù)」(to be continued)標(biāo)記(token)綁定,從而規(guī)避了 LLaMA 固有的輸入標(biāo)記限制。

(3)一種科學(xué)領(lǐng)域訓(xùn)練模型的開源模式。使用開源基礎(chǔ)模型進(jìn)行訓(xùn)練,并使用公共科學(xué)基準(zhǔn)(benchmark)進(jìn)行評(píng)估,從而確保了該模型的可比較性以及長(zhǎng)期使用性。這種開源模式使得模型和代碼更易訪問,大大降低了經(jīng)濟(jì)門檻,能夠促進(jìn)人工智能在整個(gè)科學(xué)界的發(fā)展。

圖片

圖 1:自然科學(xué)任務(wù)中 DARWIN 與 GPT-4 的對(duì)比分析??梢园l(fā)現(xiàn),DARWIN在物理、化學(xué)、材料科學(xué)特殊任務(wù)中的表現(xiàn)要優(yōu)于GPT-4。

自然科學(xué)領(lǐng)域缺少開源、專業(yè)的大語言模型

DARWIN誕生之前,以InstructGPT 為代表的指令微調(diào)大語言模型(Instruction-tuned Large Language Models, LLMs)在理解指令和生成類似人類對(duì)話的響應(yīng)方面表現(xiàn)出色,因而備受關(guān)注。但基于GPT的微調(diào)模型的核心問題在于,它們?nèi)匀粺o法作為開源方案使用。因此,每個(gè)用戶都局限在 OpenAI 的服務(wù)器上單獨(dú)對(duì)模型進(jìn)行微調(diào),耗時(shí)耗力,經(jīng)濟(jì)成本居高不下,在精度上亦不盡如人意。這一缺陷不容小覷,并有可能會(huì)阻礙 LLM 推動(dòng)科學(xué)發(fā)現(xiàn)的勢(shì)頭。

市面上現(xiàn)有的開源替代方案,如 LLaMA,則需要進(jìn)一步的在指令數(shù)據(jù)集上微調(diào)。然而,當(dāng)前指令數(shù)據(jù)集的構(gòu)造方案大多是基于 GPT-3.5 或 GPT-4 自學(xué)習(xí)(Self-instruct),這會(huì)拉低預(yù)測(cè)準(zhǔn)確率,甚至導(dǎo)致模型崩潰。這個(gè)缺陷在自然科學(xué)課題的語境下尤為顯著,因?yàn)樯鲜瞿P筒⒉皇敲鞔_針對(duì)材料科學(xué)和化學(xué)等科學(xué)領(lǐng)域設(shè)計(jì)的。雖然醫(yī)學(xué)領(lǐng)域也有利用知識(shí)圖譜生成指令數(shù)據(jù)的例子,但這在自然科學(xué)領(lǐng)域并不常見(并非所有子領(lǐng)域都有相應(yīng)的知識(shí)圖譜)。而另一種替代方案是使用 GPT-3.5 或 GPT-4對(duì)相關(guān)論文進(jìn)行多輪一問一答訓(xùn)練,但成本高昂。

具體研究:數(shù)據(jù)集、SIG方法與模型構(gòu)建

為了使DARWIN適用自然科學(xué)領(lǐng)域,研究人員在微調(diào)過程中使用了各種與科學(xué)相關(guān)的數(shù)據(jù)集。這些數(shù)據(jù)集包括:

(1)科學(xué)考試答題數(shù)據(jù)集:SciQ 數(shù)據(jù)集是一個(gè)大型眾包科學(xué)問答(QA)數(shù)據(jù)集,包含 13679 道科學(xué)考試題,涵蓋物理、化學(xué)和生物等學(xué)科,可提供廣泛而簡(jiǎn)單的科學(xué)知識(shí)。

(2)從科學(xué)論文中生成的問題和相應(yīng)答案:利用Web of Science和網(wǎng)絡(luò)抓取工具 SciCrawler,研究人員從Elsevier, Springer Nature, American Chemical Society, and Royal Society of Chemistry等出版商收集了 600 萬篇英語學(xué)術(shù)論文,并通過科學(xué)指令生成(SIG)模型從論文中生成問題和相應(yīng)答案構(gòu)成基于專業(yè)科學(xué)知識(shí)的數(shù)據(jù)集。

圖片

圖 2:科學(xué)論文數(shù)據(jù)集的構(gòu)成。

(3)FAIR 數(shù)據(jù)集:數(shù)據(jù)集 FAIR 是 「可查找、可訪問、可互操作、可重用」(Findable, Accessible, Interoperable, and Reusable,是一套提高數(shù)據(jù)價(jià)值和可訪問性的原則)的縮寫。研究人員收集了 16 個(gè)開放獲取的 FAIR 數(shù)據(jù)集(見圖3),涉及物理、化學(xué)和材料科學(xué)的多學(xué)科主題,包括但不限于物理結(jié)構(gòu)、性能、合成甚至材料設(shè)計(jì)。

圖片

圖 3:FAIR 數(shù)據(jù)集的構(gòu)成。

研究人員基于以上數(shù)據(jù)集進(jìn)行建模。對(duì)于DARWIN,研究人員利用不同的LLM(LLaMA-7B 和 Vicuna-7B 模型)開發(fā)了一個(gè)綜合訓(xùn)練流水線,以平衡性能和成本。整個(gè)訓(xùn)練路徑涉及DARWIN-SIG,DARWIN-BASE 和 DARWIN-MDP三個(gè) LLM。

首先是DARWIN-SIG(科學(xué)指令生成模型),研究人員提出了一種生成訓(xùn)練數(shù)據(jù)的實(shí)用方法——使用開源模型將完整的科學(xué)論文轉(zhuǎn)化為問答對(duì)(question-answer pairs),并作為訓(xùn)練指令(instruction)。研究人員利用的是基于知識(shí)生成的數(shù)據(jù),這比LLM自生成的訓(xùn)練數(shù)據(jù)更加可信,也規(guī)避了模型崩潰的風(fēng)險(xiǎn)。

SIG的流程如下:

(1)提示的設(shè)計(jì)(Prompt Design):研究人員通過迭代人工檢查以及征求領(lǐng)域?qū)<业囊庖?,為L(zhǎng)LM設(shè)計(jì)出了有效的提示(prompt),讓 LLM 根據(jù)從科學(xué)論文中提取的詳細(xì)信息生成問答對(duì)。

(2)種子問答生成(Seed QA generation):研究人員從科學(xué)論文數(shù)據(jù)集中選取種子論文,其余為訓(xùn)練論文。種子論文作為輸入,通過對(duì)GPT-4進(jìn)行提示(使用步驟 1 中設(shè)計(jì)的提示)生成種子問答對(duì)。

(3)DARWIN-SIG:SIG 模型的開發(fā)首先是通過使用種子論文及其相應(yīng)的問答對(duì),從而針對(duì)LLM 進(jìn)行微調(diào)進(jìn)行開發(fā)而完成的。給定一個(gè)提示 p 和輸入文本 x,SIG 生成一組指令 I,每條指令都是與 x 相關(guān)的一對(duì)問題和相應(yīng)的答案(q(i), a(i)),也就是SIG(p, x) = I。初始提示(prompt)被轉(zhuǎn)換成指令(instruction),而種子文件則輸入模型。

(4)問答生成訓(xùn)練(Training QA generation):基于經(jīng)過訓(xùn)練的 DARWIN-SIG,大量的訓(xùn)練論文隨即可用作輸入,并以較低的成本自動(dòng)生成問答對(duì)。這些問答對(duì)可直接轉(zhuǎn)換為指令數(shù)據(jù)。

基礎(chǔ)模型的選擇中,考慮到 GPT-3.5/4 可能帶來的推理成本,研究人員轉(zhuǎn)而使用開源模型作為訓(xùn)練生成器。經(jīng)過人工評(píng)估,研究人員選擇了 Vicuna-7B 模型作為基礎(chǔ)模型,而不是 LLaMA 或 Alpaca。

第二個(gè)考量是長(zhǎng)度限制。論文的長(zhǎng)度通常超過 2048 個(gè)標(biāo)記符的上限,對(duì)于這些較長(zhǎng)的論文,研究人員對(duì)文本進(jìn)行了分割,并使用「[TBC]」標(biāo)記符(見圖4)作為連接器連續(xù)輸入,保證模型輸出問答對(duì)與論文內(nèi)容的一致性。

圖片

圖 4:DARWIN-SIG的長(zhǎng)文本輸入方法。

研究人員將SIG方法與已有的QA生成方法比較后發(fā)現(xiàn)SIG生成的問題信息量更大,而且與輸入論文的內(nèi)容更相關(guān),更復(fù)雜,涵蓋面更廣,包括但不限于與應(yīng)用相關(guān)的屬性、策略的影響、結(jié)構(gòu)差異等。相應(yīng)地,DARWIN-SIG給出的回答細(xì)節(jié)豐富具體,會(huì)引用原始科學(xué)論文中的精確化學(xué)元素和數(shù)值。高質(zhì)量的問答生成確保了在冗長(zhǎng)的科學(xué)論文中保留知識(shí)要點(diǎn)。

對(duì)于DARWIN-BASE的建模,研究人員基于SciQ 數(shù)據(jù)集為 DARWIN 生成了基于知識(shí)的指令數(shù)據(jù),并生成了問答對(duì)。SciQ 數(shù)據(jù)集中的答案包括正確選項(xiàng),提供了強(qiáng)有力的支持,可用作背景知識(shí)輸入或推理過程的解釋。

由此,研究人員生成了一組混合式的指令數(shù)據(jù),按難度遞增排列,其模式為:

(1)單輪問答,即模型根據(jù)問題和提供的背景知識(shí)選擇答案;

(2)單輪問答,即模型根據(jù)問題選擇答案,同時(shí)為所選答案提供解釋;

(3)多輪對(duì)話,即模型根據(jù)問題選擇答案,并針對(duì)用戶的后續(xù)問題為所選答案提供解釋。

在沒有任何輸入的情況下,每個(gè)問題為一條指令,其對(duì)應(yīng)的答案為輸出。研究人員使用SciQ和SIG生成的基于知識(shí)的指令數(shù)據(jù)對(duì) LLaMA-7B 模型進(jìn)行了微調(diào),共計(jì)超過 20,000 個(gè)實(shí)例。從而開發(fā)出 DARWIN-BASE,一個(gè)能夠進(jìn)行科學(xué)問題解答的模型,在SciQ測(cè)試集上達(dá)到96.9%的準(zhǔn)確率。

最后是DARWIN-MDP建模。除了可以執(zhí)行科學(xué)問答任務(wù)的 DARWIN 之外,研究人員還使用了 16 個(gè) FAIR 數(shù)據(jù)集來生成其他指令,以進(jìn)一步微調(diào) DARWIN-BASE,使其可以執(zhí)行材料與設(shè)備預(yù)測(cè)任務(wù)(Material & Device Predictions tasks, MDP),如分類、回歸和設(shè)計(jì)等,形成DARWIN-MDP。

分類(classification):科學(xué)語言模型的分類任務(wù)包括將科學(xué)文本數(shù)據(jù)歸類或標(biāo)記為預(yù)定義的類別。例如,DARWIN-MDP 可以根據(jù)化合物的特性(如溶解性、毒性或穩(wěn)定性)進(jìn)行分類訓(xùn)練。這有助于藥物發(fā)現(xiàn)、材料科學(xué)或化學(xué)工程應(yīng)用。

圖 5:分類實(shí)例。

回歸(regression):比分類要求更高的任務(wù)是開發(fā)能夠預(yù)測(cè)連續(xù)屬性值的回歸模型,雖然 LLM 無法在回歸任務(wù)中預(yù)測(cè)高精度的實(shí)數(shù),但通過在訓(xùn)練過程中采用四舍五入值,它們?nèi)阅墚a(chǎn)生可接受精度的預(yù)測(cè)結(jié)果。對(duì)于設(shè)備性能數(shù)據(jù),小數(shù)點(diǎn)后兩位數(shù)的精度已經(jīng)足夠。

圖片

圖 6:回歸實(shí)例。

逆向設(shè)計(jì)(inverse design):在材料科學(xué)領(lǐng)域,逆向設(shè)計(jì)指的是一種計(jì)算方法,旨在通過從所需特性或功能逆向設(shè)計(jì)新材料或優(yōu)化現(xiàn)有材料——從一組所需的特性或性能目標(biāo)開始,設(shè)法確定能展現(xiàn)這些特性的材料結(jié)構(gòu)或成分。通過利用逆向設(shè)計(jì)技術(shù),研究人員有可能發(fā)現(xiàn)具有量身定制特性的新型材料,而傳統(tǒng)的實(shí)驗(yàn)方法難以發(fā)現(xiàn)這些新特性或耗時(shí)較長(zhǎng)。逆向設(shè)計(jì)在材料科學(xué)的各個(gè)領(lǐng)域都大有可為,包括光伏、催化劑、電池、熱電材料等。

圖片

圖 7:逆向設(shè)計(jì)實(shí)例。

DARWIN的性能與專業(yè)機(jī)器學(xué)習(xí)模型相媲美

為了證明 DARWIN 在不同任務(wù)中的性能,研究人員將 DARWIN 與兩個(gè)基準(zhǔn)模型(baseline models)進(jìn)行了比較。

(1)LLaMA 是 Meta AI 發(fā)布的 LLM,有 70 億到 650 億個(gè)參數(shù)的不同模型大小。由于 LLaMA-7B 易于訓(xùn)練,研究人員將其作為基礎(chǔ)模型。

(2)GPT-3 是 OpenAI 創(chuàng)建的第三代語言模型,擁有 1750 億個(gè)參數(shù)。

除了上述兩個(gè)基準(zhǔn)模型外,研究人員還參考了幾個(gè)SOTA的專業(yè)機(jī)器學(xué)習(xí)模型的結(jié)果,如 MODNet (v0.1.1)、MolCLR 和 AMMExpress v2020。這些結(jié)果來自 matbench。值得注意的是,上述每個(gè)機(jī)器學(xué)習(xí)模型都是在特定的 FAIR 數(shù)據(jù)集上單獨(dú)訓(xùn)練的。

表 1:回歸任務(wù)中 DARWIN 和 SOTA 模型的比較評(píng)估(MAE)。

表 2:分類任務(wù)中 DARWIN 和 SOTA 模型的比較評(píng)估(F1 分?jǐn)?shù))。

表 1 和表 2 列出了 DARWIN-MDP 模型在各種回歸和分類任務(wù)中的性能指標(biāo)。值得注意的是,在大多數(shù)回歸任務(wù)中,DARWIN-MDP 的平均絕對(duì)誤差(MAE)最低,而在大多數(shù)分類任務(wù)中,DARWIN-MDP 的 F1 分?jǐn)?shù)最高。

通過比較 LLaMA-single 和 LLaMA-all,研究人員發(fā)現(xiàn)對(duì)多個(gè)MDP任務(wù)一起進(jìn)行微調(diào)(LLaMA-all)比對(duì)單個(gè)MDP任務(wù)分別進(jìn)行微調(diào)(LLaMA-single)性能更優(yōu)。這凸顯了多任務(wù)學(xué)習(xí)在增強(qiáng)模型整體能力方面的有效性。

此外,在將 LLaMA-all (在LLaMA上多個(gè)MDP任務(wù)一起進(jìn)行微調(diào))與 DARWIN-MDP 進(jìn)行比較時(shí),研究人員發(fā)現(xiàn)對(duì)科學(xué)知識(shí)的初始階段微調(diào)促進(jìn)了性能的進(jìn)一步提高,凸顯了特定領(lǐng)域知識(shí)訓(xùn)練的重要性。

最后,研究人員發(fā)現(xiàn)DARWIN-MDP 的性能可與特定任務(wù)的專用機(jī)器學(xué)習(xí)模型相媲美,這提供了一種新穎的材料設(shè)計(jì)方法,只需簡(jiǎn)單提示(prompt),一個(gè)模型就能完成多項(xiàng)科學(xué)任務(wù)。

綜上,研究結(jié)果顯示DARWIN 系列表現(xiàn)出了卓越的性能,驗(yàn)證了特定領(lǐng)域微調(diào)和多任務(wù)學(xué)習(xí)的有效性,展現(xiàn)了大語言模型在科學(xué)任務(wù)中的潛力。

DARWIN在自然科學(xué)研究中極富潛力

該研究將現(xiàn)有的知識(shí)庫有效地融入了大語言模型,提出了 DARWIN 系列大語言模型,該系列在多個(gè)科學(xué)任務(wù)中取得了 SOTA 結(jié)果。研究人員采用科學(xué)領(lǐng)域的開源數(shù)據(jù)構(gòu)建訓(xùn)練數(shù)據(jù),還引入了 SIG 模型自動(dòng)提取來自大型論文語料庫的知識(shí)。此外,研究人員還探索了不同的多任務(wù)訓(xùn)練策略,發(fā)現(xiàn)首先對(duì)基于知識(shí)的問題和答案進(jìn)行訓(xùn)練可以提高在 FAIR 數(shù)據(jù)集上的預(yù)測(cè)性能,而且將多個(gè)任務(wù)結(jié)合起來證明比單獨(dú)訓(xùn)練更有效,從而凸顯了看似獨(dú)立的任務(wù)之間的內(nèi)在聯(lián)系。研究人員正在探索更好的知識(shí)質(zhì)量評(píng)估方法,并不斷地使用科學(xué)論文擴(kuò)充知識(shí)數(shù)據(jù)集,進(jìn)一步提高模型性能。

DARWIN這一開源范式在數(shù)據(jù)集構(gòu)建,任務(wù)構(gòu)建和大模型訓(xùn)練策略上提供了新的思路,為科學(xué)研究與大語言模型的互動(dòng)提供了指導(dǎo)。該研究為大語言模型在自然科學(xué)領(lǐng)域的進(jìn)一步應(yīng)用鋪平道路,促進(jìn) AI for Science的整體繁榮。

GreenDynamics 官網(wǎng):https://www.greendynamics.com.au/greendynamics

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-08-27 15:13:48

人工智能計(jì)算機(jī)自然科學(xué)

2023-06-21 13:37:41

模型研究

2023-12-18 15:16:47

數(shù)據(jù)模型

2023-06-08 11:27:10

模型AI

2021-11-09 09:58:10

AI 數(shù)據(jù)人工智能

2023-08-24 13:59:57

模型數(shù)據(jù)

2023-11-18 09:43:46

人工智能模型

2023-10-12 14:18:06

2024-04-02 11:17:18

2023-04-12 16:23:00

GPT-4代碼

2023-08-10 15:35:33

論文指數(shù)

2023-06-19 08:19:50

2023-05-23 09:34:16

科學(xué)家AI

2023-12-26 08:17:23

微軟GPT-4

2023-06-05 12:32:48

模型論文

2025-04-16 09:35:03

2024-06-28 13:40:03

2023-04-04 11:20:40

GPT-4OpenAI

2023-12-09 13:32:21

GPT-4MoE架構(gòu)開源大模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)