四分鐘成功復(fù)現(xiàn)諾獎(jiǎng)!CMU開(kāi)發(fā)GPT-4化學(xué)家,自主編碼操控機(jī)器人顛覆化學(xué)研究登Nature
ChatGPT大模型爆火這一年,沒(méi)想到竟顛覆了整個(gè)化學(xué)領(lǐng)域。
先是谷歌DeepMind的AI工具GNoME成功預(yù)測(cè)出200萬(wàn)種晶體結(jié)構(gòu),隨后微軟推出的MatterGen,大大加速了設(shè)計(jì)所需材料特性的速度。
今天,CMU和Emerald Cloud Lab的研究團(tuán)隊(duì)開(kāi)發(fā)了一種全新自動(dòng)化AI系統(tǒng)——Coscientist,榮登Nature。
它可以設(shè)計(jì)、編碼和執(zhí)行多種反應(yīng),完全實(shí)現(xiàn)了化學(xué)實(shí)驗(yàn)室的自動(dòng)化。
圖片
實(shí)驗(yàn)評(píng)測(cè)中,Coscientist利用GPT-4,在人類的提示下檢索化學(xué)文獻(xiàn),成功設(shè)計(jì)出一個(gè)反應(yīng)途徑來(lái)合成一個(gè)分子。
GPT-4遍歷整個(gè)互聯(lián)網(wǎng)上的說(shuō)明書(shū),并選擇數(shù)據(jù)庫(kù)中最好的試劑盒和試劑,在現(xiàn)實(shí)中制造分子。
論文地址:https://www.nature.com/articles/s41586-023-06792-0
最令人震驚的是,Coscientist在短短4分鐘內(nèi),一次性復(fù)現(xiàn)了諾獎(jiǎng)研究。
具體來(lái)說(shuō),全新AI系統(tǒng)在6個(gè)不同任務(wù)中呈現(xiàn)了加速化學(xué)研究的潛力,其中包括成功優(yōu)化「鈀催化偶聯(lián)反應(yīng)」。
「鈀催化偶聯(lián)反應(yīng)」的研究是由美國(guó)化學(xué)家Richard Fred Heck,以及兩位日本化學(xué)家獲得了2010年諾貝爾化學(xué)獎(jiǎng)。
領(lǐng)導(dǎo)這項(xiàng)研究的CMU化學(xué)家Gabe Gome表示,「當(dāng)我看到一種非有機(jī)智能能夠自主計(jì)劃、設(shè)計(jì)和執(zhí)行人類發(fā)明的化學(xué)反應(yīng)的那一刻,真是太神奇了」!
GPT-4自動(dòng)化學(xué)研究
當(dāng)前,AI工具在科學(xué)領(lǐng)域的應(yīng)用激增,但對(duì)于在實(shí)驗(yàn)室工作的研究人員,或那些不精通代碼的人來(lái)說(shuō),AI并非唾手可得。
我們都知道,化學(xué)研究建立在迭代循環(huán)的基礎(chǔ)上。在這個(gè)循環(huán)中,實(shí)驗(yàn)被設(shè)計(jì)、執(zhí)行,然后進(jìn)行改進(jìn)以實(shí)現(xiàn)特定目標(biāo)。
對(duì)于化學(xué)家來(lái)說(shuō),所做的研究是多管齊下的——不僅需要執(zhí)行化學(xué)反應(yīng)的技術(shù)技能,還需要規(guī)劃和設(shè)計(jì)化學(xué)反應(yīng)的知識(shí)。
舉個(gè)栗子,當(dāng)合成一個(gè)新物質(zhì)時(shí),化學(xué)家們需要「逆合成分析」,從最后的目標(biāo)物質(zhì)一步一步想回去,以確定初始的分子,然后在數(shù)據(jù)庫(kù)中搜索合適的反應(yīng)條件,并選出一條最可能成功的合成路線。
但是,在實(shí)際的實(shí)驗(yàn)中就會(huì)發(fā)現(xiàn),化學(xué)反應(yīng)通常無(wú)法按預(yù)期高產(chǎn)率和選擇性得出產(chǎn)物。
這時(shí),還得需要重新搜索文獻(xiàn)、設(shè)計(jì)新的實(shí)驗(yàn)路線、再次嘗試實(shí)驗(yàn),整個(gè)迭代過(guò)程就會(huì)變得遙遙無(wú)期。
對(duì)于人類化學(xué)家來(lái)說(shuō),即便有了相應(yīng)的知識(shí),要想設(shè)計(jì)和執(zhí)行一個(gè)化學(xué)反應(yīng)也不是一件容易的事情,因?yàn)樵O(shè)計(jì)出的化學(xué)反應(yīng)往往很難以理想的速率來(lái)生成產(chǎn)物。
當(dāng)OpenAI在3月份放出GPT-4后,Gomes和團(tuán)隊(duì)成員開(kāi)始思考,如何讓大模型為化學(xué)家服務(wù)。
Gomes表示,「Coscientist卻可以做真正訓(xùn)練有素的化學(xué)家可以做的大部分事情。」
當(dāng)人類科學(xué)家要求Coscientist合成一個(gè)特定的分子時(shí),它會(huì)在互聯(lián)網(wǎng)上搜索以設(shè)計(jì)合成路線,然后為所需的反應(yīng)設(shè)計(jì)實(shí)驗(yàn)方案。
在獲得具體的實(shí)驗(yàn)方案以后,它能編寫(xiě)代碼來(lái)指示移液工作站,然后運(yùn)行代碼,讓機(jī)器人執(zhí)行它編程過(guò)的任務(wù)。
而真正厲害的是,Coscientist還可以從反應(yīng)的結(jié)果中學(xué)習(xí),并建議對(duì)協(xié)議進(jìn)行更改以進(jìn)行改進(jìn)。
這種迭代循環(huán)優(yōu)化了反應(yīng),從而能夠?qū)崿F(xiàn)預(yù)期的實(shí)驗(yàn)?zāi)繕?biāo)。
AI編寫(xiě)代碼,控制化學(xué)機(jī)器人
顯然,當(dāng)前高科技化學(xué)機(jī)器人通常是由人類化學(xué)家編寫(xiě)的計(jì)算機(jī)代碼來(lái)控制。
而Coscientist系統(tǒng)首次實(shí)現(xiàn),由AI編寫(xiě)的計(jì)算機(jī)代碼控制機(jī)器人。
研究人員首先讓Coscientist去完成一些簡(jiǎn)單的任務(wù),控制一臺(tái)機(jī)器人液體處理機(jī),將有色液體分配到一個(gè)包含96個(gè)網(wǎng)格排列的小孔的盤(pán)子中。
它被要求「每隔一行滴上一種顏色」,「畫(huà)一條藍(lán)色的對(duì)角線」,「用黃色繪制一個(gè)3x3的矩形」,「畫(huà)一個(gè)紅叉」等等。
Coscientist被指示用液體處理機(jī)器人進(jìn)行不同的設(shè)計(jì)
液體處理機(jī)僅是一個(gè)初試,團(tuán)隊(duì)人員通過(guò)Emerald Cloud Lab實(shí)驗(yàn)室合作,還將Coscientist引入了更多類型的機(jī)器人設(shè)備,
這家實(shí)驗(yàn)室配備了各種自動(dòng)化儀器,包括測(cè)量被化學(xué)樣品吸收的光波長(zhǎng)的分光計(jì)。
一個(gè)盤(pán)子里面裝著3種不同顏色(紅黃藍(lán))的液體,Coscientist被要求確定這些液體是什么顏色,以及它們?cè)诒P(pán)子上的什么位置。
Coscientist沒(méi)有「眼睛」,只能通過(guò)編寫(xiě)代碼,將神秘的色板自動(dòng)傳遞給分光光度計(jì),并分析每個(gè)孔吸收的光的波長(zhǎng),從而識(shí)別出有哪些顏色,及其在色板上的位置。
對(duì)于這項(xiàng)任務(wù),研究人員不得不稍微給Coscientist一點(diǎn)提示,指示它考慮不同顏色吸收光的方式。
剩下的任務(wù),就可完全放心交給AI系統(tǒng)去完成。
由Coscientist生成的代碼。分為以下幾個(gè)步驟:定義方法的元數(shù)據(jù)、加載實(shí)驗(yàn)器皿模塊、設(shè)置液體處理器、執(zhí)行所需的試劑轉(zhuǎn)移、設(shè)置加熱器-振動(dòng)器模塊、運(yùn)行反應(yīng)以及關(guān)閉模塊。
4分鐘復(fù)現(xiàn)諾獎(jiǎng),自主糾正代碼錯(cuò)誤
Coscientist的終極測(cè)試是,將其組裝的模塊和訓(xùn)練放在一起,以完成研究團(tuán)隊(duì)執(zhí)行「Suzuki和Sonogashira反應(yīng)」的命令。
這種反應(yīng)是在20世紀(jì)70年代發(fā)現(xiàn)的,使用金屬鈀作為催化劑,在有機(jī)分子中的碳原子之間形成鍵。
事實(shí)證明,這些反應(yīng)在生產(chǎn)治療炎癥、哮喘和其他疾病的新型藥物方面非常有用。它們還用于有機(jī)半導(dǎo)體,以及許多智能手機(jī)和顯示器中的有機(jī)發(fā)光二極管。
值得一提的是,這些突破性的反應(yīng)及其廣泛的影響得到了正式認(rèn)可,2010年諾貝爾獎(jiǎng)便授予了Sukuzi、Richard Heck和Ei-ichi Negishi。
當(dāng)然,Coscientist以前從未嘗試過(guò)這些反應(yīng)。
MacKnight表示,設(shè)計(jì)了Coscientist搜索技術(shù)文檔的軟件模塊,「對(duì)我來(lái)說(shuō),最驚艷的時(shí)刻是看到它問(wèn)了所有正確的問(wèn)題。」
Coscientist主要在維基百科上尋找答案,也還有許多其他網(wǎng)站,包括美國(guó)化學(xué)學(xué)會(huì)、皇家化學(xué)學(xué)會(huì)和其他包含描述Suzuki和Sonogashira反應(yīng)的學(xué)術(shù)論文的網(wǎng)站。
鈀催化偶聯(lián)反應(yīng)整個(gè)流程
在不到4分鐘的時(shí)間里,Coscientist設(shè)計(jì)了一個(gè)使用團(tuán)隊(duì)提供的化學(xué)物質(zhì)產(chǎn)生所需反應(yīng)的準(zhǔn)確程序。
當(dāng)它試圖用機(jī)器人在現(xiàn)實(shí)世界中執(zhí)行程序時(shí),它在編寫(xiě)的代碼中「犯了一個(gè)錯(cuò)誤」,該代碼用來(lái)控制加熱和搖動(dòng)液體樣品的設(shè)備。
但是在沒(méi)有人的提示的情況下,Coscientist立即發(fā)現(xiàn)了問(wèn)題,重新參考了設(shè)備的技術(shù)手冊(cè),更正了代碼并再次嘗試。
實(shí)驗(yàn)結(jié)果被裝在了幾個(gè)極小的透明液體樣本中。Boiko分析了樣品,發(fā)現(xiàn)了鈴木反應(yīng)和Sonogashira反應(yīng)的光譜特征。
當(dāng)Boiko和MacKnight告訴Gomes Coscientist的成果時(shí),Gomes表示懷疑。
「我以為他們?cè)诟议_(kāi)玩笑,」他回憶道。
但是成果就放在那里,簡(jiǎn)直讓人難以置信。
「隨之而來(lái)的是明智地使用這種潛在的力量,并防止濫用?!笹omes說(shuō),了解人工智能的能力和限制是制定知情規(guī)則和政策的第一步,這些規(guī)則和政策可以有效地防止有害的人工智能使用,無(wú)論是故意的還是意外的。
Coscientist基本架構(gòu)
研究人員提出了一個(gè)基于多LLM的智能代理(以下簡(jiǎn)稱為 Coscientist),它能夠自主設(shè)計(jì)、規(guī)劃和執(zhí)行復(fù)雜的科學(xué)實(shí)驗(yàn)。Coscientist 可以使用工具瀏覽互聯(lián)網(wǎng)和相關(guān)文檔,使用機(jī)器人實(shí)驗(yàn)應(yīng)用編程接口(API),并利用其他 LLM 完成各種任務(wù)。
研究人員展示了 Coscientist 在以下六項(xiàng)任務(wù)中的多功能性和性能:
(1)使用公開(kāi)數(shù)據(jù)規(guī)劃已知化合物的化學(xué)合成;
(2)高效搜索和瀏覽大量硬件文檔;
(3)使用文檔在云實(shí)驗(yàn)室中執(zhí)行高級(jí)命令;
(4)使用底層指令精確控制液體處理儀器;
(5)處理需要同時(shí)使用多個(gè)硬件模塊和整合不同數(shù)據(jù)源的復(fù)雜科學(xué)任務(wù);
(6)解決需要分析以前收集的實(shí)驗(yàn)數(shù)據(jù)的優(yōu)化問(wèn)題。
科學(xué)家 「通過(guò)與多個(gè)模塊的交互(網(wǎng)絡(luò)和文檔搜索、代碼執(zhí)行)和實(shí)驗(yàn)」,獲取解決復(fù)雜問(wèn)題所需的知識(shí)。
主模塊(規(guī)劃者)的目標(biāo)是根據(jù)用戶輸入,通過(guò)調(diào)用下面定義的命令進(jìn)行規(guī)劃。
規(guī)劃器是一個(gè)GPT-4聊天實(shí)例,扮演助手的角色。用戶的初始輸入和命令輸出被視為給規(guī)劃器的用戶信息。規(guī)劃器的系統(tǒng)提示(定義 LLM 目標(biāo)的靜態(tài)輸入)以模塊化方式設(shè)計(jì),描述為定義操作空間的四個(gè)命令:「GOOGLE」、「PYTHON」、「DOCUMENTATION 」和 「EXPERIMENT」。
規(guī)劃器根據(jù)需要調(diào)用這些命令來(lái)收集知識(shí)。GOOGLE命令負(fù)責(zé)使用網(wǎng)絡(luò)搜索模塊搜索互聯(lián)網(wǎng),該模塊本身也是一個(gè) LLM。
PYTHON命令允許規(guī)劃者使用 「代碼執(zhí)行 」模塊進(jìn)行計(jì)算,為實(shí)驗(yàn)做準(zhǔn)備。
EXPERIMENT命令通過(guò)DOCUMENTATION模塊描述的API實(shí)現(xiàn) 「自動(dòng)化」。
與GOOGLE命令一樣,DOCUMENTATION命令也是從源頭向主模塊提供信息,這里指的是有關(guān)所需API的文檔。
研究人員演示了與Opentrons Python API 和翡翠云實(shí)驗(yàn)室(ECL)符號(hào)實(shí)驗(yàn)室語(yǔ)言(SLL)的兼容性。這些模塊共同組成了Coscientist,它可以接收來(lái)自用戶的簡(jiǎn)單純文本輸入提示(例如,「執(zhí)行多個(gè)鈴木反應(yīng)」)。上圖完整地展示了這一架構(gòu)。
此外,有些命令還可以使用子反應(yīng)。
GOOGLE命令能夠?qū)⑻崾巨D(zhuǎn)化為適當(dāng)?shù)木W(wǎng)絡(luò)搜索查詢,在谷歌搜索API中運(yùn)行這些查詢,瀏覽網(wǎng)頁(yè)并將答案反饋給規(guī)劃器。
同樣,DOCUMENTATION命令可檢索和匯總必要的文檔(例如,機(jī)器人液體處理器或云實(shí)驗(yàn)室),以便規(guī)劃器調(diào)用 EXPERIMENT命令。
PYTHON命令使用一個(gè)隔離的Docker容器執(zhí)行代碼(不依賴于任何語(yǔ)言模型),以保護(hù)用戶的機(jī)器免受規(guī)劃器要求的任何意外操作的影響。
重要的是,規(guī)劃器背后的語(yǔ)言模型可以在軟件出錯(cuò)時(shí)修復(fù)代碼。這同樣適用于自動(dòng)化模塊的EXPERIMENT 命令,該命令可在相應(yīng)硬件上執(zhí)行生成的代碼,或?yàn)槭謩?dòng)實(shí)驗(yàn)提供合成程序。
AI讓每個(gè)人都能成為科學(xué)家
自然界的大小和復(fù)雜性幾乎是無(wú)限的,無(wú)數(shù)新的科學(xué)發(fā)現(xiàn)有待人類突破。
想象一下,新的超導(dǎo)材料可以顯著提高能源效率,或者化合物可以治愈原本無(wú)法治愈的疾病,延長(zhǎng)人類的壽命。
然而,獲得取得這些突破所需的教育和培訓(xùn)是一段漫長(zhǎng)而艱巨的旅程,成為一名科學(xué)家實(shí)在是太難了。
但是Gomes和他的團(tuán)隊(duì)設(shè)想,像Coscientist這樣的人工智能輔助系統(tǒng)是一種解決方案,可以為全世界大量提供「AI科學(xué)家」來(lái)滿足科研的人力需求。
人類科學(xué)家也需要休息,睡眠。而人類引導(dǎo)的人工智能可以全天候地「科研」。
「自主運(yùn)行的AI系統(tǒng)可以發(fā)現(xiàn)新現(xiàn)象、新反應(yīng)、新想法」。
科學(xué)上有一個(gè)反復(fù)嘗試、失敗、學(xué)習(xí)和改進(jìn)的過(guò)程,人工智能可以大大加快這一過(guò)程。
「這可以顯著降低幾乎任何領(lǐng)域的準(zhǔn)入門檻」Gomes說(shuō)。例如,如果一位未受過(guò)「鈀催化偶聯(lián)反應(yīng)」訓(xùn)練的生物學(xué)家想以一種新的方式探索反應(yīng)的用途,他們可以請(qǐng)Coscientist幫助他們計(jì)劃實(shí)驗(yàn)。