自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

專(zhuān)訪(fǎng)MIT賈皓鈞&段辰儒博士:AI4S時(shí)代的化學(xué)材料發(fā)現(xiàn)——「AI煉金術(shù)」

人工智能 新聞
隨著科學(xué)的進(jìn)步和現(xiàn)代社會(huì)的發(fā)展,新型材料的研發(fā)變得愈發(fā)復(fù)雜?,F(xiàn)在,研究者經(jīng)常需要在上百萬(wàn)大小的材料空間同時(shí)優(yōu)化數(shù)十個(gè)不同的性質(zhì),以尋找適用于電池、半導(dǎo)體、催化劑和合金等領(lǐng)域的新材料。

大家可能從小就聽(tīng)說(shuō)過(guò)愛(ài)迪生嘗試上千種材料作為燈絲,憑著不斷試錯(cuò)方法以及永不言棄的精神,最后研發(fā)出日用白熾燈的故事——天才靠的是百分之一的靈感和百分之九十九的汗水。

然而,隨著科學(xué)的進(jìn)步和現(xiàn)代社會(huì)的發(fā)展,新型材料的研發(fā)變得愈發(fā)復(fù)雜?,F(xiàn)在,研究者經(jīng)常需要在上百萬(wàn)大小的材料空間同時(shí)優(yōu)化數(shù)十個(gè)不同的性質(zhì),以尋找適用于電池、半導(dǎo)體、催化劑和合金等領(lǐng)域的新材料。如果說(shuō)愛(ài)迪生需要 99% 的汗水,那現(xiàn)在研究者可能需要 99.99% 的汗水。

而新型材料的研發(fā)歷程就有點(diǎn)像人們?nèi)ァ干碁股蠐臁肛悮ぁ?,在「沙灘」表面好找的貝殼在大家不斷發(fā)掘下已經(jīng)被拾的差不多了,更漂亮的「貝殼」卻還埋在在更深的「沙灘」下面。這些「貝殼」可能用傳統(tǒng)的方法很難發(fā)掘,但 AI for Science(簡(jiǎn)稱(chēng) AI4S)為我們帶來(lái)了新的可能。

Microsoft Azure Quantum 研究科學(xué)家、麻省理工學(xué)院(MIT)段辰儒博士在吸光團(tuán)簇的研發(fā)方面遇到了和「愛(ài)迪生類(lèi)似的難題」——尋找吸收長(zhǎng)波可見(jiàn)光并且激發(fā)態(tài)穩(wěn)定的過(guò)渡金屬吸光團(tuán)簇。吸光團(tuán)簇的發(fā)現(xiàn)在現(xiàn)階段有兩大難點(diǎn),首先其設(shè)計(jì)空間有三千萬(wàn)個(gè)分子,比愛(ài)迪生當(dāng)年大的多。此外,長(zhǎng)波可見(jiàn)光吸收與穩(wěn)定激發(fā)態(tài)是化學(xué)上接近互斥的兩個(gè)性質(zhì),增加了探索難度。

段博士首先使用了「愛(ài)迪生式」的隨機(jī)采樣,嘗試了兩千個(gè)分子,發(fā)現(xiàn)無(wú)一同時(shí)滿(mǎn)足這兩種性質(zhì)。繼續(xù)類(lèi)似探索帶來(lái)的希望非常有限。于是,段博士帶著 AI4S 的角度重新審視了這個(gè)問(wèn)題:在這兩千個(gè)分子的數(shù)據(jù)下建立了機(jī)器學(xué)習(xí)模型來(lái)快速預(yù)測(cè)分子的吸收波長(zhǎng)和激發(fā)態(tài)時(shí)長(zhǎng);同時(shí),使用主動(dòng)學(xué)習(xí)與貝葉斯優(yōu)化引導(dǎo)探索這碩大材料空間。在新的探索方式之下,模型找到目標(biāo)分子的概率隨著探索過(guò)程的進(jìn)行迅速增長(zhǎng)。達(dá)到在五百個(gè)分子后,每嘗試五個(gè)分子,就可以找到一個(gè)吸收長(zhǎng)波可見(jiàn)光并且激發(fā)態(tài)時(shí)間長(zhǎng)的過(guò)渡金屬吸光團(tuán)簇。保守估計(jì),這種方法的改進(jìn)帶來(lái)了將近 1000 倍的加速,相當(dāng)于將原本三年的研發(fā)周期縮短到了一天!段博士的工作也于近期作為封面文章發(fā)表在 JACS Au。

圖片

論文鏈接:Duan et al., https://doi.org/10.1021/jacsau.2c00547

在 AI 快速發(fā)展的時(shí)代。作為個(gè)人,應(yīng)該怎么樣把這些技術(shù)與我們領(lǐng)域知識(shí)結(jié)合在一起?AI4S 當(dāng)前研究進(jìn)展處于什么階段?AI4S 前景如何?我們一起看看專(zhuān)注于「AI+化學(xué)/材料」領(lǐng)域的研究者賈皓鈞博士和段辰儒博士,怎么看待 AI4S。以及兩位在 AI4S 領(lǐng)域的相關(guān)探索研究。

圖片


賈皓鈞(左)和段辰儒(右)

ScienceAI:兩位能介紹一下自己?jiǎn)幔?/strong>

段辰儒:我目前在 Microsoft Azure Quantum 做研究科學(xué)家,主要研究生成式 AI 和大模型在化學(xué)方面的應(yīng)用,和微軟 AI4S 研究的產(chǎn)品化。兩年前在 MIT 獲得化學(xué)博士學(xué)位,博士期間主要做 AI4Chemistry 的研究,開(kāi)創(chuàng)了 AI 決策模型在高通量計(jì)算中的整合,使得 AI+計(jì)算更好的服務(wù)于化學(xué)和材料發(fā)現(xiàn)。工作之余,我也一直參與組織在機(jī)器學(xué)習(xí)會(huì)議上的 AI4S workshop(https://ai4sciencecommunity.github.io/neurips23.html) 系列,推動(dòng)社區(qū)發(fā)展。

圖片

賈皓鈞:我目前在 MIT 化學(xué)系和化工系博士第五年,博士期間師從 AI 助力化學(xué)設(shè)計(jì)領(lǐng)軍人物 Heather Kulik,主要研究方向是結(jié)合高通量量子化學(xué)和人工智能來(lái)幫助發(fā)現(xiàn)用于碳中和的新型催化材料。我之前也曾在陶氏化學(xué)核心研發(fā)部門(mén)進(jìn)行研發(fā)工作,致力于使用 AI 來(lái)研發(fā)催化劑配方以及預(yù)測(cè)化學(xué)反應(yīng)的路徑。除了科研方面,我之前也擔(dān)任過(guò)麻省理工學(xué)院中國(guó)學(xué)生學(xué)者聯(lián)合會(huì)(MIT CSSA)2022-2023 主席。

ScienceAI:我們了解到兩位之前本科都畢業(yè)于物理系,能給我們講一下從本科到現(xiàn)在的這段科研和工作經(jīng)歷嗎?因何與 AI 結(jié)緣的?

賈皓鈞:我本科是學(xué)物理的,在上學(xué)期間研究比較廣泛,主要做過(guò)二維材料,電池,超導(dǎo),合金的第一性原理計(jì)算模擬。而那時(shí) PyTorch 和 TensorFlow 還沒(méi)流行,但大量的數(shù)據(jù)也讓我意識(shí)到材料篩選的重要性,這也因此打下了我與 AI 結(jié)緣的伏筆。后來(lái)到美國(guó)之后,發(fā)現(xiàn)結(jié)合 AI 算法可以大規(guī)模的來(lái)進(jìn)行高通量篩選和預(yù)測(cè)。之前幾個(gè)模擬等很多天出的結(jié)果,現(xiàn)在結(jié)合 AI 算法可以進(jìn)行million 材料數(shù)量級(jí)別的高通量篩選和預(yù)測(cè)。從我邁入科研的大門(mén)到如今短短十年時(shí)間,計(jì)算模擬已經(jīng)不再是單純的驗(yàn)證實(shí)驗(yàn),而是真實(shí)應(yīng)用到工業(yè)界。AI4S 的范式是一個(gè)真實(shí)在發(fā)生的事,有很大的市場(chǎng)潛力。

至于為什么轉(zhuǎn)向偏化學(xué),是因?yàn)楹髞?lái)我發(fā)現(xiàn)物理離現(xiàn)實(shí)稍微有點(diǎn)遠(yuǎn)。我當(dāng)時(shí)做學(xué)術(shù)的一個(gè)大的目標(biāo)是想「做出的成果既能上得了書(shū)架,也能上得了貨架」。我更想做一些偏實(shí)際的東西,所以本科也在約翰霍普金斯大學(xué)化學(xué)系待過(guò),做一些氣相表面化學(xué)的實(shí)驗(yàn)研究。其實(shí)那個(gè)時(shí)候是第一次接觸化學(xué),但發(fā)現(xiàn)了很多有意思的地方。例如,物理多數(shù)情況關(guān)注現(xiàn)象本身,即宇宙本身的規(guī)律?;瘜W(xué)更多關(guān)注的是過(guò)程和改變,是我們可以進(jìn)行人為調(diào)控的。在這之中,我們能找到一些真正有價(jià)值的東西。這也是我從物理專(zhuān)業(yè)轉(zhuǎn)向化學(xué)的原因。

段辰儒:我跟皓鈞的經(jīng)歷比較相像,我本科做的是理論凝聚態(tài),研究有趣的量子相變等現(xiàn)象。盡管這些研究領(lǐng)域引人入勝,但與實(shí)際應(yīng)用之間存在一定距離。在這過(guò)程中,我慢慢意識(shí)到相比于探索世界底層的物理規(guī)律,我更加享受使用物理規(guī)律改造這個(gè)世界。于是在攻讀博士學(xué)位時(shí),我渴望朝著更接近應(yīng)用的方向發(fā)展。來(lái)到 MIT 之后也跟很多老師交談,其中與我導(dǎo)師聊天時(shí),有一個(gè)點(diǎn)非常吸引我,她提到組里一名學(xué)生一篇文章產(chǎn)生的數(shù)據(jù)量比她來(lái) MIT 之前整整 8 年的研究總和還多。這讓我在 2017 年就意識(shí)到了計(jì)算化學(xué)領(lǐng)域的發(fā)展速度迅猛。

我開(kāi)始閱讀與研究相關(guān)的幾篇論文,并發(fā)現(xiàn)盡管計(jì)算化學(xué)的計(jì)算能力和通量不斷增加,但整個(gè)計(jì)算流程,即如何整合各種計(jì)算,尚未得到充分的發(fā)展。因此,我猜想將 AI 融入高通量計(jì)算體系,構(gòu)建更優(yōu)秀的工作流會(huì)是學(xué)術(shù)方面的一個(gè)增長(zhǎng)點(diǎn)。2017 年,我在 MIT 開(kāi)始自己的博士生涯。雖然當(dāng)時(shí)還沒(méi)有 AI4S 的概念,但我已經(jīng)認(rèn)識(shí)到高通量計(jì)算和人工智能相結(jié)合的潛力巨大,以及它可能對(duì)各學(xué)科帶來(lái)范式的變革。于是我就堅(jiān)定的選擇了這個(gè)領(lǐng)域,實(shí)現(xiàn)了從物理到化學(xué)及工程應(yīng)用方向的轉(zhuǎn)變。

ScienceAI:兩位博士目前都專(zhuān)注于「AI+化學(xué)/材料」計(jì)算領(lǐng)域的研究,能給我們講一下 AI 如何助力計(jì)算化學(xué)嗎

賈皓鈞:量子化學(xué)是通過(guò)第一性原理計(jì)算模擬材料的性質(zhì),具體的思路是:先固定原子位置解薛定諤方程,得到材料的電子結(jié)構(gòu),然后基于電子結(jié)構(gòu)獲得這個(gè)材料的性質(zhì),例如:電子能量、力學(xué)性質(zhì)和結(jié)構(gòu)性質(zhì)等等。第一步解薛定諤方程是計(jì)算量極大的量子多體問(wèn)題,它的計(jì)算量隨著模擬的原子數(shù)指數(shù)增加,也是目前最難解決的,甚至可以說(shuō)是從頭算模擬領(lǐng)域的「卡脖子」問(wèn)題。薛定諤方程的復(fù)雜性使其難以求解。但隨著 AI 技術(shù)的發(fā)展,我們可以通過(guò)元素的內(nèi)稟屬性(原子半徑、電負(fù)性、價(jià)電子等等)、材料的鍵長(zhǎng)鍵角等等,「繞過(guò)」薛定諤方程多體問(wèn)題,直接預(yù)測(cè)材料的性質(zhì)。有兩種主要思路:

通過(guò) AI 預(yù)測(cè)電子結(jié)構(gòu)來(lái)獲取材料性質(zhì):這一方法的優(yōu)點(diǎn)在于其物理基礎(chǔ),即從電子結(jié)構(gòu)到性質(zhì)的轉(zhuǎn)化是清晰的,沒(méi)有黑箱。然而,挑戰(zhàn)在于處理材料的波函數(shù),它涉及到大量的矩陣,并且受到電子數(shù)量的限制,這限制了模擬的規(guī)模。AI預(yù)測(cè)波函數(shù)也很具挑戰(zhàn)性。一種可行的方法是將材料的電子波函數(shù)投影到原子基組上,然后通過(guò) AI 預(yù)測(cè)投影系數(shù)。然而,這會(huì)引發(fā)物理和數(shù)學(xué)上的問(wèn)題,如基組的完備性等,這些問(wèn)題在將其應(yīng)用于實(shí)際系統(tǒng)時(shí)會(huì)帶來(lái)技術(shù)挑戰(zhàn)。

通過(guò) AI 預(yù)測(cè)材料性質(zhì)而不考慮電子結(jié)構(gòu):這種方法的優(yōu)勢(shì)在于完全規(guī)避了多體問(wèn)題,理論上可以用于處理大型體系。然而,這種方法高度依賴(lài)于大量的訓(xùn)練數(shù)據(jù)。相較之下,第一種方法可能有助于發(fā)現(xiàn)新的物理機(jī)制。不過(guò),第二種方法已廣泛用于新材料的探索和設(shè)計(jì),顯著加速了材料研發(fā)周期。例如,結(jié)合高通量計(jì)算與 AI 來(lái)預(yù)測(cè)性質(zhì),可以快速篩選出受關(guān)注的催化劑、電池、二維材料等。AI也能用于預(yù)測(cè)原子受力,加速分子動(dòng)力學(xué)模擬或結(jié)構(gòu)搜索,從而提高材料模擬的規(guī)模和精度。

段辰儒:皓鈞已經(jīng)說(shuō)了很多量子化學(xué)怎么樣來(lái)幫助我們來(lái)算一些材料的性質(zhì)。但其實(shí)還有一個(gè)問(wèn)題:這么多量子化學(xué)方法,都會(huì)涉及到一些近似,那選取不同的近似就會(huì)給出不一樣的結(jié)果。那怎么樣來(lái)用 AI 幫助我們從怎么多計(jì)算方法中選擇一個(gè)「最合適」的?或者怎么樣能夠利用多個(gè)「近似的結(jié)果」得到一個(gè)「更加準(zhǔn)確的結(jié)果」?最近受抖音「用戶(hù)—短視頻」匹配邏輯的啟發(fā),我想到可以做「化學(xué)材料—計(jì)算方法」匹配。通過(guò)搭建「密度泛函推薦器」,我們首次將金屬有機(jī)配合物的高通量計(jì)算的準(zhǔn)確度逼近了實(shí)驗(yàn)測(cè)量的誤差精度。這個(gè)文章也發(fā)表在了 Nature 大子刊 Nature Computational Science 上,并獲得了 Nature 新聞評(píng)論的關(guān)注。我認(rèn)為這些把 AI 決策模型融合進(jìn)計(jì)算流程的想法是「抹平」計(jì)算和實(shí)驗(yàn)結(jié)果差距的關(guān)鍵。

圖片


論文鏈接:https://www.nature.com/articles/s43588-022-00384-0

ScienceAI:傳統(tǒng)的化學(xué)/材料研究方式是什么樣的?有沒(méi)有比較成熟的方法理論,材料數(shù)據(jù)庫(kù)或者平臺(tái)?

賈皓鈞:傳統(tǒng)的材料研究方法是試錯(cuò)法,就像愛(ài)迪生試驗(yàn)燈絲一樣,比如逐一替換元素。以前一段特別火的超導(dǎo)為例,La-Ba-Cu-O 超導(dǎo)體是最早的銅基超導(dǎo)體,獲得了諾貝爾物理學(xué)獎(jiǎng),但是它只有 35 K 的超導(dǎo),低于液氮溫區(qū),但是 Y替換 La 之后,Y-Ba-Cu-O 超導(dǎo)體的超導(dǎo)溫度高于液氮溫區(qū),使得銅基超導(dǎo)體被廣泛引用。傳統(tǒng)的研究方式就特別像以前的「手工作坊」,材料研發(fā)周期非常長(zhǎng),而且耗費(fèi)的人力物力也是巨大的,并且存在偶然性。

隨著計(jì)算機(jī)技術(shù)和量子力學(xué)理論的發(fā)展,基于密度泛函理論的材料預(yù)測(cè)方法變得成熟。結(jié)合結(jié)構(gòu)搜索算法和高通量計(jì)算,我們可以更有效地篩選候選材料,從而節(jié)約試錯(cuò)成本。從計(jì)算角度,多種元素排列組合和 230 種空間群,造成材料的相空間是極大的,在不改變第一性原理算的基礎(chǔ)上,預(yù)先篩選材料是比較成熟的算法,如 CALYPSO、USPEX 和 AIRSS 等。近幾年超導(dǎo)材料研究的活躍與氫基超導(dǎo)體的發(fā)現(xiàn)有關(guān),H3S 在 150 GPa 下表現(xiàn)出了 203 K 的超導(dǎo)轉(zhuǎn)變溫度。然而這個(gè)重要的發(fā)現(xiàn)是通過(guò)遺傳算法指導(dǎo),在高壓實(shí)驗(yàn)獲得的。此外,元素替代和密度泛函計(jì)算結(jié)合數(shù)據(jù)庫(kù)也是一種有效的路徑。著名的數(shù)據(jù)庫(kù)有 material project,material cloud 等等。然而,傳統(tǒng)方法仍受到多體問(wèn)題的限制,計(jì)算成本仍然昂貴,而 AI 的出現(xiàn)提供了一種可能解決這個(gè)問(wèn)題的途徑,從根本上解決了多體問(wèn)題,使材料研究變得更高效。

段辰儒:我們科學(xué)探索的方式目前還是偏試錯(cuò)主導(dǎo)的。經(jīng)常是一些偶然的不可控因素帶來(lái)了一大波新發(fā)現(xiàn)。其實(shí)整個(gè) AI4S 的核心在于科學(xué)發(fā)現(xiàn)的體系化。比如當(dāng)我們產(chǎn)生了大量數(shù)據(jù)的時(shí)候,我們可以用這些數(shù)據(jù)來(lái)建 AI 模型,之后更加定向的探索這個(gè)空間,而不是去隨機(jī)的探索。以及我們可以用一些生成式 AI,不去篩選整個(gè)空間,反而來(lái)生成一些新的分子和材料。這些方法論上的改變,最終會(huì)帶來(lái)范式的遷移,使整個(gè)科學(xué)研究更加體系化,平民化。這樣,能夠讓更多的人以更加低的壁壘參與到科學(xué)研究當(dāng)中,加快科學(xué)發(fā)現(xiàn)的迭代,提高科學(xué)研究的成果轉(zhuǎn)化率。

ScienceAI:AI4S 會(huì)使這種科學(xué)發(fā)展的「意外之喜」(偶然性)越來(lái)越少嗎?

段辰儒:趨勢(shì)是「意外之喜」會(huì)越來(lái)越少,「意料之喜」會(huì)越來(lái)越多,總體而言「喜大于憂(yōu)」。在任何的優(yōu)化中,行為模式都可以分為兩類(lèi),一個(gè)的是利用已有的先驗(yàn)知識(shí),來(lái)進(jìn)行下一步的選擇。比如,皓鈞剛說(shuō)的超導(dǎo)體中元素的同族元素替代。第二個(gè)是主動(dòng)探索新的未曾探索過(guò)的材料體系,LK-99 的這類(lèi)的嘗試。這其實(shí)和我們?nèi)ゲ宛^點(diǎn)菜很像。先驗(yàn)知識(shí)就像我們對(duì)吃過(guò)的菜的評(píng)價(jià)和印象,主動(dòng)探索就像我們有時(shí)心血來(lái)潮點(diǎn)了商家的新品推薦。

優(yōu)化理論中貝葉斯優(yōu)化有很多討論如何平衡這兩種互補(bǔ)的行為來(lái)最大化探索的收益。那 AI4S 其實(shí)就是通過(guò)不斷的改進(jìn),通過(guò)科研工具庫(kù)里面的工具來(lái)調(diào)整這些平衡,導(dǎo)致我們最后的科研產(chǎn)出或者收益最大化,我們開(kāi)頭介紹的 「尋找吸收長(zhǎng)波可見(jiàn)光并且激發(fā)態(tài)穩(wěn)定的過(guò)渡金屬吸光團(tuán)簇」的工作就是一個(gè)典型的例子。它相當(dāng)于你以「試錯(cuò)法」在飯店吃了 100 個(gè)菜,都又貴又難吃,在你快把這家餐廳拉黑的時(shí)候,發(fā)現(xiàn) AI4S 的優(yōu)化方法可以精準(zhǔn)幫你點(diǎn)到這家餐廳便宜又好吃的菜。

另外,隨著生成式 AI 和擴(kuò)散生成模型的發(fā)展,那我們的科研工具庫(kù)里甚至有了主動(dòng)生成意外的可能性。之前的研究都是在一個(gè)大的材料庫(kù)里去篩材料,這其實(shí)相當(dāng)于自己限制了自己的想象空間。那生成式 AI 就會(huì)帶來(lái)一些「意外之喜」,因?yàn)樯傻牟牧虾芸赡芫筒辉谠械牟牧蠋?kù)里。這相當(dāng)于飯店里的菜難吃不要緊,咱可以直接用 AI 生成新的菜單!這些模型其實(shí)已經(jīng)被應(yīng)用到了很多科學(xué)研究中,比如生成一些能量比較穩(wěn)定的分子,以及對(duì)于一個(gè)蛋白質(zhì)和靶點(diǎn)生成小分子藥物等等。

最近,我們做一個(gè)項(xiàng)目使生成式 AI 不拘泥于生成一個(gè)單一的結(jié)構(gòu),而是直接生成化學(xué)這門(mén)學(xué)科研究的核心—全新的化學(xué)反應(yīng)。我們戲稱(chēng)這個(gè)方法為現(xiàn)代「AI煉金術(shù)」哈哈,因?yàn)樗澈蟮脑黼m然有統(tǒng)計(jì)學(xué)理論的支撐,但在應(yīng)用層面就像古代煉金術(shù)一樣可以幫助我們直接探索完全未知的化學(xué)反應(yīng),生成符合統(tǒng)計(jì)分布的「意料之喜」。

圖片


ScienceAI:ChatGPT 已火爆全球,之后出來(lái)很多基礎(chǔ)科研領(lǐng)域的「類(lèi) ChatGPT」,你們覺(jué)得當(dāng)前科研領(lǐng)域的大模型研究處于什么階段?未來(lái)會(huì)有咋樣的一個(gè)「科研 ChatGPT」?

段辰儒:之前有一本很火的書(shū)《Quantum Physics for Babies》(寶寶的量子物理學(xué))。我覺(jué)得現(xiàn)在的狀態(tài)就是 「Science GPT for Babies」。主要原因是 ChatGPT 是 2022 年底出來(lái)的,時(shí)間還很短,大家的慣性思考仍然停留在怎么樣把 GPT 直接應(yīng)用在原本的問(wèn)題上。這導(dǎo)致目前在 Science 方面,大部分工作都是一些簡(jiǎn)單的GPT直接應(yīng)用,或者做一些微調(diào)。但這個(gè)階段很快就會(huì)過(guò)去。GPT 本身真正帶來(lái)的潛力,是改變了人們與機(jī)器,以及不同的機(jī)器之間相互交互的方式。比如原本需要會(huì)寫(xiě) Python,我才能做一些機(jī)器學(xué)習(xí)的東西。那我現(xiàn)在很多寫(xiě)代碼的任務(wù)可以交給 GPT?;蛘邽榱俗鰴C(jī)器人,我可能需要會(huì)寫(xiě) VB 這樣的「古老代碼」,因?yàn)槟切┬酒际抢系摹D俏椰F(xiàn)在可能只用自然語(yǔ)言也可以做這個(gè)交互。

未來(lái),我覺(jué)得值得探索的方向是以 GPT 為核心,串聯(lián)復(fù)雜的研發(fā)過(guò)程。以及在工業(yè)生產(chǎn)鏈條中,把它作為自然語(yǔ)言的接口,這樣就可以降低人們學(xué)習(xí)各種復(fù)雜的軟件、其他編程語(yǔ)言以及各種儀器之間的壁壘。另外兩個(gè)比較有意思的方向,是(1)我們能不能把 GPT 這一套預(yù)訓(xùn)練的方法用在分子或者材料領(lǐng)域,來(lái)做一個(gè)材料大模型或者化學(xué)大模型,從而去降低或者減弱化學(xué)材料領(lǐng)域里獲得實(shí)驗(yàn)數(shù)據(jù)比較昂貴的問(wèn)題。(2)我們能不能轉(zhuǎn)變材料設(shè)計(jì)的思維方式,從之前的篩選到我們現(xiàn)在用 GPT 這樣的方法來(lái)生成一個(gè)新的材料。我覺(jué)得這兩個(gè)方向上的探索都會(huì)比 GPT 直接的應(yīng)用會(huì)更加令人興奮一些。

賈皓鈞:我稍微補(bǔ)充一點(diǎn)。首先 GPT 是大語(yǔ)言模型,如果你用 ChatGPT 頻率高的話(huà),就發(fā)現(xiàn)它的準(zhǔn)確性是相對(duì)比較差的。但是科學(xué)問(wèn)題,尤其是化學(xué)材料這種定量學(xué)科,非常注重精確。第二個(gè)問(wèn)題,就是大語(yǔ)言模型目前很難生成出超出人類(lèi)認(rèn)知邊界的內(nèi)容。但做科研,一般來(lái)說(shuō)我們就是要拓寬人類(lèi)認(rèn)知邊界,發(fā)現(xiàn)新的現(xiàn)象和建立新的理論。第三個(gè)問(wèn)題,做某一個(gè)垂直領(lǐng)域的大語(yǔ)言模型,比如材料、化學(xué)或物理之類(lèi)的,能找到所有論文和公開(kāi)數(shù)據(jù)庫(kù),一般都是已經(jīng)做出來(lái)的東西,只有成功的案列,這個(gè)會(huì)導(dǎo)致訓(xùn)練集有很大的偏差。但我覺(jué)得之后各個(gè)領(lǐng)域,科研領(lǐng)域或?qū)W術(shù)領(lǐng)域,或某一個(gè)工業(yè)領(lǐng)域肯定會(huì)有垂直大模型出現(xiàn)。

ScienceAI:目前的 big tech(大型科技企業(yè))對(duì)于 AI4S 有什么想法和行動(dòng)?傳統(tǒng)的材料化學(xué)制造業(yè)巨頭是怎么看 AI4S?

賈皓鈞:DeepMind 最早的 AlphaFold 算是 AI4S 出圈的一個(gè)產(chǎn)品。國(guó)外的tech 巨頭都在 AI4S 投入非常多的真金白銀,微軟 2022 年開(kāi)始專(zhuān)門(mén)成立了 AI4S 研究院,Meta 的 Open Catalysts 和 ESMFold,以及 Nvidia 最近的BioNeMo。在國(guó)內(nèi)的話(huà),字節(jié)跳動(dòng)也已經(jīng)有 AI4S 部門(mén),以及深勢(shì)科技這種專(zhuān)一的平臺(tái)初創(chuàng)企業(yè)。AI4S 可以做的東西很多,也比較受資本的青睞。兩個(gè)多月前,Meta 剛把 ESMFold 整個(gè)團(tuán)隊(duì)解散,但這個(gè)團(tuán)隊(duì)的 8 個(gè)核心成員兩周后又融資到 40 million 美元,開(kāi)始做他們模型的應(yīng)用。大廠(chǎng)的邏輯,是背靠自己的算力和云服務(wù),做一個(gè)平臺(tái),旨在把 AI4S 中比較成熟的方法產(chǎn)品化,以一些 ToB 或 ToC 的服務(wù)提供給大家。

從這個(gè)角度來(lái)看,傳統(tǒng)的化工巨頭其實(shí)是這些big tech 平臺(tái)的用戶(hù)。比如在微軟最新推出的產(chǎn)品 Azure Quantum Elementshttps://quantum.microsoft.com/en-us/our-story/quantum-elements-overview,已經(jīng)爭(zhēng)取到了很多化學(xué)化工和材料的巨頭,比如BASF,AspenTech ,Johnson Matthey。但同時(shí)這些化學(xué)材料廠(chǎng)內(nèi)部也會(huì)有自己的數(shù)字創(chuàng)新團(tuán)隊(duì)以及 AI4S 方面的研究。但由于發(fā)展的歷史路徑不同,化學(xué)材料廠(chǎng)的的固定盈利模式都不太利于從原本的偏實(shí)驗(yàn)到偏 AI 的材料范式遷移的發(fā)生。

目前來(lái)看,不管是 big tech 還是傳統(tǒng)的化學(xué)材料制造巨頭都對(duì) AI4S 非常感興趣,也都花了非常多的金錢(qián)投入。但兩邊還是有一定的知識(shí)差,這需要花不少的時(shí)間去磨合,達(dá)成一致。

段辰儒:皓鈞主要是從 big tech 角度說(shuō)的,我從傳統(tǒng)的材料化學(xué)制造業(yè)來(lái)聊聊。例如傳統(tǒng)的材料化學(xué)制造業(yè)巨頭:BASF,DOW,3M 等,他們正在努力將 AI 技術(shù)結(jié)合到其已有的工業(yè)生產(chǎn)技術(shù)上。從前端的材料的 R&D 產(chǎn)業(yè)到中游的生產(chǎn)反應(yīng)條件優(yōu)化。他們一般目前叫「數(shù)字化創(chuàng)新」(Digital Innovation),這個(gè)事情在產(chǎn)業(yè)內(nèi)是達(dá)成共識(shí)的。具體投資情況,僅陶氏化學(xué)內(nèi)部投入 Digital Innovation 去年是 4 億美元,今年是 5.7 億美元,明年會(huì)更多。除此之外,另外一個(gè)更重要的外部目標(biāo) 2050 Carbon neutrality 的目標(biāo),優(yōu)化和提升現(xiàn)有生產(chǎn)過(guò)程中的原料利用率和生產(chǎn)效率極為重要,尤其在目標(biāo)開(kāi)始初始階段。

科技巨頭和傳統(tǒng)制造業(yè)巨頭雙方其實(shí)對(duì) AI4S 都達(dá)成了一致,但是雙方的出發(fā)點(diǎn)有不一樣。這個(gè)事情就像自上而下(top down) 和自下而上(bottom up)的區(qū)別。舉個(gè)例子,Microsoft 和 Google 它原本不是做這個(gè)行業(yè)的傳統(tǒng)出身,那他們更傾向于從一個(gè) top down 出發(fā),從一個(gè)更高角度來(lái)提出一些模型來(lái)解決這個(gè)問(wèn)題。這些傳統(tǒng)的行業(yè),可能是先優(yōu)化現(xiàn)在的東西,例如材料配方或者反應(yīng)條件,從 bottom up 來(lái)做。傳統(tǒng)行業(yè)大規(guī)模用 AI4S 角度來(lái)做一些事情會(huì)很困難,因?yàn)槠湓镜难邪l(fā)路徑和龐大的產(chǎn)業(yè)結(jié)構(gòu)拖慢其 AI 變革的速度,船大掉頭難。

ScienceAI:提到 AI 賦能企業(yè)科學(xué)研究,其中 AI 制藥似乎占比最多?「AI+化學(xué)/材料」的產(chǎn)業(yè)落地更難嗎?

賈皓鈞:目前我個(gè)人感覺(jué),就落地上來(lái)說(shuō),AI+化學(xué)/材料相對(duì)來(lái)說(shuō)是容易的。其實(shí)我們組畢業(yè)的師兄師姐很多去了大藥廠(chǎng),而且劍橋就是生物醫(yī)藥的中心,其實(shí)我最早也考慮過(guò)做制藥,但為什么沒(méi)有做?

首先,藥物從一個(gè)新化合物從最初的發(fā)現(xiàn)到申請(qǐng)上市,大約需要經(jīng)過(guò) 15 年的時(shí)間。這個(gè)里面時(shí)間上最大的瓶頸是 clinical trail 的時(shí)間,而不是找藥物分子的這個(gè)過(guò)程。但材料/化學(xué)發(fā)現(xiàn),雖然也有后期的工程放大,但是目前核心的瓶頸還是找到一個(gè)合適的材料或者說(shuō)是合適的配方。

另外,對(duì)于篩選的技術(shù)角度來(lái)說(shuō),一個(gè)核心的目標(biāo)是從一個(gè)大的目標(biāo)數(shù)據(jù)集,縮小到小的數(shù)據(jù)集,無(wú)論是小分子相互作用還是蛋白-蛋白相互作用,即使找到了合適的特定靶向藥物,在人體復(fù)雜的環(huán)境中,也很難保證不進(jìn)行其他的化學(xué)反應(yīng),藥物遞送本身就是一個(gè)很困難的問(wèn)題。

最后,對(duì)于一個(gè)材料來(lái)說(shuō),能用不能用,從實(shí)驗(yàn)室,小試,中試,大試測(cè)一遍就知道。所以從這個(gè)角度來(lái)說(shuō),材料就更容易一些,也更能解決行業(yè)內(nèi)的痛點(diǎn)。

段辰儒:我覺(jué)得這需要結(jié)合具體的情況和產(chǎn)業(yè)鏈,從工業(yè)的角度上來(lái)說(shuō),AI+化學(xué)/材料的優(yōu)勢(shì)是工業(yè)上擴(kuò)大生產(chǎn)的能力比較成熟和標(biāo)準(zhǔn)化,尤其是國(guó)內(nèi)化學(xué)化工產(chǎn)業(yè)的擴(kuò)大生產(chǎn)能力其實(shí)非常強(qiáng)。我們主要的瓶頸反而是一開(kāi)始怎么樣能夠發(fā)現(xiàn)一個(gè)更好的催化材料。在化學(xué)材料領(lǐng)域現(xiàn)在比較難的那部分是一開(kāi)始的創(chuàng)新,而在藥物領(lǐng)域其實(shí)有點(diǎn)相反,是最后面的臨床試驗(yàn)、FDA 批準(zhǔn)更加困難。所以,從邏輯上來(lái)講,把 AI4S 應(yīng)用在化學(xué)材料上做產(chǎn)業(yè)化反而會(huì)相對(duì)更加合理一些。

ScienceAI:從「基礎(chǔ)科學(xué)研究」走向「工業(yè)落地」似乎一直是個(gè)難題,在 AI 助力的下,如何更好地加速產(chǎn)業(yè)落地?

段辰儒:落地的確是非常難的問(wèn)題,因?yàn)閱我荒P偷慕^對(duì)領(lǐng)先既不是「工業(yè)落地」的充分條件,也不是必要條件。AlphaFold 作為 AI4S 領(lǐng)域最有代表性的工作之一,已經(jīng)慢慢被應(yīng)用在一些藥物研發(fā)過(guò)程中。大家最近發(fā)現(xiàn),雖然AlphaFold 可以產(chǎn)生非常好的蛋白質(zhì)結(jié)構(gòu),但在 docking(即蛋白質(zhì)和小分子藥物的結(jié)合結(jié)構(gòu))預(yù)測(cè)上不盡如人意。很多人覺(jué)得這個(gè)結(jié)果出乎意料,而我覺(jué)得蠻正常的—— 因?yàn)?AlphaFold 在設(shè)計(jì)時(shí)就沒(méi)有考慮到 docking。我們科學(xué)研究中遇到的問(wèn)題,首先它是一個(gè)簡(jiǎn)化的問(wèn)題,二它是一個(gè)局部的問(wèn)題。簡(jiǎn)化的問(wèn)題是指我們把問(wèn)題簡(jiǎn)單化,做了一些近似。局部的問(wèn)題,是指我們把一個(gè)非常長(zhǎng)的產(chǎn)業(yè)鏈掏出來(lái)一部分,做一個(gè)問(wèn)題。那在這種情況下,即使我們做的模型的準(zhǔn)確率是 100%,也是沒(méi)有辦法「落地」的,因?yàn)樗讣冉朴制妗埂?/span>

所以我覺(jué)得「落地」的難點(diǎn),更多是對(duì)工業(yè)場(chǎng)景的了解和整合。比如,我們?cè)趺礃訌?AI 的角度出發(fā),把這些模型用到工業(yè)界當(dāng)中,不斷測(cè)試迭代,在工業(yè)界中形成一個(gè)比較好的工作流來(lái)切實(shí)解決問(wèn)題。這其實(shí)是用更加發(fā)展的眼光看問(wèn)題,相比于用 AI 的方法解決一個(gè)具體的問(wèn)題,我們更需要以 AI 的角度持續(xù)思考和改進(jìn)已有的工作流,即同時(shí)改進(jìn) AI 模型和問(wèn)題本身。尤其是在現(xiàn)在這種開(kāi)源的大背景之下,單一模型上的領(lǐng)先并不能給出非常大的壁壘。ChatGPT 一開(kāi)始剛出來(lái)的時(shí)候,是「吊打」其他所有大模型的存在。但是經(jīng)過(guò)一年的時(shí)間,在開(kāi)源環(huán)境的不斷促進(jìn)下,大家和 ChatGPT 的差距也越來(lái)越小。所以,我覺(jué)得在「落地」角度,我們不應(yīng)該只追求單一模型的準(zhǔn)確,更多考慮如何根據(jù)實(shí)際問(wèn)題研發(fā)出來(lái)有效的工作流,把不同的模型串聯(lián)起來(lái),并且與工業(yè)界緊密結(jié)合,不斷迭代。

賈皓鈞:從 「基礎(chǔ)科學(xué)研究'」走向 「工業(yè)落地」一直都是一個(gè)復(fù)雜的挑戰(zhàn)。首先,我們需要明確,基礎(chǔ)科學(xué)研究的目標(biāo)就不是直接為工業(yè)應(yīng)用提供解決方案。舉個(gè)例子,在科技發(fā)展的標(biāo)度上,成熟工業(yè)可能處于 100 的級(jí)別,而基礎(chǔ)科學(xué)研究則是從 0 到 1 或 0 到 0.1 的過(guò)程。這種研究通常發(fā)生在學(xué)?;蚩蒲性核也⒉皇敲總€(gè)項(xiàng)目都能取得成功,也并不是每一個(gè)研究方向都會(huì)立即產(chǎn)生工業(yè)應(yīng)用。

但這并不意味著所有的基礎(chǔ)科學(xué)成果都無(wú)法轉(zhuǎn)化為工業(yè)應(yīng)用,因?yàn)樵诟咝;蜓芯繖C(jī)構(gòu)中,盡管大部分研究是從 0 到 0.1 或者 0 到 1 的過(guò)程,但一旦某項(xiàng)成果成功,它可能會(huì)對(duì)特定行業(yè)產(chǎn)生深遠(yuǎn)的影響。這種情況在國(guó)內(nèi)可能受到中國(guó)和美國(guó)產(chǎn)業(yè)發(fā)展階段的不同的影響。在美國(guó),很多 0.1 到 100 的發(fā)展和 1 到 100 的發(fā)展都由初創(chuàng)公司推動(dòng),而國(guó)內(nèi)也正在逐漸發(fā)展 「產(chǎn)學(xué)研」模式。 

段辰儒:我心目中的科學(xué)工作者的理想是做兩件事情。第一個(gè)是了解物質(zhì)世界,這是比較基礎(chǔ)的學(xué)科(物理、化學(xué)等)會(huì)做的事情,相當(dāng)于探索世界的底層運(yùn)行規(guī)律。第二個(gè)是改造世界,那改造世界其實(shí)更偏向于我們剛說(shuō)的「落地」,可能是工程系做的事情。AI4S 是可以?xún)烧叨季邆涞模瓤梢詭椭恍┑讓右?guī)律的發(fā)現(xiàn)(即 Science of AI),也可以用在更加偏應(yīng)用的方面,來(lái)幫助我們更好的改造世界。

ScienceAI:在 AI4S 新的科研范式下,對(duì)于傳統(tǒng)化學(xué)/材料學(xué)科的研究者,從原來(lái)的舒適圈轉(zhuǎn)向交叉研究過(guò)程會(huì)遇到什么困難,如何去解決它?給我們打算即將進(jìn)入交叉領(lǐng)域研究的后輩有什么建議?

賈皓鈞:任何人都不可能做到全才,能把一件事情做到很好就已經(jīng)非常了不起了。從更廣的角度來(lái)說(shuō),衡量我們能不能做到一件事情通常只用考慮三個(gè)維度。首先你有沒(méi)有能力來(lái)做這件事情?以轉(zhuǎn)專(zhuān)業(yè)為例,假如從人文類(lèi)學(xué)科想轉(zhuǎn)到物理或者化學(xué)相對(duì)就比較難,你可能要在短期內(nèi)大量學(xué)習(xí)各種新知識(shí),同時(shí)面對(duì)很高的壓力。第二個(gè)維度是你是否對(duì)這東西感興趣。以讀博來(lái)講,那你是不是至少五年的讀博期間有足夠的興趣來(lái)支撐。第三個(gè)維度就是這個(gè)東西未來(lái)有沒(méi)有前景。所以我們追求的事情就是這三個(gè)事情的交集,可以從這三個(gè)維度分別想。

段辰儒:AI4S 并不是讓大家把兩門(mén)學(xué)科學(xué)的一樣好,達(dá)到 5:5 的狀態(tài)。即使達(dá)到 5:5 的水平,但缺乏思考以及沒(méi)有足夠多的上手經(jīng)驗(yàn)依然很難有關(guān)鍵成就。我個(gè)人認(rèn)為比較理想的是 3:7 或者 2:8 的狀態(tài)。AI4S 的生態(tài)非常開(kāi)放,有很多開(kāi)源的代碼庫(kù)和開(kāi)源工具大家可以去運(yùn)用,同時(shí)也鼓勵(lì)不同思想的碰撞。關(guān)鍵還是大家要有自己真正擅長(zhǎng)的領(lǐng)域,之后主動(dòng)去交流,其實(shí)并不用愁找不到互補(bǔ)的合作者。比如之前說(shuō)的生成式 AI 做化學(xué)反應(yīng)的工作,就是在一位有擴(kuò)散模型經(jīng)驗(yàn)的計(jì)算系小伙伴的幫助下合作的結(jié)果。

作為傳統(tǒng)化學(xué)研究者,其實(shí)只需要花自己平時(shí) 20% 的時(shí)間去學(xué)習(xí)一些 AI 相關(guān)的知識(shí),保證在和計(jì)算系的伙伴交流的時(shí)候,能夠聽(tīng)懂對(duì)方的語(yǔ)言就已經(jīng)足夠了。這也是我們持續(xù)組織 AI4S workshop 的原因:提供一個(gè)交流的平臺(tái),讓不同領(lǐng)域的人有機(jī)會(huì)都參加討論自己的想法,壯大 AI4S 社區(qū)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2015-09-02 14:27:30

戴爾大數(shù)據(jù)

2021-10-26 21:14:15

AI人工智能

2024-07-30 10:22:01

2013-06-18 10:13:46

大數(shù)據(jù)量化數(shù)據(jù)數(shù)據(jù)價(jià)值

2021-10-18 12:09:29

AI 數(shù)據(jù)人工智能

2023-03-22 08:00:00

2011-03-22 10:16:01

蘋(píng)果

2024-09-03 13:30:00

2024-04-12 08:32:03

JSAI機(jī)器學(xué)習(xí)

2021-11-04 15:30:56

AI 數(shù)據(jù)人工智能

2020-06-04 07:00:00

人工智能AIRedis

2024-04-07 00:00:00

JSNode.jsAI

2024-04-12 14:12:45

人工智能JavaScript

2024-03-15 08:22:35

JmzyAI開(kāi)源模型AIGC產(chǎn)品

2024-09-04 15:28:20

2017-11-16 15:36:02

人工智能云端云計(jì)算

2021-10-10 19:36:14

AI人工智能

2024-10-30 14:52:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)