自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepMind最新研究登Nature,揭示AI時代科研新范式,開拓未知領(lǐng)域,帶來全新挑戰(zhàn)

人工智能
AI技術(shù)加持之下,科學(xué)研究的效率被大大加強(qiáng),呈現(xiàn)出了全新的機(jī)會和發(fā)展空間,但也要面對新的挑戰(zhàn)和困難。

AI與各個科學(xué)領(lǐng)域結(jié)合后,正在發(fā)生著一場充滿潛力和挑戰(zhàn)的科技革命。

通過探索理論、設(shè)計實驗、分析數(shù)據(jù),人工智能將為我們所熟知的科學(xué)發(fā)現(xiàn)提供超級動力。

圖片圖片

8月2日,谷歌團(tuán)隊研究人員在Nature上發(fā)表了一項研究——人工智能時代的科學(xué)發(fā)現(xiàn),總結(jié)了AI在科學(xué)發(fā)現(xiàn)中的應(yīng)用和進(jìn)展。

圖片圖片

論文地址:https://www.nature.com/articles/s41586-023-06221-2

如何收集、轉(zhuǎn)換和理解數(shù)據(jù)為形成科學(xué)見解和理論奠定了基礎(chǔ)。

2010年代初興起的深度學(xué)習(xí),極大地擴(kuò)展了這些科學(xué)發(fā)現(xiàn)過程的范圍和雄心。

人工智能越來越多地應(yīng)用于各個科學(xué)學(xué)科,以整合海量數(shù)據(jù)集、完善測量、指導(dǎo)實驗、探索與數(shù)據(jù)相匹配的理論空間,以及提供與科學(xué)工作流程相結(jié)合的可操作的可靠模型,從而實現(xiàn)自主發(fā)現(xiàn)。

圖片圖片

數(shù)據(jù)收集和分析是科學(xué)理解和發(fā)現(xiàn)的基礎(chǔ),也是科學(xué)的兩大核心目標(biāo)、定量方法和新興技術(shù)。

20世紀(jì)50年代,數(shù)字化的引入為計算機(jī)在科學(xué)研究中的普遍應(yīng)用鋪平了道路。

自2010年代以來,數(shù)據(jù)科學(xué)的興起使AI能夠從大型數(shù)據(jù)集中識別出與科學(xué)相關(guān)的模式,從而提供有價值的指導(dǎo)。

盡管科學(xué)實踐和過程在科學(xué)研究的各個階段各不相同,但人工智能算法的發(fā)展跨越了傳統(tǒng)上孤立的學(xué)科。

這種算法可以增強(qiáng)科學(xué)研究的設(shè)計和執(zhí)行,正在成為研究人員不可或缺的工具。

圖片圖片

科學(xué)發(fā)現(xiàn)是一個多方面的過程,涉及幾個相互關(guān)聯(lián)的階段,包括假設(shè)形成、實驗設(shè)計、數(shù)據(jù)采集和分析

近來,AI在科學(xué)方面最新的進(jìn)展,就包括解開50年前的蛋白質(zhì)折疊問題,以及人工智能驅(qū)動的數(shù)百萬粒子的分子系統(tǒng)模擬,證明了人工智能解決具有挑戰(zhàn)性的科學(xué)問題的潛力。

與任何新技術(shù)一樣,AI4Science 的成功取決于,我們是否有能力將其融入日常實踐并了解其潛力和局限性。

在科學(xué)發(fā)現(xiàn)過程中,廣泛采用人工智能的障礙包括發(fā)現(xiàn)過程每個階段特有的內(nèi)部和外部因素,以及對方法、理論、軟件和硬件的實用性和潛在濫用的擔(dān)憂。

論文中,研究人員將探討人工智能科學(xué)的發(fā)展并解決關(guān)鍵問。

AI輔助科學(xué)研究數(shù)據(jù)采集與管理

實驗平臺收集的數(shù)據(jù)集規(guī)模和復(fù)雜程度不斷增加,導(dǎo)致科學(xué)研究越來越依賴實時處理和高性能計算,以選擇性地存儲和分析高速生成的數(shù)據(jù)。

數(shù)據(jù)選擇

一個典型的粒子碰撞實驗每秒產(chǎn)生超過100 TB的數(shù)據(jù)。這類科學(xué)實驗正在挑戰(zhàn)現(xiàn)有數(shù)據(jù)傳輸和存儲技術(shù)的極限。

在這些物理實驗中,99.99%以上的原始儀器數(shù)據(jù)都是背景事件,必須實時檢測并丟棄,以管理數(shù)據(jù)速率。

為了識別罕見事件,便于未來的科學(xué)研究,深度學(xué)習(xí)方法用「搜索離群信號」的算法取代了預(yù)先編程的硬件事件觸發(fā)器,以檢測壓縮過程中可能遺漏的意外或罕見現(xiàn)象。

背景過程可使用深度自動編碼器生成模型。

自動編碼器會為以前未見過的、不屬于背景分布的信號(罕見事件)返回較高的損失值(異常得分)。與有監(jiān)督異常檢測不同,無監(jiān)督異常檢測不需要標(biāo)注,已廣泛應(yīng)用于物理學(xué)、神經(jīng)科學(xué)、地球科學(xué)、海洋學(xué)和天文學(xué)。

數(shù)據(jù)標(biāo)注

訓(xùn)練有監(jiān)督模型需要帶有標(biāo)注的數(shù)據(jù)集,這些標(biāo)注可提供有監(jiān)督信息,以指導(dǎo)模型訓(xùn)練,并根據(jù)輸入估計目標(biāo)變量的函數(shù)或條件分布。

在生物學(xué)領(lǐng)域,為新表征的分子分配功能和結(jié)構(gòu)標(biāo)簽的技術(shù)對于監(jiān)督模型的下游訓(xùn)練至關(guān)重要,因為實驗生成標(biāo)簽非常困難。

例如,盡管下一代測序技術(shù)不斷發(fā)展,但只有不到1%的測序蛋白質(zhì)標(biāo)注了生物學(xué)功能。

另一種數(shù)據(jù)標(biāo)注策略,是利用在人工標(biāo)注數(shù)據(jù)上訓(xùn)練的智能體模型來標(biāo)注未標(biāo)注的樣本,并利用這些預(yù)測的偽標(biāo)簽來監(jiān)督下游預(yù)測模型。

相比之下,標(biāo)簽傳播則是通過基于特征嵌入構(gòu)建的相似性圖將標(biāo)簽擴(kuò)散到未標(biāo)記的樣本中。

除了自動標(biāo)注外,主動學(xué)習(xí)還能確定需要人工標(biāo)注的信息量最大的數(shù)據(jù)點或需要進(jìn)行的信息量最大的實驗。

通過這種方法,可以用較少的專家提供的標(biāo)簽來訓(xùn)練模型。數(shù)據(jù)標(biāo)注的另一種策略是利用領(lǐng)域知識制定標(biāo)注規(guī)則。

數(shù)據(jù)生成

隨著訓(xùn)練數(shù)據(jù)集的質(zhì)量、多樣性和規(guī)模的提高,深度學(xué)習(xí)的性能也在不斷改善。

創(chuàng)建更好模型的一個有效方法是,通過自動數(shù)據(jù)增強(qiáng)和深度生成模型,生成額外的合成數(shù)據(jù)點來增強(qiáng)訓(xùn)練數(shù)據(jù)集。

除了人工設(shè)計此類數(shù)據(jù)擴(kuò)增外,強(qiáng)化學(xué)習(xí)方法還能發(fā)現(xiàn)一種自動數(shù)據(jù)擴(kuò)增策略,這種策略既靈活又與下游模型無關(guān)。

深度生成模型,包括變異自動編碼器、生成對抗網(wǎng)絡(luò)、歸一化流和擴(kuò)散模型,可以學(xué)習(xí)底層數(shù)據(jù)分布,并從優(yōu)化的分布中采樣訓(xùn)練點。

生成式對抗網(wǎng)絡(luò)已被證明可用于科學(xué)圖像,因為它們可以合成許多領(lǐng)域的逼真圖像。

概率編程是生成模型中的一種新興技術(shù),并將數(shù)據(jù)生成模型表達(dá)為計算機(jī)程序。

學(xué)習(xí)科學(xué)數(shù)據(jù)有意義的表示

深度學(xué)習(xí)可以提取不同抽象程度的科學(xué)數(shù)據(jù)的有意義表征,并對其進(jìn)行優(yōu)化以指導(dǎo)研究,通常是通過端到端學(xué)習(xí)。

高質(zhì)量的表征應(yīng)盡可能多地保留數(shù)據(jù)信息,同時保持簡單易懂。

有科學(xué)意義的表征應(yīng)結(jié)構(gòu)緊湊、有鑒別性、能區(qū)分潛在的變異因素,并能編碼可在多項任務(wù)中通用的潛在機(jī)制。

在此,研究人員將介紹滿足這些要求的3種新興策略:幾何先驗、自監(jiān)督學(xué)習(xí)、語言建模。

幾何先驗

由于幾何和結(jié)構(gòu)在科學(xué)領(lǐng)域發(fā)揮著核心作用,因此在學(xué)習(xí)表征中整合「幾何先驗」已被證明是有效的。

對稱是幾何學(xué)中一個被廣泛研究的概念。它可以用不變性和等差性來描述來數(shù)學(xué)函數(shù)的行為,以表示神經(jīng)特征編碼器在一組變換下的行為。

在科學(xué)圖像分析中,物體在圖像中平移時不會發(fā)生變化,這意味著圖像分割掩碼是平移等變的,因為當(dāng)輸入像素平移時,它們會發(fā)生等效變化。

通過增加訓(xùn)練樣本,將對稱性納入模型可使AI在有限的標(biāo)注數(shù)據(jù)中受益,并可改善對與模型訓(xùn)練過程中遇到的輸入明顯不同的輸入的外推預(yù)測。

幾何深度學(xué)習(xí)

圖神經(jīng)網(wǎng)絡(luò),已成為對具有潛在幾何和關(guān)系結(jié)構(gòu)的數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)的主要方法。

從廣義上講,幾何深度學(xué)習(xí)包括,發(fā)現(xiàn)關(guān)系模式 ,并通過神經(jīng)信息傳遞算法,以圖形和變換組的形式編碼的局部信息。

圖片圖片

學(xué)習(xí)科學(xué)數(shù)據(jù)有意義的表征

自監(jiān)督學(xué)習(xí)

當(dāng)只有少數(shù)標(biāo)記樣本可用于模型訓(xùn)練,或當(dāng)為特定任務(wù)標(biāo)記數(shù)據(jù)成本過高時,監(jiān)督學(xué)習(xí)可能是不夠的。

在這種情況下,利用標(biāo)記和未標(biāo)記數(shù)據(jù)可以提高模型性能和學(xué)習(xí)能力。

自監(jiān)督學(xué)習(xí)是一種技術(shù),讓模型能夠在不依賴顯式標(biāo)簽的情況下學(xué)習(xí)數(shù)據(jù)集的一般特征。

自監(jiān)督學(xué)習(xí)是一個重要的預(yù)處理步驟,它可以在大型無標(biāo)簽數(shù)據(jù)集中學(xué)習(xí)可轉(zhuǎn)移的特征,然后在小型有標(biāo)簽數(shù)據(jù)集中微調(diào)模型,以執(zhí)行下游任務(wù)。

這種對科學(xué)領(lǐng)域有廣泛的了解的預(yù)訓(xùn)練模型,是通用預(yù)測器,可適用于各種任務(wù),從而提高標(biāo)注效率,超越純監(jiān)督方法。

語言建模

掩碼語言建模是一種流行的方法,用于自監(jiān)督學(xué)習(xí)自然語言和生物序列。

隨著自然語言和生物序列處理的不斷發(fā)展,它們?yōu)楸舜说陌l(fā)展提供了信息。

在訓(xùn)練過程中,目標(biāo)是預(yù)測序列中的下一個token,而在基于掩碼的訓(xùn)練 中,自監(jiān)督任務(wù)是使用雙向序列上下文恢復(fù)序列中的掩碼token。

蛋白質(zhì)語言模型可以,編碼氨基酸序列以捕獲結(jié)構(gòu)和功能特性,并評估病毒變體的進(jìn)化適應(yīng)性。

Transformer架構(gòu)

Transformers是一種神經(jīng)結(jié)構(gòu)模型,可以通過靈活模擬任意token對之間的相互作用,來處理token序列,超越了早期使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行序列建模的努力。

雖然Transformers統(tǒng)一了圖神經(jīng)網(wǎng)絡(luò)和語言模型,但Transformers的運行時間和內(nèi)存占用可能與序列長度成二次方關(guān)系,從而導(dǎo)致遠(yuǎn)程建模,和線性化注意機(jī)制在效率方面面臨挑戰(zhàn)。

因此,無監(jiān)督或自監(jiān)督生成式預(yù)訓(xùn)練變換器被廣泛使用,隨后進(jìn)行參數(shù)高效微調(diào)。

神經(jīng)算子

標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)模型可能無法滿足科學(xué)應(yīng)用的需要,因為它們假定數(shù)據(jù)離散度是固定的。

這種方法不適用于以不同分辨率,和網(wǎng)格收集的許多科學(xué)數(shù)據(jù)集。

此外,數(shù)據(jù)通常是從連續(xù)域中的潛在物理現(xiàn)象中采樣的,神經(jīng)算子通過學(xué)習(xí)函數(shù)空間之間的映射來學(xué)習(xí),不受離散化影響的表征。

神經(jīng)算子保證離散化不變,這意味著它們可以處理任何離散化的輸入,并在網(wǎng)格細(xì)化時收斂到一個極限。

神經(jīng)算子一旦訓(xùn)練完成,就可以在任何分辨率下進(jìn)行評估,無需重新訓(xùn)練。相比之下,當(dāng)部署過程中的數(shù)據(jù)分辨率與模型訓(xùn)練時的數(shù)據(jù)分辨率發(fā)生變化時,標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的性能就會下降。

基于人工智能的科學(xué)假設(shè)生成

可檢驗的假設(shè)是科學(xué)發(fā)現(xiàn)的核心。

科學(xué)假設(shè)的黑盒預(yù)測器

為科學(xué)探究確定有希望的假設(shè),需要有效地檢查許多候選方案,并選擇那些可以最大限度地提高下游模擬和實驗產(chǎn)量的假設(shè)。

在藥物發(fā)現(xiàn)中,高通量篩選可以評估數(shù)千到數(shù)百萬個分子,算法可以優(yōu)先考慮實驗研究哪些分子。模型可以被訓(xùn)練來預(yù)測實驗的效用,例如相關(guān)的分子特性,或符合觀察結(jié)果的符號公式。

然而,對于許多分子來說,這些預(yù)測因子的實驗事實數(shù)據(jù)可能不可用。

因此,弱監(jiān)督學(xué)習(xí)方法可以用來訓(xùn)練這些模型,其中嘈雜、有限或不精確的監(jiān)督被用作訓(xùn)練信號。

這些方法可以經(jīng)濟(jì)有效地替代人類專家的標(biāo)注、昂貴的硅學(xué)計算或更高保真的實驗。

圖片圖片

人工智能引導(dǎo)的科學(xué)假設(shè)生成

在高保真模擬上訓(xùn)練的AI方法已被用于高效篩選大型分子庫。

為了進(jìn)一步提高這些過程的效率,AI選擇的候選方案可以被送到中等或低吞吐量實驗中,以便使用實驗反饋對候選物進(jìn)行持續(xù)細(xì)化。

結(jié)果可以使用主動學(xué)習(xí)和貝葉斯優(yōu)化反饋到AI模型中,使算法能夠改進(jìn)其預(yù)測,并專注于最有前途的候選方案。

當(dāng)假設(shè)涉及分子等復(fù)雜對象時,人工智能方法就變得非常有價值。

例如,在蛋白質(zhì)折疊方面,AlphaFold2可以根據(jù)氨基酸序列預(yù)測蛋白質(zhì)的三維原子坐標(biāo),其精確度甚至可以達(dá)到原子級別,即使蛋白質(zhì)的結(jié)構(gòu)與訓(xùn)練數(shù)據(jù)集中的任何蛋白質(zhì)都不同。

這一突破促進(jìn)了各種人工智能驅(qū)動的蛋白質(zhì)折疊方法的發(fā)展,如RoseTTAFold106。

除了正向問題,人工智能方法也越來越多地用于逆向問題,旨在了解產(chǎn)生一組觀測數(shù)據(jù)的因果因素。

逆向問題,如逆向折疊或固定骨架設(shè)計,可以使用在數(shù)百萬個蛋白質(zhì)結(jié)構(gòu)上訓(xùn)練過的黑盒預(yù)測器,根據(jù)蛋白質(zhì)骨架三維原子坐標(biāo)預(yù)測氨基酸序列。

然而,此類黑盒人工智能預(yù)測器需要大量訓(xùn)練數(shù)據(jù)集,盡管減少了對現(xiàn)有科學(xué)知識的依賴,但可解釋性有限。

導(dǎo)航組合假設(shè)空間

盡管對所有與數(shù)據(jù)相匹配的假設(shè)進(jìn)行采樣是一件令人生畏的事情,但一個可以管理的目標(biāo)是尋找一個好的假設(shè),這可以表述為一個優(yōu)化問題。

與依賴人工設(shè)計規(guī)則的傳統(tǒng)方法相比,人工智能策略可用于估算每次搜索的回報,并優(yōu)先選擇價值較高的搜索方向。

通常采用強(qiáng)化學(xué)習(xí)算法訓(xùn)練的智能體來學(xué)習(xí)策略。

該智能體學(xué)會在搜索空間中采取使獎勵信號最大化的行動,獎勵信號可定義為反映所生成假設(shè)的質(zhì)量或其他相關(guān)標(biāo)準(zhǔn)。

為了解決優(yōu)化問題,可以使用進(jìn)化算法來解決符號回歸任務(wù)。該算法生成隨機(jī)符號定律作為初始解決方案集。

在每一代中,候選解決方案會有輕微變化。

算法會檢查任何修改所產(chǎn)生的符號定律是否比之前的解決方案更適合觀測結(jié)果,并將最好的解決方案保留到下一代。

不過,強(qiáng)化學(xué)習(xí)方法正逐漸取代這一標(biāo)準(zhǔn)策略。

強(qiáng)化學(xué)習(xí)利用神經(jīng)網(wǎng)絡(luò),通過添加預(yù)定義詞匯表中的數(shù)學(xué)符號,并利用所學(xué)策略決定下一步添加哪個符號,從而依次生成數(shù)學(xué)表達(dá)式。

數(shù)學(xué)公式表示為一棵解析樹。學(xué)習(xí)策略將解析樹作為輸入,以決定擴(kuò)展哪個葉節(jié)點和添加哪個符號。

使用神經(jīng)網(wǎng)絡(luò)解決數(shù)學(xué)問題的另一種方法是,將數(shù)學(xué)公式轉(zhuǎn)化為二進(jìn)制符號序列。

然后,神經(jīng)網(wǎng)絡(luò)策略可以按概率順序每次增加一個二進(jìn)制字符。

通過設(shè)計一個獎勵來衡量反駁猜想的能力,這種方法可以在沒有數(shù)學(xué)問題的先驗知識的情況下,找到對數(shù)學(xué)猜想的反駁方法。

組合優(yōu)化也適用于發(fā)現(xiàn)具有理想藥物性質(zhì)的分子等任務(wù),其中分子設(shè)計中的每一步,都是一個離散的決策過程。

在這個過程中,部分生成的分子圖被給出作為學(xué)習(xí)策略的輸入,對在哪里添加新原子以及在分子中的選定位置添加哪個原子做出離散的選擇。

通過迭代執(zhí)行這個過程,該策略可以生成一系列可能的分子結(jié)構(gòu),根據(jù)它們對目標(biāo)屬性的適應(yīng)性進(jìn)行評估。

AI智能體學(xué)習(xí)的策略能預(yù)見一些行動,這些行動最初似乎不合常規(guī),但事實證明是有效的。

例如,在數(shù)學(xué)中,監(jiān)督模型可以識別數(shù)學(xué)對象之間的模式和關(guān)系,并幫助指導(dǎo)直覺并提出猜想。

這些分析指向了以前未知的模式,甚至是世界的新模型。

然而,強(qiáng)化學(xué)習(xí)方法可能無法在模型訓(xùn)練期間很好地泛化到看不見的數(shù)據(jù),因為一旦智能體找到一系列運行良好的動作,它可能會陷入局部最優(yōu)。

為了提高泛化,需要一些探索策略來收集更廣泛的搜索軌跡,這些軌跡可以幫助智能體在新的和修改的設(shè)置中表現(xiàn)得更好。

優(yōu)化可微分假設(shè)空間

科學(xué)假設(shè)通常采用離散對象的形式,例如物理學(xué)中的符號公式或制藥和材料科學(xué)中的化合物。

盡管組合優(yōu)化技術(shù)在其中一些問題上取得了成功,但可微空間也可以用于優(yōu)化,因為它適合基于梯度的方法,可以有效地找到局部最優(yōu)。

為了能夠使用基于梯度的優(yōu)化方法,有兩種方法經(jīng)常被使用。

第一種是使用VAE等模型,將離散的候選假設(shè)映射到潛在可變空間中的點。

第二種方法是將離散假設(shè)松弛為可在可微分空間中優(yōu)化的可微分對象。

這種松弛可以采取不同的形式,例如用連續(xù)變量替換離散變量,或使用原始約束條件的軟版本。

物理學(xué)中的符號回歸應(yīng)用使用語法VAE。這些模型使用上下文無關(guān)語法將離散符號表達(dá)式表示為解析樹,并將解析樹映射到可微分的潛在空間中。

然后采用貝葉斯優(yōu)化法優(yōu)化符號定律的潛在空間,同時確保表達(dá)式在語法上有效。

在許多科學(xué)學(xué)科中,假設(shè)空間可能遠(yuǎn)遠(yuǎn)大于實驗所能考察的范圍。

因此,我們迫切需要一種方法,在這些基本未開發(fā)的區(qū)域中高效搜索并識別高質(zhì)量的候選解決方案。

AI驅(qū)動的實驗與模擬

通過實驗評估科學(xué)假設(shè)對于科學(xué)發(fā)現(xiàn)至關(guān)重要。

然而,實驗室實驗的成本可能過于高昂且不切實際。

計算機(jī)模擬作為一種有前景的替代方案已經(jīng)出現(xiàn),對比實驗它具有更高效靈活的優(yōu)勢。

雖然模擬依賴于手工制定的參數(shù)和開創(chuàng)式的方法來模擬真實場景,但與物理實驗相比,還需要在準(zhǔn)確性和速度之間進(jìn)行權(quán)衡,需要理解其中的基本機(jī)制。

然而,隨著深度學(xué)習(xí)的出現(xiàn),通過識別和優(yōu)化假設(shè)以進(jìn)行高效測試,并賦予計算機(jī)模擬聯(lián)結(jié)觀察結(jié)果與假設(shè)的能力,這些挑戰(zhàn)正在得到解決。

高效評估科學(xué)假設(shè)

AI系統(tǒng)提供了實驗設(shè)計和優(yōu)化工具,可以增強(qiáng)傳統(tǒng)的科學(xué)方法,減少所需實驗的數(shù)量并節(jié)省資源。

具體而言,AI系統(tǒng)可以協(xié)助實驗測試的兩個重要步驟:計劃和引導(dǎo)。

在傳統(tǒng)方法中,這些步驟往往需要反復(fù)試驗,這可能是低效的、昂貴的,甚至有時可能危及生命。

AI計劃提供了一種系統(tǒng)化的方法來設(shè)計實驗,優(yōu)化其效率,并探索未知領(lǐng)域。

同時,AI引導(dǎo)將實驗過程導(dǎo)向到高產(chǎn)出的假設(shè),使系統(tǒng)能夠從先前的觀察中學(xué)習(xí)并調(diào)整實驗過程。

這些AI方法可以基于模擬和先驗知識來進(jìn)行模型建立,也可以基于純機(jī)器學(xué)習(xí)算法進(jìn)行模型構(gòu)建。

AI系統(tǒng)可以通過優(yōu)化資源使用和減少不必要的調(diào)查來協(xié)助實驗計劃。與假設(shè)搜索不同,實驗計劃涉及到科學(xué)實驗設(shè)計中涉及的程序和步驟。

一個例子是化學(xué)合成計劃。化學(xué)合成計劃涉及到找到一系列步驟,通過這些步驟可以將目標(biāo)化合物從現(xiàn)有化合物合成出來。

AI系統(tǒng)可以設(shè)計合成路徑以得到所需的化合物,從而減少人工干預(yù)的需求。

主動學(xué)習(xí)也被用于材料發(fā)現(xiàn)和合成。主動學(xué)習(xí)涉及與實驗反饋進(jìn)行迭代交互,以改進(jìn)假設(shè)。材料合成是一個復(fù)雜而資源密集型的過程,需要對高維參數(shù)空間進(jìn)行高效的探索。

主動學(xué)習(xí)利用不確定性估計來探索參數(shù)空間,并盡可能少地減少不確定性。

在進(jìn)行實驗過程中,決策常常需要實時調(diào)整。然而,當(dāng)只依靠人類經(jīng)驗和直覺時,這個過程可能難以進(jìn)行或者容易出錯。強(qiáng)化學(xué)習(xí)提供了一種替代方法,可以持續(xù)地對不斷變化的環(huán)境做出反應(yīng),并最大化實驗的安全和保證成功率。

例如,在磁控托卡馬克等離子體的實驗中,強(qiáng)化學(xué)習(xí)方法通過與托卡馬克模擬器進(jìn)行交互來優(yōu)化控制過程的策略(如下圖)。

圖片圖片

在另一項研究中,一個強(qiáng)化學(xué)習(xí)代理根據(jù)實時反饋(如風(fēng)速和太陽高度)來控制平流層氣球,并尋找有利的風(fēng)流用于導(dǎo)航。

在量子物理學(xué)中,實驗設(shè)計需要根據(jù)未來復(fù)雜實驗的最佳選擇進(jìn)行動態(tài)調(diào)整,而強(qiáng)化學(xué)習(xí)方法可以通過迭代地設(shè)計實驗并從中獲得反饋來克服這個問題。

例如,強(qiáng)化學(xué)習(xí)算法已經(jīng)被用于優(yōu)化量子系統(tǒng)的測量和控制,從而提高實驗效率和準(zhǔn)確性。

利用模擬從假設(shè)中推導(dǎo)觀測量

計算機(jī)模擬是一種強(qiáng)大的工具,可以從假設(shè)中推導(dǎo)觀測量,實現(xiàn)對那些不直接可測試的假設(shè)進(jìn)行評估。

然而,現(xiàn)有的模擬技術(shù)在很大程度上依賴于人類對所研究系統(tǒng)底層機(jī)制的理解和知識,這可能使得模擬不夠優(yōu)化和高效。

AI系統(tǒng)可以通過更準(zhǔn)確高效地學(xué)習(xí)來增強(qiáng)計算機(jī)模擬,更好地擬合復(fù)雜系統(tǒng)的關(guān)鍵參數(shù),解決控制復(fù)雜系統(tǒng)的微分方程,并對復(fù)雜系統(tǒng)的狀態(tài)進(jìn)行建模。

科學(xué)家通常通過創(chuàng)建涉及參數(shù)化形式的模型來研究復(fù)雜系統(tǒng),這需要專業(yè)領(lǐng)域的知識來識別參數(shù)的初始符號表達(dá)式。

比如,分子力場是可解釋的,但在表示各種函數(shù)方面能力有限,并且需要強(qiáng)大的歸納偏見或科學(xué)知識來生成。

為了提高分子模擬的準(zhǔn)確性,已經(jīng)開發(fā)了一種基于AI的神經(jīng)勢能,它適合昂貴但準(zhǔn)確的量子力學(xué)數(shù)據(jù),取代傳統(tǒng)的力場。

此外,不確定性量化已被用于在高維自由能面中定位能量障礙,從而提高分子動力學(xué)的效率169(下圖)。

圖片圖片

對于粗?;肿觿恿W(xué),AI模型可以通過確定系統(tǒng)需要從學(xué)習(xí)的隱藏復(fù)雜結(jié)構(gòu)中粗?;某潭?,來減少大系統(tǒng)的計算成本。

在量子物理學(xué)中,由于其靈活性和準(zhǔn)確擬合數(shù)據(jù)的能力,神經(jīng)網(wǎng)絡(luò)已經(jīng)取代了手動估計的波函數(shù)或密度泛函的符號形式。

微分方程對于模擬空間和時間中復(fù)雜系統(tǒng)的動態(tài)是至關(guān)重要的。與數(shù)值代數(shù)求解器相比,基于AI的神經(jīng)求解器更加無縫地融合數(shù)據(jù)和物理。

這些神經(jīng)求解器通過將神經(jīng)網(wǎng)絡(luò)基于領(lǐng)域知識進(jìn)行建模,將物理與深度學(xué)習(xí)的靈活性相結(jié)合(下圖)。

圖片圖片

AI方法已被應(yīng)用于各個領(lǐng)域的微分方程求解,包括計算流體動力學(xué),預(yù)測玻璃體系的結(jié)構(gòu),解決難解化學(xué)動力學(xué)問題,以及解決Eikonal方程以表征地震波的傳播時間。

在動力學(xué)建模中,神經(jīng)常微分方程可以對連續(xù)時間進(jìn)行建模。神經(jīng)網(wǎng)絡(luò)可以通過物理信息損失對Navier-Stokes方程的解在時空域中進(jìn)行參數(shù)化。

然而,標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)對于解的細(xì)粒度特征建模能力有限。這個問題可以通過學(xué)習(xí)用神經(jīng)網(wǎng)絡(luò)對函數(shù)之間的映射進(jìn)行建模的運算符來解決。

此外,求解器必須能夠適應(yīng)不同的域和邊界條件,這可以通過將神經(jīng)微分方程與圖神經(jīng)網(wǎng)絡(luò)相結(jié)合來通過圖劃分實現(xiàn)。

統(tǒng)計建模是一種強(qiáng)大的工具,可以通過對復(fù)雜系統(tǒng)中狀態(tài)的分布進(jìn)行建模來提供對復(fù)雜系統(tǒng)的全面定量描述。

歸一化流可以使用一系列可逆神經(jīng)網(wǎng)絡(luò)將任何復(fù)雜分布映射到先驗分布(例如簡單的高斯分布),并進(jìn)行反向映射。

雖然計算成本較高(通常需要數(shù)百或數(shù)千個神經(jīng)層),但歸一化流提供了精確的密度函數(shù),從而實現(xiàn)了采樣和訓(xùn)練。

與傳統(tǒng)模擬不同,歸一化流可以通過直接從先驗分布中進(jìn)行采樣并應(yīng)用神經(jīng)網(wǎng)絡(luò)來生成平衡狀態(tài),這樣計算成本就是固定的。

這增強(qiáng)了格點場和規(guī)范理論中的采樣,改進(jìn)了馬爾可夫鏈蒙特卡洛方法,否則可能由于模態(tài)混合而無法收斂。

重大挑戰(zhàn)

為了利用科學(xué)數(shù)據(jù),模型必須建立在人類專業(yè)知識之上,再利用上模擬來加強(qiáng)模型的表現(xiàn)。

這種整合為科學(xué)發(fā)現(xiàn)開辟了新的契機(jī)。

然而,為了進(jìn)一步提升AI在科學(xué)領(lǐng)域的影響,需要在理論、方法、軟件和硬件基礎(chǔ)設(shè)施方面取得重大進(jìn)展。

跨學(xué)科的合作對于實現(xiàn)通過AI推進(jìn)科學(xué)的全面和實用方法至關(guān)重要。

實踐考慮

由于測量技術(shù)的限制會產(chǎn)生不完整的數(shù)據(jù)集、有偏差或相互沖突的讀數(shù),并且由于隱私和安全問題的限制,導(dǎo)致了的數(shù)據(jù)可訪問性不足,科學(xué)數(shù)據(jù)集通常不太適合用來做AI分析。

需要標(biāo)準(zhǔn)化和透明的格式來減輕數(shù)據(jù)處理的工作量。

模型卡片和數(shù)據(jù)表是一些努力的例子,用于記錄科學(xué)數(shù)據(jù)集和模型的操作特性。

此外,聯(lián)邦學(xué)習(xí)和加密算法可以用于防止將具有高商業(yè)價值的敏感數(shù)據(jù)公開發(fā)布到公共領(lǐng)域。

利用開放的科學(xué)文獻(xiàn),自然語言處理和知識圖譜技術(shù)可以促進(jìn)文獻(xiàn)挖掘,有助于材料發(fā)現(xiàn),化學(xué)合成和治療科學(xué)的進(jìn)步。

深度學(xué)習(xí)的使用對于人類參與的AI驅(qū)動設(shè)計、發(fā)現(xiàn)和評估提出了復(fù)雜的挑戰(zhàn)。

為了自動化科學(xué)工作流程,優(yōu)化大規(guī)模模擬代碼和操作儀器,自主機(jī)器人控制可以利用預(yù)測并在高通量合成和測試線上進(jìn)行實驗,創(chuàng)建自主實驗室。

在材料探索中早期應(yīng)用生成模型表明,可以識別出數(shù)百萬種,具有期望性能和功能的可能材料,并對其可合成性進(jìn)行評估。

例如,King等人將邏輯AI和機(jī)器人技術(shù)結(jié)合起來,自主生成關(guān)于酵母的功能基因組學(xué)假設(shè),并使用實驗室自動化來實驗性地測試這些假設(shè)。

在化學(xué)合成中,AI優(yōu)化候選合成路徑,然后機(jī)器人根據(jù)預(yù)測的合成路徑引導(dǎo)化學(xué)反應(yīng)。

實施AI系統(tǒng)涉及復(fù)雜的軟件和硬件工程,需要一系列相互依賴的步驟,從數(shù)據(jù)篩選和處理到算法實現(xiàn)和用戶應(yīng)用界面設(shè)計。

實現(xiàn)中的微小差異可能導(dǎo)致性能上的顯著變化,并影響將AI模型整合到科學(xué)實踐中的成功。

因此,需要考慮數(shù)據(jù)和模型的標(biāo)準(zhǔn)化。由于模型訓(xùn)練的隨機(jī)性、模型參數(shù)的變化和不斷變化的訓(xùn)練數(shù)據(jù)集,AI方法可能存在可重復(fù)性問題,這些問題既與數(shù)據(jù)相關(guān)又與任務(wù)相關(guān)。

標(biāo)準(zhǔn)化的基準(zhǔn)測試和實驗設(shè)計可以減輕這些問題。改善可重復(fù)性的另一個方向是通過發(fā)布開放模型、數(shù)據(jù)集和教育項目的開源倡議。

算法創(chuàng)新

為了對科學(xué)理解做出貢獻(xiàn)或自主地獲取科學(xué)理解,需要進(jìn)行算法創(chuàng)新,建立一個在整個科學(xué)過程中使用最優(yōu)算法的基礎(chǔ)生態(tài)系統(tǒng)。

超出分布范圍的泛化問題是AI研究的前沿。

在特定范圍的數(shù)據(jù)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可能會發(fā)現(xiàn)不適用于不同范圍的數(shù)據(jù)的規(guī)律,因為后者的基礎(chǔ)分布發(fā)生了偏移。

雖然許多科學(xué)定律并不是普遍適用的,但一般來說也會具有廣泛的適用性。而與最先進(jìn)的AI相比,人類大腦可以更好、更快地適應(yīng)修改后的環(huán)境。

有一個很有意思的假設(shè)是這么說的,人類不僅根據(jù)自己觀察到的內(nèi)容建立的統(tǒng)計模型,而且還建立了一個因果模型。

這是一個由所有可能的干預(yù)(例如,不同的初始狀態(tài)、不同的代理的行為或不同的情況)來進(jìn)行索引的統(tǒng)計模型集合。

將因果性納入AI仍然是一個尚待研究的領(lǐng)域,還有很多工作要做。

自監(jiān)督學(xué)習(xí)等技術(shù)在科學(xué)問題上具有巨大潛力,因為它們可以利用大量未標(biāo)記的數(shù)據(jù),并將里面包含的知識轉(zhuǎn)移給低數(shù)據(jù)領(lǐng)域。

然而,目前的遷移學(xué)習(xí)方案可能是特定情況下的臨時解決方案,缺乏理論指導(dǎo),并且容易受到基礎(chǔ)分布的變化的影響。

雖然一些初步嘗試已經(jīng)解決了這一挑戰(zhàn),但還需要進(jìn)一步探索,以系統(tǒng)地衡量跨領(lǐng)域的可遷移性,并防止負(fù)面遷移。

此外,為了解決科學(xué)家關(guān)心的困難,AI方法的開發(fā)和評估必須在現(xiàn)實世界的情況下進(jìn)行,例如在藥物設(shè)計中可能實現(xiàn)的合成路徑,并在將其轉(zhuǎn)移到實際應(yīng)用之前包括經(jīng)過良好校準(zhǔn)的不確定性估計來評估模型的可靠性。

科學(xué)數(shù)據(jù)是多模態(tài)的,包括圖像(例如宇宙學(xué)中的黑洞圖像)、自然語言(例如科學(xué)文獻(xiàn))、時間序列(例如材料的熱黃變)、序列(例如生物序列)、圖(例如復(fù)雜系統(tǒng))和結(jié)構(gòu)(例如3D蛋白-配體構(gòu)象)。

AI方法通常作為黑盒操作,意味著用戶無法完全理解輸出是如何生成的,以及在生成輸出時哪些輸入是關(guān)鍵的。

黑盒模型可能會降低用戶對預(yù)測的信任,并且在必須在實現(xiàn)之前理解模型輸出的領(lǐng)域中應(yīng)用有限,例如在人類太空探索中,在預(yù)測指導(dǎo)政策的領(lǐng)域中,比如在氣候科學(xué)中。

盡管有大量的解釋技術(shù),透明的深度學(xué)習(xí)模型仍然難以實現(xiàn)。

然而,人類大腦能夠綜合高層次的解釋,即使不完美,也能說服其他人類。

這提供了希望,通過在類似高層次抽象的現(xiàn)象模擬下,未來的AI模型將提供至少與人類大腦提供的一樣有價值的解釋和理解。

這也表明,研究高級認(rèn)知可能會激發(fā)未來的深度學(xué)習(xí)模型,將當(dāng)前的深度學(xué)習(xí)能力與操縱可言述抽象、因果推理和超出分布泛化的能力結(jié)合起來。

AI對于科學(xué)研究事業(yè)的影響

展望未來,對AI專業(yè)知識的需求將受到兩種力量的影響。

首先,一些領(lǐng)域馬上就能能從AI應(yīng)用中受益,比如自主實驗室。

其次,智能工具能夠提升最先進(jìn)技術(shù)水平,并創(chuàng)造新機(jī)會,比如研究在實驗中無法觀測到的生物、化學(xué)或物理過程的長度和時間尺度相關(guān)的研究。

基于這兩個力量,我們預(yù)計研究團(tuán)隊的組成將發(fā)生變化,包括AI專家、軟件和硬件工程師,以及涉及各級政府、教育機(jī)構(gòu)和公司的新形式合作。

最近最先進(jìn)的深度學(xué)習(xí)模型不斷增長10,234。這些模型由數(shù)百萬甚至數(shù)十億個參數(shù)組成,并且每年的規(guī)模增長了十倍。

訓(xùn)練這些模型涉及通過復(fù)雜參數(shù)化的數(shù)學(xué)運算傳遞數(shù)據(jù),參數(shù)更新以將模型輸出推向所需的值。

然而,計算和數(shù)據(jù)要求以計算這些更新是巨大的,導(dǎo)致了巨大的能源消耗和高昂的計算成本。

因此,大型科技公司已經(jīng)大量投資于計算基礎(chǔ)設(shè)施和云服務(wù),推動了規(guī)模和效率的極限。

雖然盈利和非學(xué)術(shù)組織擁有大規(guī)模計算基礎(chǔ)設(shè)施,但高等教育機(jī)構(gòu)在跨學(xué)科整合方面可能更為優(yōu)勢。

此外,學(xué)術(shù)機(jī)構(gòu)往往擁有獨特的歷史數(shù)據(jù)庫和測量技術(shù),這些可能在其他地方不存在,但對于AI4Science是必要的。

這些互補的資產(chǎn)促進(jìn)了新型產(chǎn)學(xué)合作模式,這可以影響所選擇的研究問題。

隨著AI系統(tǒng)逼近并超越人類的性能,將其作為例行實驗室工作的替代品變得可行。

這種方法使研究人員能夠從實驗數(shù)據(jù)中開發(fā)預(yù)測模型,并選擇實驗來改進(jìn)這些模型,而無需手動執(zhí)行繁重和重復(fù)的任務(wù)。

為了支持這種范式轉(zhuǎn)變,教育計劃正在涌現(xiàn),培訓(xùn)科學(xué)家在設(shè)計、實施和應(yīng)用實驗室自動化和AI在科學(xué)研究中。這些計劃幫助科學(xué)家了解何時使用AI是合適的,并防止對AI分析的錯誤解釋。

結(jié)論

AI系統(tǒng)可以為科學(xué)理解做出貢獻(xiàn),使我們能夠研究那些以其他方式無法可視化或探測的過程和對象,并通過從數(shù)據(jù)中構(gòu)建模型并結(jié)合模擬和可擴(kuò)展計算,來系統(tǒng)地激發(fā)創(chuàng)意。

為了實現(xiàn)這一潛力,必須通過負(fù)責(zé)任和深思熟慮的技術(shù)部署來解決使用AI所帶來的安全問題。

在科學(xué)研究中負(fù)責(zé)任地使用AI,科學(xué)研究需要確定AI系統(tǒng)的不確定性、誤差和效用水平。

這種理解對于準(zhǔn)確解釋AI輸出并確保我們不過分依賴可能存在缺陷的結(jié)果至關(guān)重要。

隨著AI系統(tǒng)不斷發(fā)展,優(yōu)先考慮可靠的實施并采取適當(dāng)?shù)谋U洗胧┦亲畲笙薅冉档惋L(fēng)險和最大化收益的關(guān)鍵。

AI有潛力揭示以前無法觸及的科學(xué)發(fā)現(xiàn)。

參考資料:

https://www.nature.com/articles/s41586-023-06221-2

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-01-13 13:00:00

AI模型訓(xùn)練

2024-11-08 12:18:39

SynthID谷歌AI

2022-07-06 14:51:07

人工智能技術(shù)研究

2019-07-08 14:40:26

AI 數(shù)據(jù)人工智能

2023-12-01 09:47:31

AI技術(shù)

2021-06-11 16:50:12

人工智能AI機(jī)器人

2021-12-07 13:56:25

DeepMind紐結(jié)理論表象理論

2023-12-04 09:17:00

AI材料

2024-07-10 13:20:45

2020-10-27 10:04:12

人工智能

2021-12-02 15:57:46

AI 數(shù)據(jù)人工智能

2022-07-12 14:56:30

AI模型研究

2025-04-02 10:08:33

2020-09-21 15:09:55

5G網(wǎng)絡(luò)技術(shù)

2024-09-27 13:30:00

2025-04-25 09:08:00

2023-12-11 19:08:03

AI模型

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2024-05-09 12:01:37

點贊
收藏

51CTO技術(shù)棧公眾號