谷歌云與 Ginkgo Bioworks 合作推出新型蛋白質(zhì)大語(yǔ)言模型和應(yīng)用程序接口
谷歌云加大與 Ginkgo Bioworks 的合作,兩家公司日前推出了兩項(xiàng)新產(chǎn)品。
第一項(xiàng)是推出一個(gè)蛋白質(zhì)大語(yǔ)言模型,使業(yè)界的組織和公司能夠利用 Ginkgo 的專(zhuān)有見(jiàn)解和數(shù)據(jù)加快藥物發(fā)現(xiàn)過(guò)程。第二項(xiàng)是生物技術(shù)公司 Ginkgo 將推出一個(gè)模型應(yīng)用程序接口(API),幫助機(jī)器學(xué)習(xí)工程師和科學(xué)家獲取生物學(xué)人工智能模型。
谷歌云戰(zhàn)略產(chǎn)業(yè)副總裁 Chris Sakalosky 和 Ginkgo 人工智能總經(jīng)理 Ankit Gupta在接受記者采訪時(shí)討論了這一激動(dòng)人心的更新。Gupta 表示,生物學(xué)在很大程度上已經(jīng)從一門(mén)純物理學(xué)科轉(zhuǎn)變?yōu)橐婚T(mén)計(jì)算學(xué)科。那些能夠理解、利用并從大量數(shù)據(jù)中提取有意義見(jiàn)解的方法和手段的人將最終取得成功。這正是 Ginkgo 生態(tài)系統(tǒng)的強(qiáng)大之處,因?yàn)?Ginkgo 生態(tài)系統(tǒng)提供了簡(jiǎn)化工程所需的計(jì)算工具。Sakalosky 分享了他第一次與 Ginkgo 生物工程公司創(chuàng)始人 Jason Kelly見(jiàn)面時(shí)的見(jiàn)解,并討論了 DNA本質(zhì)上可以被視為一種語(yǔ)言和代碼。如果創(chuàng)新者可以訓(xùn)練人工智能理解對(duì)話(huà)、口語(yǔ)和計(jì)算機(jī)代碼,那么人工智能就沒(méi)有理由不能以同樣的方式理解和處理 DNA。這正是這個(gè)蓬勃發(fā)展領(lǐng)域的關(guān)鍵所在。
新的蛋白質(zhì)大語(yǔ)言模型背后的前景令人振奮,因?yàn)樵撃P褪窃诠雀柙芕ertex人工智能平臺(tái)上構(gòu)建的,其訓(xùn)練基于 Ginkgo 的專(zhuān)有數(shù)據(jù)模型。該模型將使研究人員和企業(yè)能夠快速理解并利用自己的數(shù)據(jù),進(jìn)而為藥物發(fā)現(xiàn)帶來(lái)巨大的好處。此外,Ginkgo 公司提供的新應(yīng)用程序接口可以訪問(wèn)在蛋白質(zhì)和 DNA 數(shù)據(jù)基礎(chǔ)上訓(xùn)練的復(fù)雜模型。第一個(gè)模型是 ginkgo-AA-0-650m,是“一個(gè)基于超過(guò)20億個(gè)Ginkgo專(zhuān)有蛋白質(zhì)序列訓(xùn)練的大模型”。
為什么這些都很重要?
生物學(xué)、藥物研發(fā)、人工智能和先進(jìn)工程學(xué)之間的融合從未像現(xiàn)在這樣緊密,原因是這些垂直領(lǐng)域之間存在大量相互促進(jìn)的機(jī)會(huì)。這就是為什么各家公司都在迅速增加在這一領(lǐng)域的投資,競(jìng)爭(zhēng)也非常激烈。以 Meta 的 ESM 宏基因組圖譜為例,該項(xiàng)目旨在“將數(shù)據(jù)集中的每個(gè)蛋白質(zhì)表示為一個(gè)單獨(dú)的點(diǎn),并在放大或懸停時(shí)顯示實(shí)際的蛋白質(zhì)結(jié)構(gòu)”。盡管該項(xiàng)目據(jù)報(bào)已經(jīng)暫停,但截至2023年3月,該模型的可用蛋白質(zhì)結(jié)構(gòu)已接近7.72億個(gè)。同樣,Alphabet 旗下的 Isomorphic Labs 與 Google DeepMind合作,開(kāi)發(fā)了業(yè)界領(lǐng)先的蛋白質(zhì)模型 AlphaFold。其最新版本 AlphaFold 3 聲稱(chēng)“與現(xiàn)有預(yù)測(cè)方法相比至少提高了50%”。
一項(xiàng)發(fā)表在《生物信息學(xué)前沿》期刊的研究強(qiáng)調(diào)了在蛋白質(zhì)生物學(xué)和工程學(xué)中使用大語(yǔ)言模型的巨大潛力:“建模能力在不斷增強(qiáng),預(yù)計(jì)將解決醫(yī)學(xué)和分子生物學(xué)中的一系列復(fù)雜問(wèn)題……通過(guò)利用嵌入在深度神經(jīng)模型參數(shù)中的‘聯(lián)結(jié)知識(shí)’?!?/p>
盡管在這個(gè)領(lǐng)域還有大量工作要做,各項(xiàng)工作才剛剛開(kāi)始,但這項(xiàng)技術(shù)為生物科學(xué)與人工智能的結(jié)合提供了一個(gè)令人期待的前景。