AI for Science年度激辯:AlphaFold成功難以復(fù)制,數(shù)據(jù)人才生態(tài)建設(shè)都是挑戰(zhàn)
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
“AI for Science在今年爆火,不是意外?!?/p>
“當(dāng)下面臨的最大挑戰(zhàn),是如何管理預(yù)期?!?/p>
“無論用AI還是傳統(tǒng)手段探索科學(xué),都要基于好的研究體系,工具上的變化不會(huì)扭轉(zhuǎn)本質(zhì)問題?!?/p>
……
今年,AI for Science的更多可能,正在被挖掘、熱議甚至激辯。
爆火到底是不是意外?變革是否已經(jīng)發(fā)生?還面臨哪些挑戰(zhàn)?在量子位MEET 2023智能未來大會(huì)AI for Science圓桌上,這些疑問撥云見日。
深勢科技CTO胡成文、百圖生科BioMap副總裁&產(chǎn)業(yè)基金董事總經(jīng)理瞿佳潤、英矽智能聯(lián)合首席執(zhí)行官&首席科學(xué)官任峰,就AI for Science當(dāng)下備受關(guān)注的問題,展開分享。
在AI for Science爆火背后,好奇、疑問與困惑隨之而來。
三位嘉賓分別來自AI for Science先行者、國內(nèi)生物計(jì)算領(lǐng)域代表、AI藥物研發(fā)先鋒,他們對此有怎樣的見解?
從自身站位出發(fā),在AI for Science這一廣闊賽道上,他們將分別聚焦于哪些細(xì)分領(lǐng)域?背后動(dòng)因如何?已有哪些成績?
而對于這一大趨勢,行業(yè)內(nèi)外又該做出怎樣的準(zhǔn)備?
關(guān)于MEET 智能未來大會(huì):MEET大會(huì)是由量子位主辦的智能科技領(lǐng)域頂級商業(yè)峰會(huì),致力于探討前沿科技技術(shù)的落地與行業(yè)應(yīng)用。今年共有數(shù)十家主流媒體及直播平臺(tái)報(bào)道直播了MEET2023大會(huì),吸引了超過300萬行業(yè)用戶線上參會(huì),全網(wǎng)總曝光量累積超過2000萬。
話題要點(diǎn)
- AI for Science概念從提出起,就意味著一場革命。
- AI for Science可以解決傳統(tǒng)科學(xué)范式難以應(yīng)對的問題,在保持原有科學(xué)精度下,降低計(jì)算復(fù)雜度、提升效率。
- AI for Science在生物領(lǐng)域會(huì)有非常明顯的提升效果,但別的領(lǐng)域復(fù)制AlphaFold的成功并不容易。
- 算力、算法和數(shù)據(jù)三要素仍是AI for Science領(lǐng)域重點(diǎn),而對于生物行業(yè),最重要的還是數(shù)據(jù)。
- 使用AI解決問題只是工具上的改變,并不會(huì)扭轉(zhuǎn)本質(zhì),我們?nèi)孕枳非笠粋€(gè)好的研究體系。
- AI for Science面臨的最大挑戰(zhàn)是管理預(yù)期,以及復(fù)合型人才、生態(tài)共建。
(圓桌環(huán)節(jié)由量子位智庫負(fù)責(zé)人劉萌媛主持。在不改變原意的基礎(chǔ)上,量子位對內(nèi)容進(jìn)行了編輯整理。希望能夠給你帶來更多的啟發(fā)與思考。)
論壇實(shí)錄
AI for Science爆火,不是意外
量子位劉萌媛:大家好!很高興能夠在AI for Science環(huán)節(jié)里和大家聊一聊新興的技術(shù)熱詞。
首先,我為各位介紹一下今天在線上接入的三位嘉賓。
第一位是深勢科技CTO胡成文,胡總在深勢科技負(fù)責(zé)組建業(yè)務(wù)研發(fā)、平臺(tái)研發(fā)兩大團(tuán)隊(duì)。深勢科技致力于運(yùn)用人工智能和分子模擬算法,結(jié)合先進(jìn)技術(shù)手段來求解重要科學(xué)問題。
第二位是百圖生科BioMap副總裁、產(chǎn)業(yè)基金董事總經(jīng)理瞿佳潤,百圖生科是中國首家由生物計(jì)算引擎驅(qū)動(dòng)的創(chuàng)新藥物研發(fā)平臺(tái)。
第三位嘉賓是我們的老朋友,來自頭部AI制藥創(chuàng)企英矽智能的聯(lián)合首席執(zhí)行官、首席科學(xué)官任峰博士。
由任博帶領(lǐng)的藥物研發(fā)團(tuán)隊(duì),利用AlphaFold與自主研發(fā)的人工智能平臺(tái)聯(lián)動(dòng),在30天內(nèi)快速發(fā)現(xiàn)可潛在治療肝細(xì)胞癌的苗頭化合物,這也是業(yè)內(nèi)首批經(jīng)發(fā)表的利用AlphaFold展開藥物研發(fā)實(shí)踐的項(xiàng)目之一。
歡迎三位嘉賓線上加入!
剛剛劉鐵巖院長的演講中也提到,AI for Science已經(jīng)被許多學(xué)者認(rèn)為是第五范式的重要開端。到今天,除了AlphaFold所在的生物醫(yī)藥領(lǐng)域,AI for Science也已在包括材料、物理、數(shù)學(xué)等領(lǐng)域發(fā)揮出越來越重要的作用。
眼下,我們該如何認(rèn)知、面對并利用好AI for Science這個(gè)新的增長點(diǎn)?是時(shí)候請三位行業(yè)代表專家來聊一聊了。
各位覺得AI for Science在今年迅速火熱,是意外嗎?
深勢科技胡成文:最近AI for Science確實(shí)比較火爆,這不是很意外。
2018年開始,鄂維南老師第一次提出AI for Science這個(gè)概念,從那時(shí)起我們就認(rèn)為這是一場革命。
深勢科技的目標(biāo),是希望通過AI for Science用第一性原理的方式,來解決建模過程中的問題,從而為上層的個(gè)人應(yīng)用提供一整套解決方案。
過去4年,我們開發(fā)了一系列基于AI for Science新范式下的多尺度建模工具,也分別推出了針對藥物研發(fā)領(lǐng)域的Hermite平臺(tái),以及針對材料科研計(jì)算的Bohrium平臺(tái)。
深勢科技團(tuán)隊(duì)成員在2020年獲得了國際高性能計(jì)算領(lǐng)域的最高獎(jiǎng)“戈登貝爾獎(jiǎng)”。
剛才聽了劉鐵巖的報(bào)告也深有啟發(fā),我們很高興看到2019年開始,美國各大高校科研機(jī)構(gòu)紛紛成立這個(gè)方向的實(shí)驗(yàn)室。
2021年之后,AI for Science這個(gè)概念迅速被一些國際機(jī)構(gòu)公開采用了,如英偉達(dá)提出AI for Science是一場正在發(fā)生的革命,DeepMind也開通了AI for Science博客。2022年,微軟在全球成立了一個(gè)重磅機(jī)構(gòu)AI for Science研究院。國內(nèi)工業(yè)界等也在迅速跟進(jìn),包括阿里達(dá)摩院、字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室以及華為等。
我們也希望有更多同仁能加入進(jìn)來,一起推動(dòng)AI for Science從概念到落地,從學(xué)界走向工業(yè)界,來真正解決行業(yè)面臨的實(shí)際問題,一起推動(dòng)AI for Science發(fā)展。
百圖生科瞿佳潤:我理解AI for Science它更多是對著AI for Industry產(chǎn)生出來的。
某種意義上,AI在工業(yè)界的使用會(huì)更早展開。比如無人駕駛、智能化場景使用等,但AI for Science的挑戰(zhàn)會(huì)更大,因?yàn)檫@其中存在一個(gè)AI模型的可解釋性及科學(xué)數(shù)據(jù)積累的前置條件在其中。
如Biotech、Pharma領(lǐng)域,它屬于工業(yè)界嗎?是。但你說它是Science嗎?也是,因?yàn)樗旧碜龅氖强茖W(xué)層面的理解和解析,而且高度還不確定?,F(xiàn)在還做不到給定一個(gè)靶點(diǎn),就能設(shè)計(jì)出100%成功的藥物。某種意義上,我們在這些領(lǐng)域去應(yīng)用AI,與其說是它應(yīng)用在工業(yè)場景,不如說就是正在做AI for Science這件事。
回應(yīng)您剛才的問題,AI for Science火熱是不是一個(gè)意外?
的確,隨著此前一些生物數(shù)據(jù)的爆發(fā)到AlphaFold2,以及現(xiàn)在行業(yè)也不局限于藥物側(cè)而是慢慢進(jìn)入到靶點(diǎn)側(cè)。我們會(huì)希望利用AI去提高藥物研發(fā)、靶點(diǎn)研發(fā)的成功率。因?yàn)楸旧硗袋c(diǎn)已經(jīng)長期存在了,一旦技術(shù)條件成熟,它的快速鋪開是可以預(yù)見的。
英矽智能任峰:我同樣認(rèn)為AI for Science的火熱不是意外。
相對而言,我是AI for Science狹義上的門外漢,這兩年接觸這一領(lǐng)域,其實(shí)深勢科技給了我很多教育,從深勢剛剛開始提出AI for Science時(shí)CEO、CTO做的一些報(bào)告我都去聽,但我們做的是不同層面的東西。
有些公司做的AI for Science是稍微狹義上的,利用AI模型去解決一些Science方面的不足。比如運(yùn)算量不足,從底層來解決物理上的問題;再比如過去需要長時(shí)間計(jì)算的東西,通過AI的一些優(yōu)化可以犧牲一點(diǎn)精度、有時(shí)候甚至精度保持原有水平,就可以大幅提高速度,幾分鐘、幾小時(shí)內(nèi)計(jì)算出來。這就解決了算力的問題,有時(shí)候算力太小,對于一些復(fù)雜、維度高的計(jì)算,是需要大量算力和時(shí)間的。
我講的AI for Science是更廣義的角度,不光解決底層問題,也解決實(shí)際應(yīng)用問題。
其實(shí)除了新藥研發(fā),物理、化學(xué)、數(shù)學(xué)、生物學(xué)等也是Science,我們更廣義地通過AI去減少一些生物學(xué)上的不確定性,也是AI for Science更廣義的解釋。
從這一方面來看,AI for Science的火熱完全在意料之中。
AI for Science已經(jīng)引發(fā)效率、探索思路上的變革
量子位劉萌媛:的確,AI for Science當(dāng)下可以劃分為狹義和廣義兩個(gè)層面。著眼于更加具象的問題,AI for Science給當(dāng)下科研和應(yīng)用帶來了怎樣的變革?在此之前是怎樣的情況?
深勢科技胡成文:我們總結(jié)科研范式本質(zhì)上可能只有兩種。
經(jīng)驗(yàn)范式,即開普勒范式。本質(zhì)上從大量數(shù)據(jù)中總結(jié)規(guī)律,然后解決實(shí)際問題。如開普勒從幾十年的資料中發(fā)現(xiàn)了天體的運(yùn)動(dòng)規(guī)律。
另一種是物理范式,即牛頓范式。它只尋求事物之間的基本規(guī)律來解決實(shí)際問題。比如牛頓力學(xué)、相對論、量子力學(xué)等,都隸屬于牛頓范式。
這兩種范式在傳統(tǒng)科學(xué)中應(yīng)用非常廣泛,但在實(shí)際應(yīng)用過程中也會(huì)面臨比較大的挑戰(zhàn)。
開普勒范式很多時(shí)候都比較高效,但由于只看數(shù)據(jù)、不知道原理,所以有時(shí)候是知其然不知其所以然。它往往需要大量數(shù)據(jù),比如傳統(tǒng)AI行業(yè)數(shù)據(jù)非常多,但是到工業(yè)界應(yīng)用后就會(huì)發(fā)現(xiàn),數(shù)量還是不夠多或者高質(zhì)量數(shù)據(jù)不夠多,很難分析出背后規(guī)律,同時(shí)還有一定應(yīng)用場景的限制,所以它表現(xiàn)的結(jié)果往往夠快但不夠準(zhǔn)確。
牛頓范式可以深刻揭示事物背后的規(guī)律,但當(dāng)它遇到數(shù)據(jù)規(guī)模比較大的場景,數(shù)據(jù)呈線性增長,需要的計(jì)算量是指數(shù)級增長,算到一定規(guī)模后可能無法繼續(xù)。所以它遇到的挑戰(zhàn)是算得準(zhǔn)但不夠快。
這就是兩個(gè)傳統(tǒng)范式在科研上會(huì)遇到的挑戰(zhàn)。AI能解決什么問題?
AI在工業(yè)界,尤其是CV、NLP上獲得了極大成功。本質(zhì)上AI是一個(gè)高效處理問題的工具,能夠把高維函數(shù)高效地降為低維函數(shù),從而解決計(jì)算問題。
比如圖像識(shí)別,輸入的圖片是幾千萬像素高維的像素密度分布函數(shù),通過AI可以降到幾維、幾十維分類的問題。
由此給我們一個(gè)啟示,可以用AI來學(xué)習(xí)科學(xué)原理,在保持科學(xué)原理精度的情況下,降低它的計(jì)算復(fù)雜度,用學(xué)到的方法解決實(shí)際問題,這就是AI for Science的方法。
通過這些方法,也開發(fā)出了一系列計(jì)算工具,總結(jié)微觀層面一系列相互作用力問題,使得原來需要花費(fèi)大量時(shí)間計(jì)算、或者長時(shí)間計(jì)算都無法解決的問題,能夠在短時(shí)間范圍內(nèi)解決,實(shí)現(xiàn)效率上的提升,這就是AI for Science如何解決傳統(tǒng)科學(xué)范式所不能解決的問題。
百圖生科瞿佳潤:生物領(lǐng)域很多時(shí)候被認(rèn)為是一種實(shí)驗(yàn)科學(xué),它歷史上的范式就是在不斷嘗試、試錯(cuò),從中篩選到一些東西,再漏斗式地往下走。但是這個(gè)過程相對比較長,成功率難以保障。每一輪篩選都有一定概率,如果把整個(gè)漏斗疊加起來,成功率會(huì)很低。
但如果給它再扣一個(gè)帽子的話,我認(rèn)為有了AI for Science工具之后,會(huì)把實(shí)驗(yàn)科學(xué)轉(zhuǎn)化為系統(tǒng)工程的方式來解決問題。
在一個(gè)閉環(huán)體系內(nèi),每一輪都用AI從一個(gè)很大的空間中預(yù)測、篩選到少量合適的候選對象,再進(jìn)入到閉環(huán)進(jìn)行主動(dòng)學(xué)習(xí)。這樣的好處是可以極大程度縮短單輪次周期。
實(shí)事求是來說,現(xiàn)在一輪下來AI的成功率能絕對比傳統(tǒng)生物辦法高很多嗎?我覺得還有很長一段路要走。
但如果單輪周期被極大縮短了,效率就會(huì)提高。
比如原來從雜交瘤開始做免疫,從免疫、克隆挑選、雜交瘤制備、測序、藥物研制,整個(gè)流程需要2~4個(gè)月。但讓AI加入到單輪預(yù)測中,不到一周即可實(shí)現(xiàn)。后面蛋白表達(dá)純化、測定,大概需要3周,這樣就能將整個(gè)流程從3、4個(gè)月縮短到1個(gè)月。
一輪次不一定會(huì)縮短很多時(shí)間,但如果把輪次疊上去,最終體現(xiàn)在同等時(shí)間水平里的成功率會(huì)高很多。經(jīng)過多輪迭代,顯著提升效率,同時(shí)間接解決了成功率的問題。
第二個(gè)點(diǎn),百圖生科不只做單藥,還做靶點(diǎn)角度挖掘,而且會(huì)很關(guān)注從頭測序的靶點(diǎn)挖掘。
我們經(jīng)常開玩笑說,這件事是真正在用產(chǎn)業(yè)的方式做科研,因?yàn)榘悬c(diǎn)問題會(huì)相對更復(fù)雜,如果將藥物問題歸為工業(yè)問題還有跡可循,靶點(diǎn)問題過去都是各大學(xué)校、科研院所通過篩選得到的。
所以我們通過AI來把靶點(diǎn)研究問題系統(tǒng)化,它會(huì)最終體現(xiàn)在成功率提升上,這也是一個(gè)很大的影響。
量子位劉萌媛:我們知道任峰博士團(tuán)隊(duì)在國內(nèi)率先利用AlphaFold發(fā)現(xiàn)了CDK20小分子抑制劑,任博在AI for Science領(lǐng)域有長久經(jīng)驗(yàn),有沒有特別的心得體會(huì)可以和我們分享一下?
英矽智能任峰:心得體會(huì)有很多。AlphaFold預(yù)測蛋白質(zhì)是一個(gè)非常典型的AI for Science,它解決了困擾人類50多年的問題。
而當(dāng)科學(xué)問題解決了之后,該如何應(yīng)用到實(shí)際場景?
這就是我們正在做的事,通過AI的方式解決蛋白質(zhì)折疊問題,再將AlphaFold預(yù)測蛋白質(zhì)結(jié)構(gòu)應(yīng)用到藥物研發(fā)上。根據(jù)我們團(tuán)隊(duì)發(fā)在arXiv上的成果,僅設(shè)計(jì)合成了13個(gè)化合物,就能找到針對全新靶點(diǎn)活性非常好的小分子。
AI for Science從我的角度來講,我們是一個(gè)AI賦能的Biotech,用AI來做創(chuàng)新藥物。這其中有很多問題,是一個(gè)風(fēng)險(xiǎn)很高的行業(yè),現(xiàn)在普遍需要十幾年時(shí)間、20億美金以上的研發(fā)投入,才能做一個(gè)創(chuàng)新藥出來,效率非常低。
通過AI的加持,來解決藥物研發(fā)領(lǐng)域里的生物、化學(xué)以及臨床方面的問題,可以大幅縮短研發(fā)周期、提高研發(fā)效率、降低研發(fā)成本。
這為整個(gè)生物醫(yī)藥研發(fā)提供了顛覆性的解決思路。
傳統(tǒng)藥物研發(fā)依靠人類想象,所有創(chuàng)新都基于人。但有了AI加持后,可以在化學(xué)、生物學(xué)層面做更多探索,以前人類大腦中觸及不到的想象空間,AI通過瀏覽大量數(shù)據(jù)、積累更多知識(shí),從而具備更豐富的創(chuàng)新性。
AlphaFold的成功很難復(fù)制
量子位劉萌媛:剛剛?cè)尾┨岬搅薃I for Science在生物領(lǐng)域會(huì)有非常明顯的提升效果,現(xiàn)在還有哪些領(lǐng)域有可能去復(fù)制AlphaFold所帶來的這些改變呢?這個(gè)問題瞿總有相關(guān)的見解嗎?
百圖生科瞿佳潤:復(fù)制AlphaFold2蠻難的。之前我們內(nèi)部也有在討論說為什么AlphaFold2能夠引起這么大的轟動(dòng),AI已解決的問題不少,這個(gè)問題也在某種意義上出圈了,大家都關(guān)注到它。
我覺得可能有幾個(gè)因素。
蛋白質(zhì)結(jié)構(gòu)研究,無論是靶點(diǎn)方面還是藥物研發(fā),都是非常底層基礎(chǔ)的。
蛋白質(zhì)結(jié)構(gòu)預(yù)測,尤其是實(shí)現(xiàn)準(zhǔn)確預(yù)測復(fù)合物結(jié)構(gòu),它將不再僅僅是可視化問題那么簡單,其背后涉及諸多能量問題,包括可以去比對給定蛋白可以和哪些蛋白形成關(guān)聯(lián)。
所以其實(shí)它也可以泛化到靶點(diǎn)網(wǎng)絡(luò)的問題,它是支撐很多問題的根本問題。
生物界有像施一公這樣的頂尖科學(xué)家在這個(gè)方向發(fā)力,包括CASP比賽也有很多人關(guān)注。綜合來講,多方面的原因造成它非常轟動(dòng)。
其實(shí)我們公司在做一個(gè)類似的事情,它不一定能引起同樣的轟動(dòng),但我們覺得會(huì)對科學(xué)有很大的影響,就是對于組學(xué)的預(yù)測。
它本質(zhì)上是蛋白這個(gè)問題的另一面,因?yàn)榈鞍滓呀?jīng)成為最后的載體了,但是基因?qū)用娴膯栴}:從基因組到表觀組、轉(zhuǎn)錄組、蛋白這一系列的多組學(xué)問題,以及一個(gè)細(xì)胞怎么通過它的組學(xué)的組合來表征免疫激活狀態(tài),也是一個(gè)非常復(fù)雜的高維度問題。
本質(zhì)上如果我們能夠把它的映射表征學(xué)習(xí)好,我們就能精準(zhǔn)預(yù)測到給定一個(gè)外界的擾動(dòng)這個(gè)細(xì)胞有沒有響應(yīng)。
那么再進(jìn)一步,這就變成藥物響應(yīng)的問題了,它可以通過該映射表征去匹配精準(zhǔn)的細(xì)胞和精準(zhǔn)的蛋白之間的調(diào)控關(guān)系,從而再引入臨床數(shù)據(jù)。
比如說,如果能夠知道哪一類病患里的哪類細(xì)胞比較占主導(dǎo)地位,又能知道怎么調(diào)控這一類的主導(dǎo)細(xì)胞發(fā)揮很好效果,整個(gè)邏輯就串起來了。
這也是我們大力投入的方向,現(xiàn)在有十幾個(gè)臨床隊(duì)列,有高仿真的體外模擬體系產(chǎn)生大量的數(shù)據(jù)閉環(huán)。
量子位劉萌媛:提問一下深勢科技的胡總。深勢科技更多是從計(jì)算問題的底層出發(fā)去看待AI for Science。深勢在AI for Science的應(yīng)用上在其他領(lǐng)域現(xiàn)在已經(jīng)有怎樣的涉足?是否生命醫(yī)藥領(lǐng)域更有天時(shí)地利,所以比其他領(lǐng)域更容易推進(jìn)?
深勢科技胡成文:AlphaFold2確實(shí)是行業(yè)標(biāo)志性的事件,大家都體會(huì)比較深,我們也有一些相關(guān)進(jìn)展的工作。
大家知道國內(nèi)很多公司做了類似模型,我們也提出了Uni-Fold,這不是為了打榜。
我們的核心邏輯是,預(yù)測出來的結(jié)果是靜態(tài)的,但蛋白質(zhì)其實(shí)是動(dòng)態(tài)的,它才會(huì)有如此豐富的特征。
拿到靜態(tài)結(jié)果并不能往后解決更多問題,所以我們又開發(fā)了一套動(dòng)態(tài)的采樣算法,把原來Uni-Fold預(yù)測的靜態(tài)結(jié)果作為起點(diǎn),對蛋白質(zhì)結(jié)構(gòu)進(jìn)行動(dòng)態(tài)構(gòu)象進(jìn)一步優(yōu)化結(jié)構(gòu),基本上可以達(dá)到類似于實(shí)驗(yàn)室精度的效果。
這對于創(chuàng)新藥后續(xù)的開發(fā)是比較好的技術(shù),對靶點(diǎn)發(fā)現(xiàn)、分子對接也都是比較好的起點(diǎn),這一系列的工具已經(jīng)在我們自己內(nèi)部的平臺(tái)上。
AI for Science本質(zhì)上來說是一套方法論,所有的宏觀信息都是由微觀決定結(jié)構(gòu)的,本質(zhì)上都是底層原子、分子性質(zhì)、結(jié)構(gòu)和相互作用力決定了上層宏觀性質(zhì),這一套方法同步在其他領(lǐng)域也有相關(guān)突破。
比如在材料領(lǐng)域,電池是一個(gè)比較典型的場景。我們通過計(jì)算來加快電池、電解液新材料的發(fā)現(xiàn)和性質(zhì)預(yù)測,和寧德時(shí)代、金羽新能也取得了一系列突破。
燃燒也是比較典型的一個(gè)例子,我們推出了一個(gè)平臺(tái)叫DeepFlame,能夠有效的模擬燃燒反應(yīng)的過程。
解決的問題是類似于航空發(fā)動(dòng)機(jī)過程當(dāng)中的試驗(yàn)和模擬——以前計(jì)算出來極其復(fù)雜,通過AI方式能夠大大降低計(jì)算的復(fù)雜度,減少了大量實(shí)驗(yàn)的成本。
在科研領(lǐng)域你會(huì)發(fā)現(xiàn)傳統(tǒng)的科研只有兩大塊:要么做試驗(yàn)、要么搞理論。
做試驗(yàn)要有大量的時(shí)間,不管是化學(xué)、物理試驗(yàn)都一樣,包括實(shí)際操作、時(shí)間成本和經(jīng)濟(jì)成本都會(huì)比較高。
我們通過AI for Science的方法也提供了一系列平臺(tái)工具,使得很多的科研人員能夠通過計(jì)算去模擬很多傳統(tǒng)實(shí)驗(yàn)。
這個(gè)趨勢現(xiàn)在開始從學(xué)校到工業(yè)領(lǐng)域都有所顯現(xiàn),我們能看到北大化學(xué)系、生物系等,原來一半人做理論、一半人在做實(shí)驗(yàn)。
現(xiàn)在很多實(shí)驗(yàn)人員開始去做計(jì)算,包括前期篩選模擬的工作盡可能讓計(jì)算去做,剩下少量的工作進(jìn)行模擬,所以計(jì)算的招生人數(shù)和實(shí)驗(yàn)人數(shù)也是越來越多的。
所以我們能看到AI for Science不僅僅是在生物醫(yī)藥制藥行業(yè)有廣泛應(yīng)用,在很多基礎(chǔ)科學(xué)研究方面也有廣泛的發(fā)展空間。這是我們的理解。
接下來我們需管理好對AI的預(yù)期
量子位劉萌媛:我們剛剛一直在講AI for Science它的發(fā)展前景,包括它給我們帶來的好處和改變。但它也將會(huì)面臨挑戰(zhàn),大家目前覺得最大的一個(gè)挑戰(zhàn)會(huì)是什么?以及談到AI的時(shí)候我們經(jīng)常會(huì)說算法、算力和數(shù)據(jù),那在AI for Science新的細(xì)分領(lǐng)域里面最重要的還是這三要素嗎?
英矽智能任峰:其實(shí)胡總應(yīng)該更有資格去談AI for Science,我們在工業(yè)或者技術(shù)方面可能做得更多一點(diǎn)。但是我可以發(fā)表一些自己粗淺的看法,我個(gè)人認(rèn)為從AI的角度、從方法論的角度來講,AI不管是for任何的Science或者是應(yīng)用,目前面臨最大的挑戰(zhàn)是如何去管理預(yù)期。
因?yàn)橐郧霸贏I發(fā)展過程中,剛開始所有人都不太相信AI,后來慢慢信的人越來越多,之后大家對它的預(yù)期非常高,好像AI無所不能。
預(yù)期高的話,對整個(gè)行業(yè)來講是一個(gè)非常大的挑戰(zhàn)。因?yàn)槿魏我粋€(gè)失誤或者是失敗,就會(huì)導(dǎo)致大家對整個(gè)行業(yè)失去一定的信心,這可能是目前整個(gè)AI行業(yè)不管是for Science還是for Industry都面臨的一個(gè)比較大的挑戰(zhàn),即我們?nèi)绾喂芾砗米约旱念A(yù)期,如何管理好客戶對AI技術(shù)的預(yù)期以及其他行業(yè)對AI行業(yè)的預(yù)期,這是非常重要的。
做Science的話,如果所有事都能成功就不叫Science,Science總要容忍很多失敗,而且經(jīng)常失敗的比成功的案例還要多。
所以即便有AI的加持,只是提高了效率、提高一些成功率,但并不能說可以100%成功,把大家對AI for Science的預(yù)期管理好,可能是我們以后要工作的一個(gè)方向。
百圖生科瞿佳潤:AI“三要素”依然是存在的,但是如果說映射到生物學(xué)問題的話,最重要的還是數(shù)據(jù)。
算力這個(gè)事,現(xiàn)在你有資金就可以用到這些,大家都用云計(jì)算了,你也不用自己去搭這些硬件。
然后你說算法這件事情,現(xiàn)在國內(nèi)很多AI人才,包括交叉學(xué)科的人才也都可以有。
當(dāng)然,怎么去管理不同背景的雙方團(tuán)隊(duì)能真的互相理解也很有挑戰(zhàn)性,但本質(zhì)上做這個(gè)方向的事情就必然要面對這樣的挑戰(zhàn)。
我覺得數(shù)據(jù)是更難的問題,尤其是在生物這個(gè)行業(yè)。
我還是以靶點(diǎn)舉例子。AI只是一個(gè)工具上的變化,這種工具上的變化并不能扭轉(zhuǎn)一些本質(zhì)上的問題。
所謂本質(zhì)上的問題是在靶點(diǎn)也好、藥物也好,一直有一個(gè)詬病,即體外的這種體系很難映射體內(nèi)的環(huán)境。不少生物領(lǐng)域里基礎(chǔ)的研究都有這樣的短板。AI學(xué)到的也包括這些短板,很難說體外體系不好情況下,能學(xué)到體內(nèi)真實(shí)的規(guī)律。
我們現(xiàn)在反而面臨的一個(gè)問題是,在閉環(huán)的過程中怎么能把體外的體系優(yōu)化到盡可能能模擬體內(nèi)體系的狀態(tài),而且它還得是一種滿足AI需求的高通量產(chǎn)數(shù)據(jù)方式,即“高通量低成本”的方式,這個(gè)挑戰(zhàn)是非常大的,包括藥物也一樣。
最開始大家說我們用公開的數(shù)據(jù),其實(shí)我們自己內(nèi)部做過一個(gè)研究,公開專利的數(shù)據(jù)在內(nèi)部把所有一樣的序列合出來,然后去做親和力,它的關(guān)聯(lián)是非常差的。在這種情況下,根本就不能作為標(biāo)準(zhǔn)。
所以我想表達(dá)的是,我們希望用AI去研究Science,但是我不管用AI研究Science,還是基于生物學(xué)傳統(tǒng)手段研究Science,都要基于一個(gè)好的研究體系,而這個(gè)體系現(xiàn)在對我們來說是很具有挑戰(zhàn)性的。我相信這對其他的同行來說也是一樣具有挑戰(zhàn)的點(diǎn)。
深勢科技胡成文:剛才兩位都講得比較多,算力、算法、數(shù)據(jù)這肯定還是很重要的。從我的角度來說,還可以出現(xiàn)一些新的挑戰(zhàn)。
第一,人才,尤其是跨學(xué)科復(fù)合型的人才。
因?yàn)锳I for Science不是說把一批AI公司和一些科學(xué)家搞在一起就OK了,本質(zhì)上需要雙方去理解,不同領(lǐng)域的人在一起才能產(chǎn)生化學(xué)反應(yīng),碰撞出原創(chuàng)性的突破。
這種人才還是需要花大量時(shí)間去培養(yǎng)和學(xué)習(xí)的,也需要借助學(xué)術(shù)界和工業(yè)界的努力,所以人才是第一位的,目前還是比較緊缺。
第二,生態(tài)共建問題。
互聯(lián)網(wǎng)傳統(tǒng)AI商業(yè)上的巨大成功,使得在不管是數(shù)據(jù)、模型、算力方面都形成一套比較完整的生態(tài)鏈,人才供給比較豐富,包括最近各大公司、各個(gè)平臺(tái)也推出了很多預(yù)訓(xùn)練大模型,使得新的應(yīng)用、新的開發(fā)上手會(huì)非常容易。
我們最近也推出了AI for Science預(yù)訓(xùn)練大模型,叫DPA-1,是全球首個(gè)覆蓋元素周期表近70種元素的預(yù)訓(xùn)練模型,該成果由北京科學(xué)智能研究院、深勢科技、北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所共同研發(fā),DPA-1被譽(yù)為自然科學(xué)界的GPT,這個(gè)模型能夠極大降低后續(xù)科研人員從頭訓(xùn)練的成本,我們也希望跟同行們一起來推動(dòng)AI for Science整個(gè)生態(tài)系統(tǒng)的繁榮。