智能科學(xué)時代的雙引擎,火山引擎打造 AI 與 Science 協(xié)同創(chuàng)新的飛輪
原創(chuàng)2024 年,諾貝爾獎的物理學(xué)獎與化學(xué)獎雙雙授予了與人工智能技術(shù)緊密相關(guān)的研究,這無疑為 AI 在科研領(lǐng)域的推動作用提供了強有力的背書,進(jìn)一步彰顯了其不可或缺的重要性。
AI for Science 變得盛況空前??茖W(xué)家們積極探索人工智能在科研領(lǐng)域的廣闊應(yīng)用與發(fā)展前景,科學(xué)研究也從經(jīng)驗范式、理論范式、計算范式、數(shù)據(jù)驅(qū)動范式,迎來了第五范式——智能科學(xué)。
在火山引擎副總裁張鑫看來,AI 技術(shù)的出現(xiàn),不僅加速了科學(xué)研究范式的根本性轉(zhuǎn)變,促進(jìn)了多學(xué)科研究之間的深度融合與協(xié)同發(fā)展,還極大地加速了科學(xué)發(fā)現(xiàn)的進(jìn)程。正是洞察到了科研領(lǐng)域需求側(cè)所發(fā)生的深刻變化,以及供給側(cè)大模型為 IT 領(lǐng)域帶來的多維度變革與新視角,火山引擎自 2022 年進(jìn)入到了科研領(lǐng)域,并且從生命科學(xué)領(lǐng)域切入,助力科學(xué)研究提質(zhì)增效。
火山引擎副總裁張鑫
縱深科研,AI for Science 也可以“多快好省”
在生命科學(xué)領(lǐng)域,科研人員長期面臨一系列嚴(yán)峻挑戰(zhàn):過度依賴國外工具,學(xué)術(shù)研究結(jié)果可復(fù)性差,數(shù)據(jù)孤立且標(biāo)準(zhǔn)不統(tǒng)一,研發(fā)效率低下等問題,極大地阻礙了科研進(jìn)展。于是,火山引擎攜手合作伙伴共同推出了 Bio-OS 生物信息操作系統(tǒng),將科研所需要的各類數(shù)據(jù)工具、流程配置和分析過程進(jìn)行封裝,希望可以像 PC 或移動操作系統(tǒng)一樣,屏蔽底層復(fù)雜的技術(shù),賦能上層應(yīng)用創(chuàng)新,從而構(gòu)建一個平臺化的生態(tài)系統(tǒng)。
張鑫介紹道,“我們的思路就是打造一個面向生命科學(xué)行業(yè)的操作系統(tǒng),其底層提供資源管理和數(shù)據(jù)管理能力,簡化操作,降低使用門檻;而上層定義應(yīng)用標(biāo)準(zhǔn),推動開源開放的生態(tài)體系形成?!?/span>
經(jīng)過了兩年的快速迭代,Bio-OS 操作系統(tǒng)也實現(xiàn)了五大升級。一是 All in Workspace,使得科研過程與成果可分享、可追溯及可協(xié)同;二是引入智能助手,可以通過自然語言的方式使用 Bio-OS 平臺上的工具和創(chuàng)建工作流;三是將計算向數(shù)據(jù)靠攏,在一個平臺上完成數(shù)據(jù)的處理、計算和分析;四是利用云原生與分布式云技術(shù),高效管理異構(gòu)算力資源;五是持續(xù)推動社區(qū)和生態(tài)的建設(shè),吸引更多人才加入生命科學(xué)領(lǐng)域,共創(chuàng)價值。通過五大升級,火山引擎為科研人員提供了更加便捷、高效、智能的科研平臺,促進(jìn)了技術(shù)創(chuàng)新與知識共享,推動了生命科學(xué)領(lǐng)域的創(chuàng)新與發(fā)展。其中,Bio-OS 開源開放大賽作為推動生態(tài)建設(shè)的重要舉措之一,第二屆 Bio-OS 開源開放大賽吸引了近 300 支團隊參與,特別是AI算法打榜賽,更是激發(fā)了眾多團隊的熱情。
鑒于不同科研領(lǐng)域具有共通性,火山引擎從生命科學(xué)出發(fā),逐步抽象通用能力,推出了科研智算云解決方案。張鑫用“多快好省”四個字概括了這一方案的特色。
多:火山引擎提供全棧產(chǎn)品體系,科研人員可以根據(jù)需求靈活組合產(chǎn)品,支持生物信息、藥物研發(fā)、材料科學(xué)、EDA 等多個科研場景。
快:依托火山引擎彈性調(diào)度與并行計算能力,顯著提升科研計算分析效率;同時,通過自動化工作流,實現(xiàn)科研實驗流程的自動化執(zhí)行。
好:用戶體驗友好。通過圖形化界面封裝復(fù)雜算法與工具,科研人員僅需簡單配置與自然語言交互,即可完成技術(shù)架構(gòu)設(shè)計,極大簡化了科研流程。
省:針對科研資源消耗大的問題,火山引擎通過海量算力資源的規(guī)模效應(yīng)以及資源內(nèi)外復(fù)用和削峰填谷,有效降低科研 IT 成本。
目前,火山引擎科研智算云解決方案已經(jīng)在多個科研場景中成功應(yīng)用。廣州實驗室借助 Bio-OS 在生物信息領(lǐng)域?qū)崿F(xiàn)科研普惠化,序禎達(dá)在基因測序上的數(shù)據(jù)處理提速,百奧云快速構(gòu)建農(nóng)業(yè)基因育種平臺加速分析,分子之心借助火山引擎高性能計算資源及獨有的計算模型,快速完成新藥研發(fā)。這些成功案例不僅驗證了火山引擎解決方案的有效性,也為科學(xué)研究的未來發(fā)展開辟了新的道路。
解鎖火山引擎 AI for Science 的“制勝法寶”
火山引擎作為一家云服務(wù)供應(yīng)商,在 AI for Science 方面的優(yōu)勢究竟又體現(xiàn)在何處呢?對此,張鑫給出了清晰的解答。“火山引擎在 AI for Science 領(lǐng)域的優(yōu)勢可歸結(jié)為三大方面,堅實的技術(shù)底座、深度的行業(yè)優(yōu)化以及前沿的科研應(yīng)用創(chuàng)新?!?/span>
科學(xué)研究離不開堅實的基礎(chǔ)設(shè)施和IT技術(shù)能力的支撐?;鹕揭娲蛟炝恕叭{馬車”來構(gòu)建技術(shù)底座,即面向 AI 的全棧云,豆包大模型以及數(shù)據(jù)飛輪,這三者恰好對應(yīng)了人工智能時代三大要素,算力、算法和數(shù)據(jù)。在算力層面,火山引擎通過構(gòu)建軟硬一體的分布式云架構(gòu),實現(xiàn)了異構(gòu)資源的統(tǒng)一調(diào)度與彈性擴展,應(yīng)對科研場景下復(fù)雜多變的需求。在算法方面,豆包大模型憑借其強大的理解分析和推理能力,可以幫助科研人員完成海量的密集數(shù)據(jù)的智能分析工作。在數(shù)據(jù)方面,火山引擎具有豐富的數(shù)據(jù)經(jīng)驗,從數(shù)據(jù)整理、存儲到分析的全鏈路管理,為科研人員提供有力支持。
其次,火山引擎深知科研領(lǐng)域的特殊性,在通用的基礎(chǔ)設(shè)施之上根據(jù)科研場景進(jìn)行了深度優(yōu)化,推出了有針對性的解決方案,助力科研人員提升科研效率與質(zhì)量。
此外,字節(jié)跳動在科研領(lǐng)域的積累同樣不容小覷。其內(nèi)部的 AML(Applied Machine Learning)團隊就設(shè)有專門負(fù)責(zé)科學(xué)計算的科學(xué)家,他們致力于量子化學(xué)、材料科學(xué)、物理學(xué)、生命科學(xué)等多個領(lǐng)域的研究。同時,ByteDance Research 團隊也在機器人、具身智能等前沿領(lǐng)域不斷鉆研,探索發(fā)現(xiàn)科研領(lǐng)域的新趨勢與新機遇。
在科研領(lǐng)域,火山引擎不僅提供工程化的產(chǎn)品與技術(shù),加速科學(xué)研究的進(jìn)程,還圍繞 AI for Science 進(jìn)行前沿探究。這使得火山引擎能夠更深入地理解科學(xué)家的需求,以更高遠(yuǎn)的視角審視科研領(lǐng)域的發(fā)展動態(tài),從而為客戶提供更加精準(zhǔn)、高效的解決方案與服務(wù)。
加速科研提效與知識發(fā)現(xiàn)的“四輪驅(qū)動”
隨著科研邁入第五范式,生成式 AI 的快速發(fā)展正深刻改變著科研工作的工作方式。如何更加高效地發(fā)揮 AI 能力和潛力,助力科學(xué)研究提速增效?火山引擎提出了“四輪驅(qū)動”戰(zhàn)略,即算力、數(shù)據(jù)、算法與知識。
張鑫特別強調(diào)了知識的重要性。很多企業(yè)將數(shù)據(jù)和知識混為一談,其實不然。數(shù)據(jù)是客觀的、原始的,而知識則是經(jīng)過深入理解和加工處理的主觀產(chǎn)物。從數(shù)據(jù)到知識的轉(zhuǎn)化,需要借助數(shù)據(jù)治理、構(gòu)建知識體系,并結(jié)合先進(jìn)的算法模型,才能產(chǎn)出真正的智慧。
當(dāng)前的大語言模型主要基于統(tǒng)計原理,往往缺乏對物理世界規(guī)則和知識的深入理解,因此存在諸多局限性,如經(jīng)典的“9.11 和 9.8 誰大”問題便暴露了其不足。因此,大模型也需要領(lǐng)域知識進(jìn)行增強。
在科研領(lǐng)域,知識的重要性更加凸顯。如何將科學(xué)家頭腦中的寶貴經(jīng)驗以及實驗設(shè)計流程的最佳實踐轉(zhuǎn)化為可量化的知識形態(tài),成為亟待解決的問題。
張鑫表示,算力、算法、數(shù)據(jù)與知識之間緊密相連,共同構(gòu)成了科研工作的基石。遵循 DIKW(Data、Information、Knowledge、Wisdom)方法論,將這四個要素協(xié)同起來,是推動科研工作不斷前進(jìn)的關(guān)鍵。
通過算力和數(shù)據(jù)分析,數(shù)據(jù)被轉(zhuǎn)化為信息,實現(xiàn)可追溯、可分享、可協(xié)作以及可傳承。在此基礎(chǔ)之上,算法與大模型的結(jié)合打造出科研 Copilot 和 Agent,助力科研人員迅速篩選出所需的能力和工具,完成知識的提煉。例如,火山引擎推出的科研助手,便能自動化設(shè)計實驗并調(diào)用相關(guān)工具,極大地提升了科研效率。
當(dāng)知識被提煉出來后,通過大模型與知識圖譜的結(jié)合,可以打造出知識聚合體,進(jìn)一步增強大模型的能力,使其從原本單純依賴數(shù)據(jù)驅(qū)動變得更加“聰明”。這樣,算力、數(shù)據(jù)、算法與知識四輪協(xié)同轉(zhuǎn)動,共同推動科研工作邁向新的高度。
預(yù)見 AI for Science,布局未來
在這個科技日新月異的時代,AI 技術(shù)正在迅速滲透到科學(xué)研究的各個領(lǐng)域。AI for Science 正逐漸改變著科學(xué)研究的范式,推動著科學(xué)探索的邊界不斷拓展。在展望 AI for Science 的未來發(fā)展趨勢時,張鑫歸納了五大特點。
首先,AI 推理能力將會顯著提升,其回答內(nèi)容具有更強的可靠性和可追溯性,為科研人員提供堅實的數(shù)據(jù)支撐。
其次,多模態(tài)數(shù)據(jù)融合的需求日益迫切??蒲蓄I(lǐng)域涉及多種類型的數(shù)據(jù),如何有效地融合多模態(tài)數(shù)據(jù),以獲取全面且深入的信息,是至關(guān)重要的。
第三,通用 AI 與實驗科學(xué)的深度融合。將 AI 技術(shù)引入了實驗過程的每一個環(huán)節(jié),從實驗過程監(jiān)控到實驗結(jié)果調(diào)整優(yōu)化,AI 都能發(fā)揮重要作用,從而推動實驗科學(xué)的快速發(fā)展。
第四,構(gòu)建更加開放共享的平臺和生態(tài),方便科研人員獲取和使用數(shù)據(jù),同時促進(jìn)不同機構(gòu)之間的聯(lián)動合作,共同推動科學(xué)研究的進(jìn)步。
最后,倫理和法律問題也是不容忽視的一環(huán)。在保障數(shù)據(jù)隱私性和可靠性的前提下,AI for Science 才能穩(wěn)健前行,為科學(xué)研究注入源源不斷的動力。
針對這些未來趨勢,火山引擎將重點在兩個方面發(fā)力。一方面,火山引擎將在廣度上進(jìn)行拓展,深入研究材料科學(xué)、化學(xué)、天文等多個領(lǐng)域,為更多企業(yè)和科研機構(gòu)提供加速研究的支持。另一方面,在技術(shù)層面,火山引擎將優(yōu)化大模型能力,不僅通過算法助力科研,還將物理世界的規(guī)則和前沿規(guī)律等知識注入大模型中,實現(xiàn) AI for Science 與 Science for AI 的有機結(jié)合,形成相互促進(jìn)的飛輪效應(yīng)。
AI for Science 不僅為科學(xué)研究提供了前所未有的動力,讓科研過程變得更加高效、精準(zhǔn),同時也從科學(xué)研究中汲取養(yǎng)分,不斷推動著 AI 技術(shù)的邊界拓展與能力提升??蒲械牡缆酚罒o止境,火山引擎也會繼續(xù)深耕 AI 技術(shù),拓展科研應(yīng)用場景,以開放的心態(tài),與科研工作者共同探索未知,解鎖科學(xué)的奧秘。