從病毒研究談起,聊聊冷凍電鏡及背后的HPC
了解更多數(shù)字化轉(zhuǎn)型方案查看此鏈接:
https://www.dellemc-solution.com/home/index.html
今日tips
嬰幼兒能不能戴口罩?
通常來講,1-2歲的嬰幼兒不能戴口罩。N95口罩透氣度較差,不適合孩子使用。對于兒童,推薦佩戴兒童專用的防護口罩,且家長需隨時注意孩子有無呼吸困難等不適情況。
——來自@人民日報
拋開疫情不談
我們來聊聊
這次疫情的始作俑者——病毒
科學(xué)家們是如何研究病毒的
關(guān)于病毒,這是一類沒有細胞結(jié)構(gòu)的簡單的特殊生物,它們的結(jié)構(gòu)基本相似,一般由蛋白質(zhì)的外殼和內(nèi)部的遺傳物質(zhì)(核酸)組成。
對于一種新的病毒,我們只有去發(fā)現(xiàn)它、了解它、研究它,最終才能制造出能治愈患者的藥物,以及增強人體免疫的疫苗。
那么一般而言,對病毒的研究一般都有如下內(nèi)容和方法:
- 病毒培養(yǎng):在病毒學(xué)研究中除用做病毒增殖、病原分離以外,還用于研究病毒的復(fù)制過程及細胞的病理變化,研究病毒與宿主的互作關(guān)系,探討抗體與抗病毒物質(zhì)對病毒的作用方式與機制等。還可用于病毒的分離鑒定、抗原的制備、疫苗和干擾素的生產(chǎn)、病毒性疾病診斷和流行病學(xué)調(diào)查等。
- 病毒的分離純化與測定:屬于病毒學(xué)研究的基本技術(shù)。通過病毒的分離純化,可獲得純化的、有感染性的病毒制備物。通過病毒測定可確定病毒數(shù)量及活性。病毒的分離是將疑有病毒而待分離的標本經(jīng)處理后,接種于相應(yīng)敏感的宿主、雞胚或感染細胞,培養(yǎng)一段時間后,通過檢查不同病毒的特異性表現(xiàn)確定病毒的存在,并對病毒進行提取和純化。
- 病毒的鑒定:利用形態(tài)學(xué)、物理學(xué)、化學(xué)、生物學(xué)、免疫學(xué)、分子生物學(xué)、生物信息學(xué)等鑒定病毒的性質(zhì),描述病毒的特征,是病毒分類的前提。病毒鑒定也是診斷病毒性疾病的可靠方法。
病毒如何觀察?
針對病毒做結(jié)構(gòu)研究,就少不了在微觀世界對病毒本身進行觀察和成像。目前,電子顯微三維重構(gòu)(electroneicroscopy,也稱電鏡三維重構(gòu))、X射線晶體學(xué)(X-ray crystallography)、核磁共振波譜學(xué)(nuclearmagnetic resonance,NMR)是結(jié)構(gòu)生物學(xué)的三大研究手段。
不過后兩種技術(shù)都有各自的局限性,比如X線晶體學(xué)只能對生長極為有序的三維結(jié)晶進行觀察,而磁共振技術(shù)則要求測樣品顆粒小,純度非常高,不能夠有重疊峰出現(xiàn)。而冷凍電子顯微鏡,簡稱冷凍電鏡(cryo-electron microscopy,cryo-EM),已成為生物大分子的結(jié)構(gòu)研究的重要手段,這項技術(shù)極大地推動了生物學(xué)的發(fā)展。
什么是冷凍電鏡?
冷凍電鏡是將生物大分子快速冷凍后,在低溫環(huán)境下利用透射電子顯微鏡對樣品進行成像,再經(jīng)圖像處理和重構(gòu)計算獲得樣品的三維結(jié)構(gòu)。
目前,冷凍電鏡三維重構(gòu)技術(shù)由冷低溫制樣、低劑量電鏡成像和計算機圖像處理三部分組成。
隨著冷凍電子顯微鏡的自動化、分辨率、直接電子探測技術(shù)以及高性能圖像處理技術(shù)的大幅提高,越來越適合分析大的難以形成三維晶體復(fù)合體的三維結(jié)構(gòu),如膜蛋白以及病毒和蛋白質(zhì)-核酸復(fù)合物等。
▐ 簡而言之:首先利用冷凍電鏡對冷凍于液氮溫度的生物大分子顆粒進行成像,以獲得數(shù)萬到數(shù)百萬張生物大分子照片,然后通過一定的算法來整合這些圖像,計算出生物大分子的三維結(jié)構(gòu)。這其中三維重構(gòu)算法是核心內(nèi)容,用于測定出每一張照片的諸多參數(shù)。
它的基本原理基于中央截面定理:三維物體沿電子束方向投影的傅里葉變換是該物體所對應(yīng)的傅里葉空間中通過中心且垂直于投影方向的一個截面。那么一個物體完備投影的二維傅里葉變換一定能夠完全填充該物體的三維傅里葉空間,因此物體的完備投影與物體的三維結(jié)構(gòu)是等價的。
所以在實際應(yīng)用中,我們收集到海量的全同顆粒在不同方向的投影(單顆粒),首先通過等價線、投影匹配等方法確定每張投影圖像的取向和中心,然后對每張投影圖進行傅里葉變換,按照投影方向填充到三維傅里葉空間對應(yīng)的切面,并進行差值計算得到倒空間的網(wǎng)格點數(shù)值,最后再進行反傅里葉變換,就可得到實空間的三維結(jié)構(gòu)。
冷凍電鏡的三維重構(gòu)流程
可以看到在整個流程中,數(shù)據(jù)采集、圖像處理、三維重構(gòu)是非常核心的三個步驟,對計算和存儲的需求非常高,以下是部分顆粒挑選、圖片處理和三維重構(gòu)的軟件程序:
用途 |
名稱 |
描述說明 |
支持GPU |
官方網(wǎng)址 |
自動化顆粒挑選 |
Leginon |
從透射電子顯微鏡自動收集圖像。支持的儀器:FEI(Tecnai、Titan Krios、Polara)、JEOL(3200、3100、2100、1230)、CCD(TVIPS、Gatan、FEI)、直接探測器(Gatan K2、FEI Falcon、直接電子DE12、DE20) |
單GPU 單節(jié)點 |
http://nramm.nysbc.org/software/ |
圖像處理流水線 |
Appion |
處理和分析電磁圖像的“管道”。Appion與Leginon數(shù)據(jù)采集集成,但也可以在使用一組提供的工具上傳圖像(數(shù)字或掃描顯微照片)后單獨使用。 底層包集成包含EMAN, Spider, Frealign, Imagic, XMIPP, IMOD, ProTomo, ACE, CTFFind等并行重構(gòu)程序 |
單GPU 單節(jié)點 |
http://nramm.nysbc.org/software/ |
三維重構(gòu) |
RELION |
(for REgularised LIkelihood OptimisatioN)是一個獨立的計算機程序,它采用經(jīng)驗貝葉斯方法對冷凍電鏡(cryo-EM)中的(多個)三維重建或二維類平均值進行求解。在相應(yīng)的貝葉斯框架中,統(tǒng)計模型的許多參數(shù)都是從數(shù)據(jù)中獲得的,所以可以在不需要用戶有豐富專業(yè)知識的情況下獲得客觀和高質(zhì)量的結(jié)果。 |
多GPU 單節(jié)點 |
https://www3.mrc-lmb.cam.ac.uk/relion/ |
三維重構(gòu) |
cryoSPARC |
CryoSPARC是全球范圍內(nèi)用于從單顆粒冷凍電鏡數(shù)據(jù)獲得三維結(jié)構(gòu)信息的先進平臺,結(jié)合先進的算法和高性能計算機平臺,實現(xiàn)了蛋白質(zhì)、病毒和分子復(fù)合物的自動化、高質(zhì)量和高通量結(jié)構(gòu)發(fā)現(xiàn),用于研究和藥物發(fā)現(xiàn)。 |
多GPU 多節(jié)點 |
https://cryosparc.com/ |
許多電鏡三維重構(gòu)程序目前是實現(xiàn)的任務(wù)級別的并行,如BSOFT、FREALIGN、IMOD和PRIISM/IVE等。而AUTO3DEM、IMAGIC、UCSFTOMOgraphy等則完全采用了MPI并行方式。著名的單顆粒三維重構(gòu)軟件EMAN目前所有的并行手段都已經(jīng)實現(xiàn),SPIDER和IMIRS程序則采用了OpenMP和MPI并行方式,但SPIDER保留了任務(wù)級的并行方式,而IMIRS程序沒有。XMIPP則采用了MPI和pthreads方式。
通過上面的分析,可以發(fā)現(xiàn)冷凍電鏡三維重構(gòu)的高性能計算IT需求歸納為以下幾部分:
- 主要為浮點計算,其中有大量的單精度或雙精度快速傅里葉(FFT)計算。
- 軟件內(nèi)存需求和I/O需求大,一般都需要配置并行文件系統(tǒng)。
針對傅里葉(FFT)計算,目前主流大量采用nVidia GPU是行業(yè)慣例,nVidia CUDA為開發(fā)人員提供了多種庫,其中cuFFT庫則是CUDA中專門用于進行傅里葉變換的函數(shù)庫。“cuFFT”全稱是CUDAFast Fourier Transform,顧名思義,它提供了一系列的函數(shù)幫助開發(fā)者進行快速傅里葉變換的運算。
cuFFT庫由兩個子庫構(gòu)成,它們分別是CUFFT和CUFFTW。CUFFTW庫是一個移植工具(portingtool),它為用戶提供了一些接口,以使得用戶使用FFTW庫(一個非常流行的CPU快速傅里葉變換庫)編寫的程序能夠運行在CUDAGPU上。而CUFFT則是純CUDA接口的快速傅里葉變換庫。
針對高性能計算文件系統(tǒng),業(yè)界解決方案有很多:Lustre、BeeGFS、分布式橫向擴展NAS等等。
病毒研究也是對
計算和存儲能力的大考
戴爾科技集團是世界500強的IT解決方案企業(yè),多年以來在高性能計算HPC領(lǐng)域有深厚的沉淀,在國內(nèi)很多高校生命科學(xué)院也成功實施部署了規(guī)模不等的冷凍電鏡HPC平臺,例如包括清華大學(xué)生命科學(xué)與技術(shù)學(xué)院、北京大學(xué)生命科學(xué)聯(lián)合中心、西湖大學(xué)生命科學(xué)學(xué)院、哈爾濱工業(yè)大學(xué)生命科學(xué)與技術(shù)學(xué)院等,在該領(lǐng)域有豐富的規(guī)劃設(shè)計及部署實施經(jīng)驗。
前面提到過由于冷凍電鏡三維重構(gòu)過程中,需要大量的快速傅里葉FFT計算,所以需要海量GPU算力資源來支持,戴爾科技生命科學(xué)類HPC解決方案推薦了多款GPU服務(wù)器設(shè)備滿足該需求。
服務(wù)器型號 |
支持CPU的數(shù)量及型號 |
支持GPU的數(shù)量及型號 |
服務(wù)器外形高度 |
R740/R740xd |
2顆Intel®至強®第二代可擴展系列處理器 |
3塊雙寬度GPU(如nVidia Tesla V100) 或6塊單寬度GPU(如nVidia Tesla T4) |
2U高度機架式 |
R7515 |
1顆AMD 第二代EPYC處理器 |
4塊單寬度GPU(如nVidia Tesla T4) |
2U高度機架式 |
R6515 |
1顆AMD 第二代EPYC處理器 |
2塊單寬度GPU(如nVidia Tesla T4) |
1U高度機架式 |
R6525 |
2顆AMD 第二代EPYC處理器 |
2塊單寬度GPU(如nVidia Tesla T4) |
1U高度機架式 |
R840 |
4顆Intel®至強®第二代可擴展系列處理器 |
2塊雙寬度GPU(如nVidia Tesla V100) 或4塊單寬度GPU(如nVidia Tesla T4) |
2U高度機架式 |
R940xa |
4顆Intel®至強®第二代可擴展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) 或8塊單寬度GPU(如nVidia Tesla T4) |
4U高度機架式 |
T640 |
2顆Intel®至強®第二代可擴展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) 或8塊單寬度GPU(如nVidia Tesla T4) |
塔式或5U高度機架式 |
C4140 |
2顆Intel®至強®第二代可擴展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) |
1U高度機架式 |
DSS8440 |
2顆Intel®至強®第二代可擴展系列處理器 |
10塊雙寬度GPU(如nVidia Tesla V100) |
4U高度機架式 |
特別需要提到的是C4140這款服務(wù)器,1U高度可以安裝4塊雙寬度GPU(如nVidia Tesla V100),且支持NVLink或PCI-E兩種架構(gòu)方式可選,用于不同的應(yīng)用業(yè)務(wù)場景,同時節(jié)省機柜占用空間。
▲戴爾易安信PowerEdgeC4140
不管是生命科學(xué)類超算應(yīng)用,還是校級超算平臺綜合性應(yīng)用,近年來在國內(nèi)多所知名高校都有成功部署案例如北京大學(xué)、武漢大學(xué)等等。
說到HPC集群,除了需要強大的計算資源以外,還離不開存儲資源。
總的來說冷凍電鏡HPC集群對存儲I/O性能和容量要求較高,原因如下:
- 電鏡投影圖片數(shù)量和尺寸不斷增加(4K × 4K, 8K × 8K);
- 生成三維重構(gòu)文件巨大(GB-TB);
- 若要達到滿意結(jié)果需要迭代計算幾十次甚至更多。
比如說上??萍即髮W(xué)免疫化學(xué)研究所饒子和院士(新聞原文:https://new.qq.com/rain/a/20191018A08PWT)所率領(lǐng)的聯(lián)合團隊通過冷凍電鏡累計獲得了7萬余張合計超過100TB的高質(zhì)量照片,完整病毒顆粒接近6萬5千顆,最終解析了非洲豬瘟病毒全顆粒的三維結(jié)構(gòu)。這些巨大的數(shù)據(jù)量對背后的超算系統(tǒng)都是不小的挑戰(zhàn)。
而在存儲領(lǐng)域,戴爾科技集團亦有深厚的技術(shù)積累,并且經(jīng)過多年的市場考驗,長期在IDC全球外部存儲設(shè)備市場排名前列,積累了優(yōu)秀的口碑。其針對HPC應(yīng)用領(lǐng)域,提供了如下多種存儲方案供選擇。既保證性能/容量要求,又提供更多功能選擇供未來擴展業(yè)務(wù)應(yīng)用,并且考慮到客戶的投資回報。
高性能計算HPC集群項目,涉及產(chǎn)品眾多,技術(shù)復(fù)雜,一般還會涉及大量的開源操作系統(tǒng)/開源應(yīng)用軟件等,其實施部署復(fù)雜,而售后處理會涉及到多方面多供應(yīng)商。戴爾科技集團為此推出了“適用于HPC的ProSupport附加服務(wù)”,提供了比ProSupport及ProSupportPlus基于設(shè)備本身售后服務(wù)更高級別的支持。
對客戶IT管理層來說,“適用于HPC的ProSupport附加服務(wù)”帶來了如下的好處:
- 具有完整硬件和服務(wù)組合的單一提供商:全部由戴爾科技集團來作為售后服務(wù)接口人
- 有更多時間關(guān)注業(yè)務(wù)目標
- 管理群集的成本降低
同時也給客戶HPC系統(tǒng)管理員帶來了好處:
- 增強部署/支持生命周期體驗
- 標準化服務(wù)確保預(yù)期結(jié)果
- 更快地解決問題
- 獲得高級疑難解答與協(xié)助:就功能、特性、群集配置問題、固件版本、互操作性和 HPC 一般“入門”問題提供建議;根據(jù)在部署期間運行的性能基準測試所建立的預(yù)先記錄級別,幫助解決群集性能退化問題;協(xié)助解決您 HPC 環(huán)境特有的關(guān)鍵支持問題。
作者說明:本文涉及到一些生命科學(xué)等專業(yè)的知識內(nèi)容,作者是查閱互聯(lián)網(wǎng)公開資料總結(jié)整理而成,由于時間倉促,在文字內(nèi)容上恐有瑕疵或錯誤,懇請讀者專家們給出意見和建議,謝謝!
點擊右邊給我一朵小花花
相關(guān)內(nèi)容推薦:虛機誤刪,"至暗時刻"來臨...
相關(guān)產(chǎn)品:PowerEdge C4140服務(wù)器