為什么道熵分布式存儲是PACS存儲的更優(yōu)選擇
前言
道熵分布式存儲是業(yè)界率先實現無人值守自動化運維與數據自修復的分布式存儲,采用雙重RAID數據保護機制,具備高容錯的Fail-in-Place特性,是PACS醫(yī)療影像存儲的更優(yōu)選擇。
一、醫(yī)療PACS影像存儲現狀
醫(yī)院存儲的數據80%-85%來自于影像數據,隨著醫(yī)療影像設備的激增、拍片設備單次拍片量的增加,以及拍片設備分辨率的不斷提高,醫(yī)院的醫(yī)療PACS數據量預計每年增長15%,五年翻一番,并呈加速增長的態(tài)勢。PACS系統所收集的B超、X射線、CT、核磁等影像數據飆升,三甲綜合性醫(yī)院或胸科、肺科、骨科等三甲??漆t(yī)院,一年的新增拍片量在50TB ~ 60TB。并且,根據國家電子病歷保存相關規(guī)定,醫(yī)療機構保管保存醫(yī)療影像數據時間要求不少于15年。無論是從業(yè)務發(fā)展還是合規(guī)要求方面,醫(yī)療影像數據的存儲都對存儲系統提出了更高需求。
目前醫(yī)院的醫(yī)療PACS數據普遍采用傳統陣列存儲FC SAN或NAS,并采用在線、近線、離線的三級存儲架構。這種PACS存儲架構普遍面臨以下問題:
1、性能/容量擴展困難
PACS影像的典型特征是大部分文件都是小文件,其中MR文件平均大小為60KB左右;CT文件平均大小為300KB左右,也是小文件。長期以來,小文件存儲都是存儲系統面臨的挑戰(zhàn):小文件讀寫性能低,且當存儲的文件數量增多時性能會不斷下降。
目前在線存儲使用傳統陣列存儲系統時,PACS圖像調閱的速度最快僅為每秒80幅左右。典型的MR檢查,平均每次檢查產生約3000~5000張小圖片,調閱圖片需要數十秒以上;在大型醫(yī)院的業(yè)務高峰期,數百位門診、臨床醫(yī)生同時閱片時,對存儲系統產生高并發(fā)訪問,閱片等待時間更長。
2、系統架構復雜、數據訪問不便
三級存儲架構下,PACS影像數據分散保存在三套不同的存儲系統中。這會導致以下問題:
在患者進行復查時,醫(yī)生需要調閱半年前或一年前的檢查影像,這些影像位于近線存儲中,需要將這些影像先遷移到在線存儲中再調閱,操作繁瑣,難以讓醫(yī)生立即調閱。
三級架構導致的數據隔離,難以將積累的大量PACS數據用于如AI輔助診療、影像數據分析與影像智能診斷等科研活動,使數據價值難以充分發(fā)揮。
不同存儲系統之間的數據難以統一管理,數據遷移工作繁重。
3、總體擁有成本較高
傳統中高端磁盤陣列存儲設備的購置成本較高,尤其是后期擴容成本難以控制。此外,分級存儲帶來的數據遷移工作量巨大,三套存儲的運維也增加了醫(yī)院信息中心的運維成本。
二、道熵分布式存儲在醫(yī)療PACS上的應用優(yōu)勢
道熵分布式存儲是一種具有Fail-in-Place高容錯特性的陣列式分布式存儲,每個存儲節(jié)點是一個RAID陣列,通過分布式技術將多個RAID陣列融合為一個統一的存儲平臺,同時具備磁盤陣列高性能、高穩(wěn)定性與分布式存儲的高擴展性、易管理的特點。
道熵分布式存儲相對于傳統陣列存儲,在大規(guī)模在線擴展、百億級小文件管理、高性能數據吞吐、敏捷化運維管理、TCO成本優(yōu)化等方面具有明顯的技術優(yōu)勢,可以有效解決目前醫(yī)療PACS在存儲上遇到的性能瓶頸、數據孤島、運維困難、成本較高等問題,成為醫(yī)療機構存儲架構的更優(yōu)選擇。
數據安全性
道熵分布式存儲采用雙重RAID架構,同時具備節(jié)點內RAID保護和節(jié)點間副本雙重保護機制。而無論是傳統磁盤陣列還是三副本分布式存儲,都只有單層數據保護,因此數據安全性比同類產品高出一個數據級。
存儲硬件錯誤類型非常多,包括磁盤壞道、Firmware bug、靜默錯誤導致數據損壞無法及時發(fā)現、電壓不穩(wěn)定導致數據未寫入但返回成功、SSD長時間下線導致數據丟失、網絡傳輸錯誤導致數據通過網卡后產生bits反轉等。
道熵分布式存儲通過對每個數據塊產生一個256位校驗碼,作為數據塊的元數據分開保存,并在數據讀出時進行校驗,并利用RAID功能對數據進行自修復。雙重RAID機制結合數據自修復功能,可確保醫(yī)療影像數據最少保存15年而不損壞。
性能提升
道熵分布式存儲對PACS應用場景進行了針對性優(yōu)化:PACS影像文件的大小集中在32KB或以上,因此道熵在存儲底層采用32KB塊大小來匹配工作流,每個小文件的讀寫只需消耗1到2次讀寫操作,使得其性能顯著高于傳統存儲和同類分布式存儲。
PACS影像數據具有典型的雙模工作流特征,即數據在剛產生時的一段時間內屬于熱數據,要求迅速讀取,而當熱數據冷卻后雖然極少訪問卻需要長期保存。道熵分布式存儲采用高速度的固態(tài)硬盤(SSD)來保存熱數據,采用大容量的機械硬盤(HDD)來保存冷數據,并通過智能緩存算法,自動識別并管理熱數據。每個存儲節(jié)點可在線增加SSD緩沖容量,以提升性能。
統一存儲平臺
道熵分布式存儲可同時提供塊存儲、對象存儲、POSIX文件系統以及大數據分析存儲等,并實現各種數據存儲的統一管理。支持FC、iSCSI、NFS、Samba、FTP、SFTP、S3、HDFS、Openstack Cinder/Nova/Glance、VMware VAAI等多種存儲協議,除了支持PACS醫(yī)療影像系統,還可支撐醫(yī)院信息系統HIS、實驗室信息系統LIS、電子病歷EMR、臨床信息系統CIS等醫(yī)院多種業(yè)務系統。
按需擴容,持續(xù)演進
道熵分布式存儲采用分布式元數據管理,使擴容變得極為簡單:只需要通過加入新的硬盤或者服務器即可實現擴容,支持設備內增加任意數量的硬盤,性能隨存儲節(jié)點數線性提升,數據的遷移通過集群內部高效率的完成,用最少的操作步驟將業(yè)務影響程度降到了最低。
使用道熵分布式存儲后,原來在線、近線、離線三層架構簡化為一套存儲,所有PACS影像都可在線調閱,并且調閱性能無差異,消除了PACS數據孤島,有效支撐影像大數據分析、AI輔助診療等科研和新興業(yè)務需求。
道熵分布式存儲支持持續(xù)性硬件生命周期管理,可在線更換老舊磁盤、老舊服務器等硬件,而不影響業(yè)務連續(xù)性。新增的服務器品牌、種類可以不同,支持異構擴展。存儲硬件的升級換代,只需要通過將新節(jié)點上線、舊節(jié)點下線、數據自動遷移就能實現,無需人工數據遷移。
運維簡化,成本節(jié)省
道熵分布式存儲實現了無人值守的自動化運維,具有自動化報警、自動化故障診斷和極強的自我修復能力。支持平滑的在線擴容能力,使隨需擴容成為可能。
由于PACS影像數據量在快速增長,同時PACS影像按合規(guī)要求保存的時間更長,PACS影像數據的存儲成本問題逐漸顯現出來。采用性能和擴展性更高,TCO成本更經濟的分布式存儲將成為越來越多醫(yī)聯體或大型醫(yī)療機構的考慮方案。