國家氣象信息中心沈文海:氣象大數(shù)據(jù)如何落地
地面觀測數(shù)據(jù)要求永久保存 傳統(tǒng)IT架構(gòu)不能支撐
國家氣象信息中心副總工程師沈文海在接受記者的采訪時說,目前整個中國氣象局所保存的數(shù)據(jù)在4~5PB左右,每年大概增加數(shù)百個TB左右。“這些數(shù)據(jù)包含了地面觀測、衛(wèi)星、雷達和數(shù)據(jù)預(yù)報產(chǎn)品等幾大類的觀測數(shù)據(jù)。”
國家氣象信息中心副總工程師沈文海
其中,地面氣象站觀測所獲取的數(shù)據(jù)是需要永久保存的,其使用率非常高,除了常規(guī)天氣預(yù)報業(yè)務(wù)需要用到之外,諸如氣候預(yù)測、氣象農(nóng)業(yè)、環(huán)境氣象、交通氣象以及科研等領(lǐng)域,都需要用到這些數(shù)據(jù)。
“另外,除了常規(guī)的地面觀測站之外,以氣象衛(wèi)星和多普勒天氣雷達為代表的遙感遙測業(yè)務(wù)領(lǐng)域近三十年來取得飛速發(fā)展,這些領(lǐng)域一方面每天產(chǎn)生著數(shù)以TB級的觀測數(shù)據(jù),另一方面也需要地面觀測等實測數(shù)據(jù)作為其遙感數(shù)據(jù)的訂正依據(jù)。”
沈文海告訴記者,這里的地面/高空觀探測數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),氣象衛(wèi)星、天氣雷達數(shù)據(jù)則為非結(jié)構(gòu)化數(shù)據(jù)。以這些數(shù)據(jù)為主,構(gòu)成了所謂的“氣象大數(shù)據(jù)”,雖然“氣象大數(shù)據(jù)”與目前業(yè)界公認的以“4V”為特征的大數(shù)據(jù)的存在一定差異,但數(shù)據(jù)量的巨大以及迅速膨脹的速度則是十年前完全無法想象的。
比如:地面氣象觀站數(shù)量的急速增加。目前,我國地面觀測臺站已達到約4萬個,遍布我國各個地區(qū)。由于自動觀測技術(shù)的發(fā)展以及地面自動氣象站的推廣普及,使地面觀測業(yè)務(wù)擺脫了人工觀測所帶來的對觀測人員居住環(huán)境的要求,觀測站點可布設(shè)到許多環(huán)境十分嚴苛的地域,如:荒島、沙漠、高原等。同時由于是自動觀測,不受人員編制的束縛,可在任何需要布設(shè)的地域布設(shè),因此觀測臺站數(shù)量逐年增加,預(yù)計到2020年,地面觀測臺站有可能發(fā)展到七萬個左右。
另外,從觀測頻次上看,上世紀五十年代到九十年代是每三小時觀測一次,經(jīng)過近十幾年業(yè)務(wù)規(guī)范的不斷修訂,觀測頻次逐步修訂成數(shù)年前的每10分鐘觀測一次以及目前的每5分鐘觀測一次。“但這遠遠不夠,按照氣象現(xiàn)代化的發(fā)展要求,不久的將來地面觀測的頻次將達到一分鐘一次。”沈文海說,觀測臺站數(shù)量的增加和觀測頻次的增加,使得地面觀測數(shù)據(jù)成為“氣象大數(shù)據(jù)”的典型。
而地面觀測數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)使用特征,使得其從最初的信息采集和傳輸,到信息加工處理、存儲管理以及最終的提供服務(wù)等各個環(huán)節(jié),都對氣象IT業(yè)務(wù)提出了嚴峻挑戰(zhàn)。比如在數(shù)據(jù)檢索上,傳統(tǒng)的技術(shù)架構(gòu),已難以滿足大量數(shù)據(jù)信息檢索時效的需求。
大數(shù)據(jù)和云計算帶來的是一種新的解決思路。沈文海在采訪中說,雖然氣象部門還沒有充分做好迎接大數(shù)據(jù)浪潮的準備,但是大數(shù)據(jù)和云計算帶來的新的理念和技術(shù)架構(gòu)卻會給這個領(lǐng)域的IT建設(shè)一種新的思路和方向。
縣級氣象業(yè)務(wù)面臨改革
沈文海告訴記者,這么多年積累下來作為基層氣象單位的縣級氣象局都都或多或少地積累起一些計算機設(shè)備,而這些設(shè)備彼此是并不相關(guān)的、能力也參差不齊。究其歷史根源,是因為縣級氣象局近幾十年來根據(jù)當?shù)厣鐣驼臍庀蠓?wù)需求、依托各種建設(shè)項目,不斷地開發(fā)建設(shè)適應(yīng)當?shù)胤?wù)需求的業(yè)務(wù)系統(tǒng),提升自身的氣象服務(wù)能力。
而氣象業(yè)務(wù)系統(tǒng)是典型的信息系統(tǒng),因此這些業(yè)務(wù)系統(tǒng)建設(shè)幾乎無一例外的都是信息系統(tǒng)建設(shè)。“這些業(yè)務(wù)系統(tǒng)的建設(shè)時期不同,功能彼此不同。傳統(tǒng)的做法是一套系統(tǒng)配置一套設(shè)備”沈文海解釋到,因此會形成我們前面提到的參差不齊。
另外,由于業(yè)務(wù)系統(tǒng)在運行時需要大量相關(guān)的觀探測數(shù)據(jù)、預(yù)報產(chǎn)品等做支撐,因此在縣級氣象局諸多業(yè)務(wù)系統(tǒng)中,還配有一套具有一定規(guī)模的數(shù)據(jù)接收、管理和服務(wù)系統(tǒng),以向各業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)支撐。“由于縣氣象局業(yè)務(wù)繁雜,人力資源緊張,這些業(yè)務(wù)系統(tǒng)的日常維護逐漸成為不少縣氣象局日益沉重的負擔。”沈文海介紹道。
為此,2011年起,中國氣象局啟動了“縣級氣象業(yè)務(wù)綜合改革”工作,目的在于全面提高做為基層氣象業(yè)務(wù)單位的縣級氣象局服務(wù)當?shù)厣鐣驼臉I(yè)務(wù)能力。改革的內(nèi)容很多,其中包括對縣級業(yè)務(wù)信息系統(tǒng)的規(guī)范、整合、改進和功能加強。改進后的縣級綜合業(yè)務(wù)系統(tǒng)集成度會有很大的提高,然而其需要的數(shù)據(jù)種類、數(shù)量和時效也大幅增加;于是縣一級業(yè)務(wù)系統(tǒng)的運行模式,尤其是是否在縣氣象局建立規(guī)格較高的機房(即所謂的“數(shù)據(jù)中心“)便成為討論甚至爭論的焦點之一。
數(shù)據(jù)中心改革的兩個選擇
提到這個爭論,一開始曾經(jīng)相當激烈。沈文海介紹說,爭論焦點主要集中在整個氣象部門的數(shù)據(jù)中心的布局,而布局的方案則由縣級業(yè)務(wù)系統(tǒng)的運行模式而決定,即:
選擇一:延續(xù)原有思路,所有業(yè)務(wù)系統(tǒng)仍然在當?shù)剡\行,于是服務(wù)器系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、通信系統(tǒng)等均需要配置在當?shù)?;由于這些設(shè)備對環(huán)境條件有一定的規(guī)范要求,因此必須在當?shù)亟⑵鹣鄳?yīng)的能夠滿足設(shè)備正常運行所需環(huán)境條件的場地環(huán)境,即所謂的“數(shù)據(jù)中心“(機房),也就是“將數(shù)據(jù)中心建到縣氣象局”。
選擇二、改變原有思路,將縣級業(yè)務(wù)系統(tǒng)的運行地點集中到省氣象局,由專業(yè)技術(shù)水平較高的省氣象信息中心負責運行維護??h氣象局業(yè)務(wù)人員負責提交指令,獲取結(jié)果。也就是:“把數(shù)據(jù)中心建到省氣象局,實現(xiàn)業(yè)務(wù)系統(tǒng)在縣氣象局的終端化”。
“第二套方案的好處是顯而易見的,”沈文海描述到,“其最明顯的好處之一就是縣級氣象業(yè)務(wù)系統(tǒng)的零維護”。
“然而前景美好是一回事,能否實現(xiàn)則是另一回事。以數(shù)據(jù)環(huán)境為例,將省內(nèi)百余個縣的數(shù)據(jù)環(huán)境全部集中到省氣象局,由有限的幾個數(shù)據(jù)庫管理數(shù)百萬計日增量的結(jié)構(gòu)化數(shù)據(jù)以及十數(shù)TB級非結(jié)構(gòu)化數(shù)據(jù),并提供全省所有地市和縣局的業(yè)務(wù)支持,目前相對傳統(tǒng)的技術(shù)架構(gòu),是無法做到的。” 沈文海補充到。
云計算和大數(shù)據(jù)的到來,為第二套方案提供了可能。
沈文海說,為給第二套方案打通技術(shù)道路,國家氣象信息中心于2013年初開始,著手考慮對調(diào)整現(xiàn)有IT架構(gòu)的探索。“我們主要考慮分布式存儲和分布式處理的技術(shù),尤其是分布式關(guān)系型數(shù)據(jù)庫技術(shù)。當然其中虛擬化和云計算的某些技術(shù)是必備的。”沈文海透露,目前經(jīng)過測試,一些主要指標已經(jīng)能夠滿足第二套方案所需要的處理和檢索性能需求。
“我們對第二套方案越來越有信心了”沈文海介紹到。據(jù)了解,如果一切順利,依照計劃,第二套方案將會在2015年年底前全部完成。
在交談過程中,沈文海一直對“氣象大數(shù)據(jù)”一詞的使用十分謹慎,他解釋說,氣象部門的“大數(shù)據(jù)”主要產(chǎn)生于“感知”領(lǐng)域,所謂“氣象大數(shù)據(jù)”主要是指氣象探測數(shù)據(jù)。而氣象探測數(shù)據(jù)是那些能夠反映氣象狀態(tài)的數(shù)據(jù),其內(nèi)在信息范圍是相對固定的。
此外,氣象觀測數(shù)據(jù)雖然體積巨大,卻是基本可以實時處理以獲取內(nèi)在信息的。這些都與目前業(yè)界公認的“大數(shù)據(jù)”特征存在較大差異。如何將“大數(shù)據(jù)”的理念和方法運用到氣象觀測數(shù)據(jù)中,使之發(fā)揮出更大效益,正是目前正在思考和探索的主要問題之一。