淺談大數(shù)據(jù)技術(shù)在天體系統(tǒng)運(yùn)行狀態(tài)監(jiān)測(cè)中的應(yīng)用
大數(shù)據(jù)處理技術(shù)可以分為批處理與流處理兩種模式。批處理系統(tǒng)具有先存儲(chǔ)后計(jì)算﹑數(shù)據(jù)的準(zhǔn)確性和全面性要求高等特點(diǎn)。流處理系統(tǒng)往往不要求結(jié)果絕對(duì)精確而注重對(duì)動(dòng)態(tài)產(chǎn)生的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算并及時(shí)反饋結(jié)果。
Hadoop是當(dāng)前最流行的大數(shù)據(jù)技術(shù)架構(gòu),包括Hadoop分布式文件系統(tǒng)( HDFS)、數(shù)據(jù)分析框架 Map-Reduce、數(shù)據(jù)挖掘工具 Mahout等,目前很多大數(shù)據(jù)處理都是基于Hadoop平臺(tái)之上。
數(shù)據(jù)流處理的特殊性以及大數(shù)據(jù)處理的時(shí)效性等各種限制使得傳統(tǒng)的實(shí)時(shí)處理技術(shù)已不能夠滿足需求,因此,大數(shù)據(jù)的流式處理成為了天文學(xué)學(xué)者的研究熱點(diǎn)。當(dāng)前,流式數(shù)據(jù)處理的計(jì)算框架主要有Storm,Spark Streaming等,并且在互聯(lián)網(wǎng)行業(yè)得到了一定的應(yīng)用,但在天文學(xué)研究中尚鮮有應(yīng)用。
國(guó)內(nèi)外在天體系統(tǒng)運(yùn)行狀態(tài)監(jiān)測(cè)大數(shù)據(jù)技術(shù)研究和應(yīng)用方面已有成效,但仍處于起步探索階段。天體系統(tǒng)的運(yùn)行狀態(tài)數(shù)據(jù)具有持續(xù)不斷、數(shù)據(jù)量大、規(guī)模及順序無法預(yù)知及時(shí)效性高等特點(diǎn),形成了大規(guī)模的數(shù)據(jù)流。而數(shù)據(jù)流的價(jià)值會(huì)隨著時(shí)間的流逝而減少,如何快速地從數(shù)據(jù)流中發(fā)現(xiàn)異常數(shù)據(jù),為天體系統(tǒng)的運(yùn)行與安全狀態(tài)監(jiān)測(cè)提供重要依據(jù)具有重要意義,因此可以將大數(shù)據(jù)技術(shù)引入到天體系統(tǒng)運(yùn)行異常狀態(tài)檢測(cè)中。目前在天體系統(tǒng)運(yùn)行異常狀態(tài)檢測(cè)中應(yīng)用的大數(shù)據(jù)技術(shù)有時(shí)間序列分析、馬爾可夫模型、遺傳規(guī)劃算法、分類算法等,但這些研究尚處于探索階段,尚未形成完善、成熟的理論體系。