大數(shù)據(jù)彈性應用開發(fā)的八項基本原則
大數(shù)據(jù)應用正在從概念走向現(xiàn)實,而企業(yè)在大數(shù)據(jù)應用開發(fā)時,軟件的彈性(Resilient)正在成為決定大數(shù)據(jù)應用成敗的關鍵因素。彈性差的應用無法應對大規(guī)模的數(shù)據(jù)集,在測試和運營中也缺乏透明度,而且也不安全。
避免大數(shù)據(jù)應用在生產環(huán)境中掉鏈子的***辦法就是在開發(fā)階段就開發(fā)彈性應用,例如:魯棒、經(jīng)過測試、可改變、可審計、高安全、可監(jiān)控。
可以說,開發(fā)出彈性大數(shù)據(jù)應用既是一個技術工作,也是一個哲學問題。Concurrent的Supreet Oberoi近日撰文提出大數(shù)據(jù)應用開發(fā)八大基本原則,IT經(jīng)理網(wǎng)編譯如下:
一、為彈性大數(shù)據(jù)應用描繪一個藍圖
***步是為企業(yè)大數(shù)據(jù)應用創(chuàng)建一個系統(tǒng)的架構和方法,要處理什么數(shù)據(jù)?那些類型的分析最重要?軟件架構需要承載那些指標、審計、安全和運營功能?
另外一些需要考慮的問題:那些技術最關鍵?哪些技術只是圖一時之便?你的藍圖需要準確評估當前架構的問題所在。
二、數(shù)據(jù)規(guī)模不再是問題
如果應用無法處理更大規(guī)模的數(shù)據(jù)集,那么它就缺乏彈性,彈性應用應當能夠處理任意規(guī)模的數(shù)據(jù)集(包括數(shù)據(jù)深度、廣度、頻度等),數(shù)據(jù)彈性還只對新技術的兼容,缺乏彈性的應用需要不斷配置修改應用來適應不斷更新的大數(shù)據(jù)技術,對于企業(yè)來說是時間、資源和金錢上的無底洞。
三、透明度
對于復雜應用來說,查找擴展性等彈性相關問題還很難實現(xiàn)自動化。關鍵是鎖定問題的根源所在:是代碼、數(shù)據(jù)還是架構抑或網(wǎng)絡問題?并非每個應用都要具備這種透明度,但大一些的平臺應當具備足夠的透明度,讓所有開發(fā)者和運營人員都能在問題發(fā)生時立刻找到根源并采取措施。
一旦發(fā)現(xiàn)問題,最為關鍵的是將找到應用行為對應的代碼——***是通過發(fā)現(xiàn)問題的監(jiān)控應用。大多數(shù)情況下,訪問代碼會涉及到多個開發(fā)人員,執(zhí)行起來流程將非常曲折。
四、抽象,事關高效和簡潔
彈性應用總是面向未來的,通常采用抽象層來簡化開發(fā)、提升效率,允許采用不同的技術實現(xiàn)。作為架構的一部分,彈性開發(fā)的抽象層能夠避免開發(fā)者陷入技 術實現(xiàn)的細節(jié)泥潭中。簡潔性則能方便數(shù)據(jù)科學家使用應用訪問所有類型的數(shù)據(jù)源。如果沒有抽象技術,產品的生產力會大打折扣,修改成本增高,而用戶則為復雜 性所困擾。
五、安全:審計與合規(guī)
彈性應用能自我審計,能夠顯示誰使用了應用,誰有權限使用,訪問了哪些數(shù)據(jù)以及政策如何實施。在應用開發(fā)階段就將這些功能考慮進去是應對日益增長的大數(shù)據(jù)隱私、安全、治理和控制挑戰(zhàn)的關鍵所在。
六、完整度與測試驅動的開發(fā)
彈性應用的一個基本要求就是不能遺失任何數(shù)據(jù),數(shù)據(jù)完整性的喪失往往會導致嚴重的后果,例如金融企業(yè)會因為程序代碼弄丟了一兩行交易數(shù)據(jù)而在反洗錢或金融欺詐調查中遭受處罰。
七、數(shù)據(jù)便攜性
不斷發(fā)展的業(yè)務需求驅動技術不斷做出改變,因此,大數(shù)據(jù)應用也應當能夠在多個平臺和產品上運行。最終的目標是讓最終用戶能夠通過SQL和標準API 訪問數(shù)據(jù)(無論是否實時)。例如,一個先進的大數(shù)據(jù)平臺應當允許原本由Hadoop存儲MapReduce處理的數(shù)據(jù),轉移到Spark或Tez中進進行 處理,而且這個過程不需要或盡可能少地改動代碼。
八、不要搞個人“巫術”
大數(shù)據(jù)應用的開發(fā)不應當依賴某個高手的個人才華,代碼應當在多個開發(fā)者之間分享、評估和保有。這個策略讓整個團隊,而不是個人,對應用質量負責。
英文:The eight must-have elements for resilient big data apps
譯文出自:IT經(jīng)理網(wǎng)