王蘇揚:南鋼企業(yè)云發(fā)展歷程及未來規(guī)劃|V課堂第102期
第102期【智造+V課堂】邀請南鋼集團云系統(tǒng)服務(wù)部部長 王蘇揚精彩分享《南鋼企業(yè)云發(fā)展歷程及未來規(guī)劃》。王總從南鋼企業(yè)云的構(gòu)架、構(gòu)建手段、應(yīng)用效果以及未來的發(fā)展規(guī)劃,跟大家分享了南鋼企業(yè)云發(fā)展的點點滴滴。
一、分享嘉賓
金恒信息科技股份有限公司云系統(tǒng)服務(wù)部部長 王蘇揚
1. 個人簡介
- 江蘇金恒信息科技股份有限公司云系統(tǒng)服務(wù)部部長兼信息技術(shù)研究院院長助理;
- 曾參與南鋼核心網(wǎng)絡(luò)升級、無線網(wǎng)絡(luò)建設(shè)、安全準(zhǔn)入建設(shè)、服務(wù)器虛擬化及ERP、MES、計量、檢化驗服務(wù)器及存儲更新升級等項目。
2. 專業(yè)領(lǐng)域
- 企業(yè)信息化基礎(chǔ)架構(gòu)整體規(guī)劃與實施
- 企業(yè)信息安全技術(shù)架構(gòu)規(guī)劃與實施
二、分享主題
《南鋼企業(yè)云發(fā)展歷程及未來規(guī)劃》
三、分享大綱
1.南鋼及金恒簡介
2.南鋼企業(yè)云架構(gòu)概述
3.南鋼企業(yè)云構(gòu)建手段及應(yīng)用效果
4.南鋼企業(yè)云未來的規(guī)劃
四、原文實錄
原文實錄context:
1. 南鋼及金恒簡介
南鋼1958年3月建廠,作為國家特大型鋼鐵企業(yè),“精品板材+優(yōu)特鋼”生產(chǎn)基地,曾獲國家級高新基礎(chǔ)企業(yè)稱號、亞洲質(zhì)量獎、全國質(zhì)量獎。2013年,南鋼整體產(chǎn)能達到1000萬噸。2015年南鋼進行事業(yè)部制改革,提出“一體三元五驅(qū)動”戰(zhàn)略,以金屬新材料為本體,結(jié)合節(jié)能環(huán)保、互聯(lián)網(wǎng)+、智能制造,打造綜合服務(wù)提供商。2017年鋼鐵企業(yè)競爭力評級中,南鋼在03家企業(yè)中排名第八,未來將為創(chuàng)建國際一流受尊重的企業(yè)智慧生命體而努力。
江蘇金恒信息科技股份有限公司是南鋼控股子公司,前身為南鋼信息與自動化公司,總部位于南京國家級新區(qū)江北新區(qū),注冊資本1億元,2017年預(yù)計銷售額2億元、利潤3000萬元。
金恒主要為客戶提供兩化融合咨詢與IT規(guī)劃設(shè)計,智能產(chǎn)品研發(fā)、生產(chǎn)與銷售以及信息化、自動化、智能化、系統(tǒng)集成等綜合工程服務(wù)。產(chǎn)品與服務(wù)覆蓋鋼鐵、有色、化工、醫(yī)藥、造船、物流、機械、公共服務(wù)等多個行業(yè)。
2. 南鋼企業(yè)云架構(gòu)概述
南鋼從2005年開始信息化進程,期間完成主干網(wǎng)絡(luò)、ERP、MES等大型信息化系統(tǒng)和基礎(chǔ)架構(gòu)的建設(shè),在歷經(jīng)9年的運用和優(yōu)化后,南鋼自2014年引入云概念,開始建立企業(yè)云,從架構(gòu)部署模式上分類,我們目前已完成企業(yè)私有云的建設(shè),如今計算和虛擬化長期處于成熟的曲線之中,存儲在“軟件定義”的路徑上得到很好的發(fā)展,從虛擬化,到分布式存儲,在上升至超融合架構(gòu)(融合致簡,深度優(yōu)化) ,南鋼企業(yè)云正隨著技術(shù)設(shè)施的完善不斷深化應(yīng)用。當(dāng)前正推進與阿里進行合作,推動公司公有云應(yīng)用及混合云服務(wù)的前進步伐。
3. 南鋼企業(yè)云構(gòu)建手段及應(yīng)用效果
遵循云服務(wù)的設(shè)計理念,圍繞敏捷、安全、高效的系統(tǒng)響應(yīng)能力作為架構(gòu)設(shè)計的核心思想,架構(gòu)設(shè)計由低到高分為AaaS、IaaS、Paas、SaaS四層規(guī)劃未來信息系統(tǒng)基礎(chǔ)架構(gòu),逐步實現(xiàn)資源整合、資源池化、資源按需分配的目標(biāo),我們針對鋼鐵信息化、智能化的特點,理解每個層次:
(1) AaaS感知即服務(wù)層Aware-as-a-Service
智能感知系統(tǒng)是未來南鋼智能制造的最基礎(chǔ)的工作,通過對基礎(chǔ)傳感設(shè)施的完善,收集各類生產(chǎn)、制造的過程數(shù)據(jù),為大數(shù)據(jù)分析工作提供數(shù)據(jù)支持。根據(jù)公司1+X的理念,通過構(gòu)建感知服務(wù)層,使各感知設(shè)備可以按照統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,進行數(shù)據(jù)的采集、傳輸和存儲,逐步構(gòu)建諸如二維碼管理平臺、M2M數(shù)據(jù)采集平臺、RFID數(shù)據(jù)存儲平臺、統(tǒng)一視頻監(jiān)控平臺等,為各類分析提供統(tǒng)一的業(yè)務(wù)感知數(shù)據(jù)。
(2) Iaas基礎(chǔ)設(shè)施即服務(wù)Infrastructure-as-a-Servic
基礎(chǔ)設(shè)施即服務(wù)是指把數(shù)據(jù)中心、基礎(chǔ)設(shè)施硬件資源,通過整合與優(yōu)化,結(jié)合虛擬化技術(shù),實現(xiàn)應(yīng)用和服務(wù)器的整合率普遍在10(也就是一臺服務(wù)器運行十個應(yīng)用)以上,這樣能有效降低使用成本。
(3) PaaS平臺即服務(wù)Platform-as-a-Service
平臺即服務(wù)是指將操作系統(tǒng)、應(yīng)用開發(fā)環(huán)境(數(shù)據(jù)庫、中級間)等平臺級產(chǎn)品以服務(wù)的方式提供給用戶使用,通過Pass服務(wù)方式,是軟件開發(fā)人員或信息系統(tǒng)建設(shè)用戶可不購買相應(yīng)的軟件基礎(chǔ)平臺軟件,實現(xiàn)快速開發(fā)和應(yīng)用部署的需求。
(4) SaaS軟件即服務(wù)Software-as-a-service
軟件即服務(wù)是隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和應(yīng)用軟件的成熟,逐步興起的一種完全創(chuàng)新的軟件應(yīng)用模式。它是云計算領(lǐng)域發(fā)展最成熟、應(yīng)用最廣泛的服務(wù),它通過網(wǎng)絡(luò)直接為用戶提供軟件應(yīng)用程序的服務(wù)方式,這種服務(wù)模式大大降低了軟件的使用成本,并且由于軟件是托管在服務(wù)提供商服務(wù)器上,減少了客戶的管理維護成本,可靠性也更高。
以上四層服務(wù)資源,通過統(tǒng)一的資源管理平臺,實現(xiàn)對各類資源的用戶管理、安全管理、設(shè)備生命周期等資源的管理,實現(xiàn)需求按需申請,按需計費,快速使用的目標(biāo)。架構(gòu)設(shè)計圖示:
PC虛擬化架構(gòu)
圖1 PC虛擬化架構(gòu)圖
隨著云計算技術(shù)的發(fā)展,虛擬化技術(shù)已成為有效解決提升服務(wù)器資源使用率、降低后期運營成本等問題的有效利器。通過虛擬化技術(shù)屏蔽了不同服務(wù)器的硬件差異,可以在一臺物理服務(wù)器上安裝多套操作系統(tǒng)及應(yīng)用服務(wù),并結(jié)合虛擬化的服務(wù)高可用技術(shù)和動態(tài)分區(qū)遷移技術(shù),還可以極大地提升系統(tǒng)的高可靠性。
通過PC虛擬化的部署,南鋼私有云具備了提供云服務(wù)之“基礎(chǔ)設(shè)施即服務(wù)”的基本要求,2014年形成的系統(tǒng)架構(gòu)可作為南鋼的x86服務(wù)器云平臺的基礎(chǔ),是南鋼“1+X”項目規(guī)劃與架構(gòu)設(shè)計理念的基礎(chǔ)。服務(wù)器虛擬化建設(shè)后,為南鋼提供平穩(wěn)高效的企業(yè)私有云服務(wù),構(gòu)建基于開源軟件TOMCAT集群,對南鋼子公司鑫武海運,三金地產(chǎn)、金貿(mào)公司提供了基礎(chǔ)設(shè)施到軟件層面的服務(wù),實現(xiàn)了以下目標(biāo):
- 實現(xiàn)服務(wù)器6:1整合,提高服務(wù)器平均使用效率,降低包括耗電量、機房、機柜、冷氣空調(diào)等各項運營成本;
- 利用虛擬化的動態(tài)遷移以及高可用技術(shù),提供系統(tǒng)運營效率,實現(xiàn)計劃性維護作業(yè)零停機;
- 利用服務(wù)器的虛擬化技術(shù)實現(xiàn)軟件應(yīng)用系統(tǒng)的投資保護,不再擔(dān)心舊系統(tǒng)的兼容性、維護和升級等一系列問題;
- 建立南鋼私有云基礎(chǔ),旨在全面實現(xiàn)對南鋼各類x86平臺的應(yīng)用系統(tǒng)提供支持和服務(wù)。
企業(yè)開源云存儲架構(gòu):
開源云存儲是實現(xiàn)云計算系統(tǒng)架構(gòu)中的一個重要組成部分。隨著信息技術(shù)的不斷發(fā)展,企業(yè)數(shù)據(jù)規(guī)模日益膨脹。由于傳統(tǒng)的SAN (Storage Arew Network) 或NAS(Network Attached Storage) 存儲技術(shù)在存儲容量和可擴展性上存在瓶頸,并且在硬件設(shè)備的部署數(shù)量上也存在一定限制,這使得企業(yè)升級系統(tǒng)的成本大大增加。開源云存儲采用可擴展的分布式文件系統(tǒng),并使用廉價的PC機來進行系統(tǒng)部署,從而使得整體存儲架構(gòu)能夠保持極低的成本。
南鋼2016年針對當(dāng)前非結(jié)構(gòu)化存儲空間需求量大,傳統(tǒng)商業(yè)存儲資金投入大,圍繞建立低成本、高性能、高擴展的存儲解決方案開展了對分布式文件系統(tǒng)的開源云存儲架構(gòu)的研究和部署工作,該架構(gòu)目前可適用非結(jié)構(gòu)化數(shù)據(jù)的存儲,如:云盤、圖片或視頻的存儲;或與SAN存儲結(jié)合,做為近線存儲或備份系統(tǒng)使用。
建立在集群上的MFS分布式文件系統(tǒng)能夠統(tǒng)一管理大量物理資源,并將這些資源虛擬化為巨大的虛擬化資源池,有效地將大規(guī)模的計算資源以可靠服務(wù)的形式提供給用戶。MFS以服務(wù)的形似提供存儲,利用資源的思想和效用計算非常相似,基于計算資源的使用量付費,資源可以被看成一種計量服務(wù),可以對外租售。MFS分布式存儲以集群為基礎(chǔ),可以提供最大限度的靈活性和可伸縮性,可以幫租用企業(yè)節(jié)約硬件購置成本,維護資源成本,節(jié)約機房用電成本。
云存儲、通訊及消息、業(yè)務(wù)運行系統(tǒng)和軟硬件基礎(chǔ)資源這四個基本要素構(gòu)成了一個面向終端用戶的操作系統(tǒng)平臺,或稱為企業(yè)云存儲,其能夠通過各種瀏覽器或手機App及PC機隨時訪問,滿足用戶在任意時刻查看信息的需求。
采用MFS(Distributed File System)分布式文件系統(tǒng)的存儲方式,實現(xiàn)數(shù)據(jù)層面的共享。包括主控服務(wù)器(同時配置備用主控服務(wù)器以便在故障時接管服務(wù)),多個數(shù)據(jù)服務(wù)器(存儲節(jié)點),前端接入終端服務(wù)消息平臺及各業(yè)務(wù)子系統(tǒng)數(shù)據(jù)庫服務(wù)器。
主控服務(wù)器Master負責(zé)維護整個文件系統(tǒng)的命名空間與路由,以提供用戶使用。該分布式系統(tǒng)架構(gòu)最大的缺點是主控服務(wù)器為單點結(jié)構(gòu),一旦出現(xiàn)故障將造成全系統(tǒng)癱瘓,故在實際應(yīng)用中采用HA等容災(zāi)備份,以便在故障時接管服務(wù)。主控服務(wù)器的命名空間結(jié)構(gòu)采用目錄樹結(jié)構(gòu),建立元數(shù)據(jù)到數(shù)據(jù)服務(wù)器的映射關(guān)系,文件之間的關(guān)系等。為了提高檢索效率,可以采取元數(shù)據(jù)內(nèi)存化管理方式。主控服務(wù)器通過心跳線方式輪詢數(shù)據(jù)服務(wù)器(DS),當(dāng)發(fā)現(xiàn)有DS宕機時,對一些副本數(shù)不足的文件(塊)執(zhí)行復(fù)制計劃,也可根據(jù)DS數(shù)量增減需要執(zhí)行副本遷移任務(wù)。
數(shù)據(jù)服務(wù)器主要解決海量數(shù)據(jù)的低成本存儲和快速檢索,提高數(shù)據(jù)存儲的安全性問題。其解決方案是將大塊數(shù)據(jù)劃分為小數(shù)據(jù)塊,然后均勻分布到多臺數(shù)據(jù)服務(wù)器上,每個數(shù)據(jù)服務(wù)器存儲的文件數(shù)量就少了,對于大文件數(shù)據(jù)的處理方法是將大文件劃分成多個相對較小的片段存儲在多個數(shù)據(jù)服務(wù)器上,把單個數(shù)據(jù)服務(wù)器上存儲的文件數(shù)降到單機能解決的規(guī)模,以此降低存儲設(shè)備成本和提高效率,并通過多副本復(fù)制來提高數(shù)據(jù)安全性。
MFS分布式開源云存儲解決了海量數(shù)據(jù)的存儲問題,它既可以提供專業(yè)的存儲解決方案,又可以獨立發(fā)布存儲服務(wù)。云存儲將存儲作為服務(wù),它將分別位于網(wǎng)絡(luò)中不同位置的大量類型各異的服務(wù)器,設(shè)備通過集群應(yīng)用、網(wǎng)格技術(shù)和分布式文件系統(tǒng)等集合起來協(xié)同工作,通過應(yīng)用軟件進行業(yè)務(wù)管理,并通過統(tǒng)一的應(yīng)用接口對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能。在使用一個獨立的存儲設(shè)備時,我們需要了解該設(shè)備的型號、接口以及該設(shè)備所使用的傳輸協(xié)議;使用開源云存儲,則不存在上述問題。對用戶來說,云存儲系統(tǒng)中的所有設(shè)備都是透明的,用戶不必關(guān)心云存儲系統(tǒng)內(nèi)部是如何實現(xiàn)的,也無需了解存儲的提供方式和底層基礎(chǔ),任何一個授權(quán)用戶都可以通過網(wǎng)絡(luò)來使用云存儲系統(tǒng)提供的數(shù)據(jù)存儲和業(yè)務(wù)訪問服務(wù)。
網(wǎng)絡(luò)虛擬化架構(gòu)
南鋼網(wǎng)絡(luò)虛擬化架構(gòu)采用的是VSS+Stack+ethChannal的模式,利用VSS集群+Stack堆疊+ethChannal聚合技術(shù)對原有網(wǎng)絡(luò)架構(gòu)進行了優(yōu)化,簡化了整體網(wǎng)絡(luò)結(jié)構(gòu),提高了網(wǎng)絡(luò)性能,降低了運維復(fù)雜度,提升了整體網(wǎng)絡(luò)的健壯度,給各類業(yè)務(wù)帶來前所未有的敏捷體驗。
在構(gòu)建網(wǎng)絡(luò)虛擬化架構(gòu)之前,原有南鋼網(wǎng)絡(luò)存在很多的問題及不足:
(1) 核心節(jié)點設(shè)備雖部署了雙機,但采用的是HSRP冗余配置,不支持虛擬化,造成:
- 數(shù)據(jù)轉(zhuǎn)發(fā)過程中只有一臺設(shè)備在工作,另外一臺設(shè)備處于備用狀態(tài)且造成核心節(jié)點之間、不同層級之間的鏈路無法聚合。
- 主備機運行模式,網(wǎng)絡(luò)中存在較多的STP應(yīng)用,計算資源和鏈路資源浪費嚴(yán)重,且發(fā)生宕機切換時會造成網(wǎng)絡(luò)丟包,實時性無法保證。
(2) 核心層網(wǎng)絡(luò)結(jié)構(gòu)為風(fēng)車形,架構(gòu)冗雜,不夠簡單、清晰,造成:
- 構(gòu)架復(fù)雜,動態(tài)路由協(xié)議表項龐大,影響設(shè)備效能,且造成故障和問題定位不夠快速,運維效率低下。
- 分布層設(shè)備上聯(lián),采用三層路由接口且連接核心主備機,涉及到較多的IP子網(wǎng),全網(wǎng)路由比較多。
(3) 無專用數(shù)據(jù)中心網(wǎng)絡(luò),還是傳統(tǒng)的利用園區(qū)核心交換機提供對外服務(wù),將無法適應(yīng)新業(yè)務(wù)形態(tài)下數(shù)據(jù)中心內(nèi)部數(shù)據(jù)交換劇增的趨勢,且對外提供服務(wù)能力有限,嚴(yán)重影響新業(yè)務(wù)的快速上線。
VSS和Stack作為一種網(wǎng)絡(luò)設(shè)備虛擬化技術(shù),具有很強的橫向整合作用,即在不改變網(wǎng)絡(luò)物理拓撲連接條件下,將網(wǎng)絡(luò)同一層的多臺設(shè)備橫向整合虛擬化為一臺設(shè)備,不僅摒棄了復(fù)雜的二層雙上行鏈路加環(huán)網(wǎng)協(xié)議的組網(wǎng),提高了網(wǎng)絡(luò)故障的收斂時間,從邏輯上簡化了網(wǎng)絡(luò)架構(gòu)同時也簡化了網(wǎng)絡(luò)的管理成本。南鋼具體的應(yīng)用手段如下:
(1) 園區(qū)網(wǎng)
將每個核心節(jié)點機房部署的核心交換機雙機利用VSS虛擬成一臺邏輯設(shè)備;辦公區(qū)分布層網(wǎng)絡(luò)利用Stack整合為一個整體,同時核心層之間、分布層與核心層之間的鏈路通過ethChannal技術(shù)聚合為單條鏈路,降低設(shè)備三層互聯(lián)的IP子網(wǎng)數(shù)量和全網(wǎng)路由條目,減少三層設(shè)備動態(tài)路由協(xié)議IP路由表大小,提高三層轉(zhuǎn)發(fā)的效率。另外,對現(xiàn)有核心節(jié)點進行優(yōu)化,將公司一煉鐵核心節(jié)點機房功能下移,作為一個區(qū)域匯聚點,不再擔(dān)任核心節(jié)點角色。通過上述措施可充分簡化現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu),使雙機、多鏈路能同時工作,有效發(fā)揮設(shè)備的效能,提高數(shù)據(jù)轉(zhuǎn)發(fā)和運維效率,最終提升整個網(wǎng)絡(luò)的健壯度。
(2) 數(shù)據(jù)中心
在云計算時代下,數(shù)據(jù)中心內(nèi)部一般采用分布式架構(gòu)處理海量數(shù)據(jù)存儲、挖掘、查詢、搜索等相關(guān)業(yè)務(wù),服務(wù)器和服務(wù)器之間需要進行大量的協(xié)同工作,在數(shù)據(jù)中心內(nèi)部產(chǎn)生了大量的東西向流量,造成傳統(tǒng)數(shù)據(jù)中心南北向流量模型向云數(shù)據(jù)中心的東西向流量模型轉(zhuǎn)變,數(shù)據(jù)中心的流量模型不再是傳統(tǒng)數(shù)據(jù)中心的收斂模型。另外,數(shù)據(jù)中心普遍采用虛擬化技術(shù),虛擬化使單位計算密度極大提升,物理服務(wù)器吞吐量將比虛擬化之前成數(shù)倍提升,且為了更大幅度地增大數(shù)據(jù)中心內(nèi)業(yè)務(wù)可靠性、降低 IT成本、提高業(yè)務(wù)部署靈活性,需要虛擬機能夠在整個數(shù)據(jù)中心范圍內(nèi)進行動態(tài)遷移。
南鋼在信息公司核心節(jié)點機房和計能處核心節(jié)點機房各部署了2臺數(shù)據(jù)中心級框式核心交換機;每個機柜內(nèi)部各部署2臺數(shù)據(jù)中心級盒式接入交換機。利用VSS將2個機房共4臺核心交換機遠距離連接并虛擬成1臺邏輯設(shè)備,實現(xiàn)主數(shù)據(jù)中心和災(zāi)備數(shù)據(jù)中心核心網(wǎng)絡(luò)在控制層面的統(tǒng)一且兩地之間實現(xiàn)100Gbps級別的高速互聯(lián),保證2個數(shù)據(jù)中心之間的無縫銜接;利用Stack將每個機柜的2臺接入交換機各虛擬成1臺邏輯設(shè)備,每個邏輯接入設(shè)備通過ethchannal鏈路聚合上聯(lián)邏輯核心設(shè)備,上聯(lián)鏈路速率高達40Gbps。通過VSS+Stack+ethChannal以及高性能數(shù)據(jù)中心級交換機構(gòu)建出無間斷、無阻塞、無損的數(shù)據(jù)中心網(wǎng)絡(luò),滿足高速率、高效率數(shù)據(jù)中心內(nèi)部數(shù)據(jù)交換需求,同時數(shù)據(jù)中心網(wǎng)絡(luò)整體的架構(gòu)健壯度以及對外服務(wù)能力大幅提升。另外,利用業(yè)界最高的4:1虛擬化技術(shù)組建跨數(shù)據(jù)中心無阻塞的大二層網(wǎng)絡(luò),支持10GE/100GE服務(wù)器的混合接入組網(wǎng),保證虛擬機的大范圍遷移以及用戶業(yè)務(wù)的靈活部署和不間斷。
4. 南鋼企業(yè)云未來的規(guī)劃
隨著云計算業(yè)務(wù)的迅猛發(fā)展,企業(yè)級云服務(wù)業(yè)務(wù)衍生出兩種模式,即“收入導(dǎo)向型”與“流量導(dǎo)向型”,與之對應(yīng)的分別為“傳統(tǒng)政企托管服務(wù)”和“互聯(lián)網(wǎng)內(nèi)容引入”。傳統(tǒng)的政企托管服務(wù)通常是托管企業(yè)IT數(shù)據(jù)中心,包括各種類型的IT設(shè)備,小型機、機架/刀片服務(wù)器、PC服務(wù)器、存儲盤陣等,該數(shù)據(jù)中心面向企業(yè)內(nèi)部員工或企業(yè)產(chǎn)品的客戶,訪問量較小;此類型服務(wù)主要注重企業(yè)云服務(wù)的服務(wù)的質(zhì)量,以及系統(tǒng)和數(shù)據(jù)安全性,通常對價格不是很敏感。并且該類服務(wù)屬地化要求極強,一般要求托管IT系統(tǒng)與企業(yè)在同一地市,除異地災(zāi)備外基本不可能跨省提供服務(wù)。而“互聯(lián)網(wǎng)內(nèi)容引入”模式主要托管互聯(lián)網(wǎng)應(yīng)用系統(tǒng)、面向公眾互聯(lián)網(wǎng)用戶,訪問量和流量均很大。有規(guī)模大、訪問用戶多、注重網(wǎng)絡(luò)帶寬及網(wǎng)絡(luò)連接的穩(wěn)定性、非常注重單價格和成本等特點。
通過對比可以看出,“政企托管服務(wù)”與“互聯(lián)網(wǎng)內(nèi)容引入”在表現(xiàn)形式、服務(wù)特點、屬地化要求等方面均有不同之處:
- “政企托管服務(wù)”模式,客戶更注重服務(wù)質(zhì)量,屬地性強,因此可依托各地市機房,提供滿足政企和傳統(tǒng)行業(yè)客戶需求的高質(zhì)量IDC服務(wù)。(互聯(lián)網(wǎng)數(shù)據(jù)中心服務(wù))
- 互聯(lián)網(wǎng)內(nèi)容引入模式應(yīng)以流量為導(dǎo)向,注重低成本,并以適合以大規(guī)模、集中化的方式提供服務(wù) 。
- 通過分析可以看出企業(yè)對云計算技術(shù)的要求從單純的降低成本變得更加以客戶為導(dǎo)向。
在信息化飛速發(fā)展的大背景下,公司非常重視信息化的發(fā)展。在 “一體三元五驅(qū)動”發(fā)展戰(zhàn)略的指引下,信息技術(shù)產(chǎn)業(yè)不斷壯大,公司以市場需求為導(dǎo)向,以自主研發(fā)為基礎(chǔ),以科學(xué)管理為手段,努力發(fā)揮公司兩化融合優(yōu)勢、并持續(xù)引進新技術(shù),學(xué)習(xí)、掌握并消化,形成自己的企業(yè)云體系。在未來的3~5年,計劃完成3S服務(wù)打造:即制造應(yīng)用服務(wù)、移動應(yīng)用服務(wù)和數(shù)據(jù)分析服務(wù),為用戶提供卓越體驗、優(yōu)質(zhì)服務(wù)。使公司成為云服務(wù)領(lǐng)域的一流企業(yè)。
經(jīng)過十多年的實踐積累,公司形成了存儲虛擬化+計算虛擬化+安全防護三位一體的企業(yè)私有云體系,通過存儲虛擬化將存儲池化。
公有云方面,近期目標(biāo):提升云主機的服務(wù)能力,完成基礎(chǔ)準(zhǔn)備工作,完善技術(shù)保障建設(shè)。通過與公有云廠商合作,以輕資產(chǎn)模式構(gòu)建完整的云上數(shù)據(jù)中心,提供快速交付的、可計量的彈性資源;隨后,基于構(gòu)建的公有云平臺,建立共享區(qū)、災(zāi)備區(qū)、測試區(qū)。結(jié)合實際場景按需非配,構(gòu)建南鋼特有的公有云+私有云+共享云+災(zāi)備云+測試云的混合云架構(gòu)。
中期目標(biāo):具備中小型制造型企業(yè)的SaaS服務(wù)能力。云時代的到來,一切的基礎(chǔ)設(shè)備、IT架構(gòu)、運維管理、解決方案都將以服務(wù)的形式交付。中期目標(biāo)是打造SaaS服務(wù)能力,讓公司業(yè)務(wù)部門只需要專注于業(yè)務(wù)創(chuàng)新需求,不需擔(dān)心架構(gòu)的影響。
遠期目標(biāo):3~5年完成3S服務(wù)打造:即制造應(yīng)用服務(wù)、移動應(yīng)用服務(wù)和數(shù)據(jù)分析服務(wù),為用戶提供卓越體驗、優(yōu)質(zhì)服務(wù)。
具體措施
(1) 概述:
數(shù)據(jù)中心(Data Center DC) 是數(shù)據(jù)大集中而形成的集成ICT應(yīng)用環(huán)境,是數(shù)據(jù)計算、網(wǎng)絡(luò)傳輸、 存儲的中心,已成為支撐企業(yè)業(yè)務(wù)運營的最關(guān)鍵基礎(chǔ)設(shè)施。在云計算時代,如何構(gòu)建支撐云業(yè)務(wù)長期發(fā)展的數(shù)據(jù)中心基礎(chǔ)架構(gòu),是各大企業(yè)和運營商的核心關(guān)注點。
在本次數(shù)據(jù)中心架構(gòu)規(guī)劃中,將敏捷做為本次規(guī)劃的核心目標(biāo)。如何實現(xiàn)數(shù)據(jù)中心對應(yīng)用需求的快速響應(yīng),如何保障數(shù)據(jù)中心的數(shù)據(jù)安全和如何提升數(shù)據(jù)中心的故障恢復(fù)能力,都是規(guī)劃需要考慮的問題。結(jié)合以上目標(biāo),在敏捷數(shù)據(jù)中心的規(guī)劃中,采用面向云計算的設(shè)計思想,使用“池”的概念設(shè)計整個數(shù)據(jù)中心系統(tǒng),將云數(shù)據(jù)中心分為三個資源池:網(wǎng)絡(luò)池、存儲池和計算池,每個池均可實現(xiàn)動態(tài)的資源調(diào)整,按需供給和分配資源。
a. 網(wǎng)絡(luò)池(已建立)
網(wǎng)絡(luò)池是指數(shù)據(jù)中心的各種網(wǎng)絡(luò)通信設(shè)施,基于統(tǒng)一的高線速、低延時、無丟包的萬兆網(wǎng)絡(luò)交換架構(gòu)設(shè)計,并針對虛擬化的網(wǎng)絡(luò)安全進行統(tǒng)一管理,使網(wǎng)絡(luò)系統(tǒng)得到更好的優(yōu)化和加固。
b. 存儲池(本年度建立)
存儲池是指將數(shù)據(jù)中心的各類存儲資源,利用相關(guān)技術(shù),實現(xiàn)所有的存儲資源對外模擬為一個大的完整的存儲池資源,按照用戶存儲需求,在存儲池中進行資源分配,從而提高存儲資源的使用率,提高數(shù)據(jù)存儲的安全性。
c. 計算池(計劃建立)
計算池是指在數(shù)據(jù)中心承擔(dān)數(shù)據(jù)運算和用戶響應(yīng)的計算型資源,主要包括內(nèi)存、CPU等硬件資源,一般采用服務(wù)器虛擬化的形式,構(gòu)建基于統(tǒng)一計算架構(gòu)的虛擬化計算平臺。
采用具有動態(tài)架構(gòu)的云計算操作系統(tǒng),保證數(shù)據(jù)中心的先進性、安全性、開放性、兼容性、共享性、可升級及擴充性,規(guī)劃敏捷數(shù)據(jù)中心架構(gòu)如下:
d. 存儲池設(shè)計與規(guī)劃
在存儲池設(shè)計與規(guī)劃中,將引入存儲虛擬化和hdfs分布式存儲技術(shù)。
- 存儲虛擬化技術(shù):能夠?qū)Ξ悩?gòu)存儲資源進行池化和整合,使系統(tǒng)具備數(shù)據(jù)安全的、平滑的跨存儲陣列的數(shù)據(jù)遷移能力,提高使用和管理效率,合理降低TCO;
- 分布式存儲技術(shù):引入是為了滿足大量的非結(jié)構(gòu)化數(shù)據(jù)(如:視頻、照片、文檔)存儲,構(gòu)建低成本存儲的最佳解決方案。
e. 計算池設(shè)計與規(guī)劃
計算池設(shè)計與規(guī)劃中,除繼續(xù)擴展現(xiàn)有已實施的x86服務(wù)器虛擬化和power小型機服務(wù)器虛擬化技術(shù),達到提高計算資源的使用率,減少在線維護的停機時間目的外,還將引入應(yīng)用緩存技術(shù)和hadoop大數(shù)據(jù)分析平臺。
- 應(yīng)用緩存技術(shù):使用緩存主要源于熱點數(shù)據(jù)的存在,大部分網(wǎng)站訪問都遵循28原則(即80%的訪問請求,最終落在20%的數(shù)據(jù)上),所以我們可以對熱點數(shù)據(jù)進行緩存,減少這些數(shù)據(jù)的訪問路徑,提高用戶體驗。
- Hadoop大數(shù)據(jù)分析平臺:hadoop系統(tǒng)是一個開源的大數(shù)據(jù)生態(tài)圈,包括除hadoop系統(tǒng),還包括Hive、HBase、Storm等眾多NoSQL組件,是傳統(tǒng)的關(guān)系型SQL數(shù)據(jù)庫的補充,適合于非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)分析和業(yè)務(wù)處理。
(2) 數(shù)據(jù)存儲平臺建設(shè)
1)存儲虛擬化建設(shè)
隨著數(shù)據(jù)中心在企業(yè)發(fā)展中扮演的角色越來越重要,數(shù)據(jù)中心的整合趨勢也是勢在必行,而虛擬化技術(shù)使得其在數(shù)據(jù)中心整合進程中大放異彩。隨著用戶數(shù)據(jù)中心整合需求的日趨強烈,存儲虛擬化技術(shù)在各供應(yīng)商之間的“壁壘”開始被打破,前端計算資源已可以分配到不同的物理服務(wù)器上,進行負載均衡和安全隔離,但數(shù)據(jù)存儲成為了關(guān)鍵單獨故障瓶頸,存在重大安全隱患。存儲虛擬化技術(shù)有效的解決了此問題,此外存儲虛擬化技術(shù)還對異構(gòu)存儲資源進行池化和整合,提高存儲資源的使用效率和存儲運維工作的管理效率,合理降低TCO。
此外,存儲虛擬化技術(shù)越來越多的被應(yīng)用于有效提升核心生產(chǎn)系統(tǒng)的業(yè)務(wù)連續(xù)性,數(shù)據(jù)安全性以及平滑的跨存儲陣列的數(shù)據(jù)遷移中。
存儲虛擬化技術(shù)將整個SAN中的各種存儲設(shè)備整合成一個巨大的“存儲池”,使得用戶充分利用存儲資源并可按需分配存儲空間、性能和功能,其主要功能如下:
- 幫助企業(yè)用戶構(gòu)建統(tǒng)一、合理的、高可擴展的存儲架構(gòu),解決傳統(tǒng)存儲架構(gòu)的單存儲故障;
- 統(tǒng)一管理存儲系統(tǒng),把多個存儲系統(tǒng)整合成單一的存儲池,其兼容市面上常見主機系統(tǒng)和存儲產(chǎn)品;
- 遷移過程無需停機,支持7X24小時業(yè)務(wù)不間斷運行,遷移過程主機系統(tǒng)和應(yīng)用不受影響;
- 提供快照、數(shù)據(jù)復(fù)制等功能,做到跨存儲及跨地域的數(shù)據(jù)保護;
- 采用存儲虛擬化技術(shù)可方便的幫助用戶實施分級存儲。
在存儲池構(gòu)建時,需要引入諸如:IBM SVC或EMC Vplex等存儲虛擬化設(shè)備,對南鋼現(xiàn)有的存儲進行整合,并適當(dāng)新增少量存儲,使存儲資源能夠達到解決存儲層單點故障的問題。
2)分布式存儲建設(shè)
分布式存儲技術(shù)利用高吞吐率網(wǎng)絡(luò)技術(shù)為依托,一方面高效地整合管理網(wǎng)絡(luò)存儲資源,另一方面對外提供友好的接口,發(fā)布便捷的網(wǎng)絡(luò)數(shù)據(jù)存儲服務(wù)。
分布式存儲綜合使用了虛擬化、分布式技術(shù)、集群應(yīng)用、網(wǎng)格技術(shù)、負載均衡等技術(shù),將網(wǎng)絡(luò)中大量的存儲設(shè)備通過軟件集合起來高效協(xié)同工作,共同對外提供低成本、高擴展性的數(shù)據(jù)存儲服務(wù)。
分布式文件系統(tǒng)具有價值主要包括:
- 高可擴展性:云存儲系統(tǒng)可支持海量數(shù)據(jù)處理,資源可以實現(xiàn)按需擴展;
- 低成本:云存儲系統(tǒng)應(yīng)具備高性價比的特點,低成本體現(xiàn)在兩方面, 更低的建設(shè)成本和更低的運維成本。硬件投入成本約為同類商用產(chǎn)品價格的1/3。
- 無接入限制:相比傳統(tǒng)存儲,云存儲強調(diào)對用戶存儲的靈活支持, 服務(wù)域內(nèi)存儲資源可以隨處接入,隨時訪問;
- 易管理:少量管理員可以處理上千節(jié)點和PB級存儲,更高效的支 撐大量上層應(yīng)用對存儲資源的快速部署需求。
主要應(yīng)用場景包括:非結(jié)構(gòu)化數(shù)據(jù)的存儲,如:云盤、圖片或視頻的存儲;與SAN存儲結(jié)合,做為近線存儲或備份系統(tǒng)使用。
分布式文件系統(tǒng)的使用,會極大的提高存儲系統(tǒng)的存儲成本和使用安全性。對于南鋼未來大量數(shù)據(jù)的收集和保存需求,具有非常大的使用價值。
3)建立統(tǒng)一數(shù)據(jù)備份平臺
現(xiàn)有帶庫備份管理系統(tǒng)一套,采用IBM TSM 5.3,與南鋼ERP系統(tǒng)同步建設(shè),在2007年底運行。主要對ERP系統(tǒng)數(shù)據(jù)進行備份。但隨著虛擬化技術(shù)的使用,現(xiàn)有備份軟件無法對虛擬機備份。此外,配套的硬件設(shè)備是IBM TS3310磁帶庫,配備了30個磁帶槽位用于數(shù)據(jù)備份,預(yù)計可備份數(shù)據(jù)90TB。由于數(shù)據(jù)備份要保留多版本,且對保留時間有一定要求,因此可用備份磁帶空間不足,目前ERP系統(tǒng)數(shù)據(jù)僅保留最近20天的備份數(shù)據(jù)。
(3) 應(yīng)用t系統(tǒng)優(yōu)化與完善
1)分布式應(yīng)用集群環(huán)境建設(shè)
應(yīng)用服務(wù)運行環(huán)境的快速移植、部署和高可用性,一直是IT架構(gòu)追求的技術(shù)方向,應(yīng)用運行環(huán)境從單機到雙機環(huán)境,進而演進到集群環(huán)境,如今再次邁進分布式集群環(huán)境的高度。分布式應(yīng)用集群環(huán)境,可以充分發(fā)揮應(yīng)用系統(tǒng)的快速部署及結(jié)構(gòu)差異化的特性,實現(xiàn)整體基礎(chǔ)架構(gòu)資源的模塊化管理及有效利用率大幅提升。
公司主要有JAVA和.NET語言開發(fā)平臺,產(chǎn)品體系中包含C/S模式基于JAVA語言的移動應(yīng)用平臺,基于B/S模式的普通JAVA應(yīng)用平臺,.NET應(yīng)用平臺。移動應(yīng)用中船板定制、移動CRM、移動南鋼等系統(tǒng)應(yīng)時而出,成果顯著。
公司當(dāng)前的兩大語言產(chǎn)品中,多采用單節(jié)點應(yīng)用+數(shù)據(jù)庫的傳統(tǒng)網(wǎng)站架構(gòu)方式,有單點故障的風(fēng)險。隨著信息系統(tǒng)的大力建設(shè),用戶數(shù)量不斷增加,訪問量持續(xù)增大,對現(xiàn)有應(yīng)用架構(gòu)的高可用、高性能、可擴展性提出了潛在的要求。因此,探索分析大型應(yīng)用架構(gòu)的特征,實現(xiàn)公司相關(guān)信息系統(tǒng)平臺,向高可用、高性能、易伸縮、可擴展、安全的大型架構(gòu)漸進持續(xù)發(fā)展。
a. JAVA應(yīng)用平臺
公司當(dāng)前java平臺以小型應(yīng)用為主,采用單機應(yīng)用服務(wù),單數(shù)據(jù)庫實例的發(fā)布方式。隨著平臺功能的不斷完善,逐步構(gòu)建一個高性能、高可用、伸縮性、可擴展、安全的架構(gòu),實現(xiàn)符合企業(yè)信息化戰(zhàn)略發(fā)展的系統(tǒng)架構(gòu)支撐。主要內(nèi)容包含:
- 負載均衡——負載均衡技術(shù)為一個應(yīng)用構(gòu)建一個有多臺服務(wù)器組成的服務(wù)器集群,將并發(fā)訪問請求分發(fā)到多臺服務(wù)器上處理,避免單一服務(wù)器因負載壓力過大而響應(yīng)緩慢,使用戶請求具有更好的響應(yīng)延遲特性。負載均衡有硬件和軟件形式。硬件負載均衡設(shè)備有F5,軟件負載均衡如LVS、Haproxy、Nginx等。
- 構(gòu)建集群——集群技術(shù)是一組相互獨立的、通過高速網(wǎng)絡(luò)互聯(lián)的一組計算機,并以單一系統(tǒng)的模式加以管理,通過集群技術(shù),可以在付出較低成本的情況下獲得在性能、可靠性、靈活性方面的相對較高的收益。集群有2個以上的服務(wù)器提供相同服務(wù),因此可以提供更好的并發(fā)特性,當(dāng)有更多用戶訪問的時候,只需要相機群中加入新的機器即可,同時因為一個應(yīng)用有多臺服務(wù)器提供,當(dāng)某臺服務(wù)器發(fā)生故障時,請求會轉(zhuǎn)發(fā)至集群中其他正常的服務(wù)器上,使服務(wù)器故障不會影響用戶使用。
- 動靜內(nèi)容分離——動靜分離是讓動態(tài)網(wǎng)站里的網(wǎng)頁根據(jù)一定規(guī)則把不變的資源和經(jīng)常變的資源區(qū)分開來,動靜資源做好了拆分以后,我們就可以根據(jù)靜態(tài)資源的特點將其做緩存操作,實現(xiàn)訪問加速。
- 緩存技術(shù)——緩存是將數(shù)據(jù)存放在距離計算機最近的位置以加快處理速度。緩存是改善軟件性能的重要手段,緩存除了可以加快數(shù)據(jù)訪問速度,還可以減輕后端應(yīng)用、數(shù)據(jù)庫的負載壓力。因此,可以根據(jù)我們各平臺的特點,合理引用緩存技術(shù),改善系統(tǒng)性能。
- 高可用數(shù)據(jù)——創(chuàng)建數(shù)據(jù)庫集群,避免單點故障的同時提高數(shù)據(jù)庫性能。
總體部署圖
b. 移動應(yīng)用平臺
針對公司的移動應(yīng)用平臺,應(yīng)用服務(wù)為單點故障源。隨著移動應(yīng)用的大力建設(shè),用戶數(shù)量不斷增加,訪問量持續(xù)增大,對現(xiàn)有移動應(yīng)用架構(gòu)的高性能,可擴展性提出了潛在的要求。因此,在未來有需求的項目中引入緩存層,包括數(shù)據(jù)庫緩存、文件緩存等技術(shù)。進一步提升移動應(yīng)用的可靠性、可用性。并以數(shù)據(jù)云平臺為基礎(chǔ)支持,通過負載均衡云計算的技術(shù),實現(xiàn)系統(tǒng)性能、資源的最優(yōu)化調(diào)度,為用戶提供7*24小時不間斷的高效優(yōu)質(zhì)服務(wù)。
利用緩存系統(tǒng)改善網(wǎng)站性能:
使用緩存主要源于熱點數(shù)據(jù)的存在,大部分網(wǎng)站訪問都遵循28原則(即80%的訪問請求,最終落在20%的數(shù)據(jù)上),所以我們可以對熱點數(shù)據(jù)進行緩存,減少這些數(shù)據(jù)的訪問路徑,提高用戶體驗。Memcached 是一個高性能的分布式內(nèi)存對象緩存系統(tǒng),用于動態(tài)Web應(yīng)用以減輕數(shù)據(jù)庫負載。它通過在內(nèi)存中緩存數(shù)據(jù)和對象來減少讀取數(shù)據(jù)庫的次數(shù),從而提高動態(tài)、數(shù)據(jù)庫驅(qū)動網(wǎng)站的速度。Redis 是一個高性能的key-value數(shù)據(jù)庫。和Memcached類似,它支持存儲的value類型相對更多,與memcached一樣,為了保證效率,數(shù)據(jù)都是緩存在內(nèi)存中。Redis的出現(xiàn),很大程度補償了memcached這類key/value存儲的不足,在部分場合可以對關(guān)系數(shù)據(jù)庫起到很好的補充作用。
c. NET應(yīng)用平臺
借力公司對外轉(zhuǎn)型發(fā)展的契機,.NET平臺的架構(gòu)需求日益增長,實現(xiàn)架構(gòu)平臺的高效、穩(wěn)定、可靠,方能為公司的發(fā)展提供強有力的技術(shù)支撐。
當(dāng)前.NET平臺應(yīng)用多采用基于單機的服務(wù)器管理模式,經(jīng)歷多年的項目建設(shè),單臺應(yīng)用服務(wù)器上發(fā)布了多個關(guān)鍵應(yīng)用。單臺服務(wù)器都可以對多個應(yīng)用提供服務(wù),能夠滿足我們的內(nèi)部需求。單機應(yīng)用毫無疑問有單點故障的風(fēng)險,所建立的災(zāi)備系統(tǒng)無法實時在線備援,依舊需要人為干預(yù)。根據(jù)公司.NET平臺的特點,適宜采用反向代理創(chuàng)建集群的架構(gòu)。
利用反向代理增強系統(tǒng)性能:
反向代理是處在web前端的服務(wù),可以實現(xiàn)負載均衡的功能,通過負載均衡構(gòu)建的應(yīng)用集群可以提高系統(tǒng)總體處理能力和伸縮能力。此外當(dāng)用戶請求達到時首先訪問反向代理服務(wù)器,反向代理服務(wù)器將緩存的數(shù)據(jù)返回給用戶,如果沒有緩存數(shù)據(jù)則會繼續(xù)走應(yīng)用服務(wù)器獲取,減少了獲取數(shù)據(jù)的成本。進而改善網(wǎng)站高并發(fā)情況下的性能。
創(chuàng)建集群提高應(yīng)用服務(wù)可用性:
在前端引入反向代理系統(tǒng),將冷備系統(tǒng)激活起來,事實上形成水平上的擴展,以負載均衡集群的方式對外提供服務(wù)。形成一個可靠、安全、可伸縮、易維護的應(yīng)用平臺。同時在未來當(dāng)某些應(yīng)用訪問量升高時,通過增加服務(wù)器節(jié)點達到整個服務(wù)器集群的性能提高,使其他應(yīng)用也會受益。
2)綜合數(shù)據(jù)服務(wù)平臺建設(shè)
傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)是關(guān)系型數(shù)據(jù)庫,這些數(shù)據(jù)庫已經(jīng)在我公司的MES系統(tǒng)、ERP系統(tǒng)中得到了廣泛應(yīng)用。開發(fā)這種數(shù)據(jù)庫的目的是處理永久、穩(wěn)定的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫強調(diào)維護數(shù)據(jù)的完整性、一致性。傳統(tǒng)關(guān)系數(shù)據(jù)庫為了保證“通用性”的設(shè)計而帶來了功能復(fù)雜,性能開銷大,價格昂貴
當(dāng)今的數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
a. OLTP數(shù)據(jù)庫
也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內(nèi)給出處理結(jié)果。
這樣做的最大優(yōu)點是可以即時地處理輸入的數(shù)據(jù),及時地回答。也稱為實時系統(tǒng)(Real time System)。衡量聯(lián)機事務(wù)處理系統(tǒng)的一個重要性能指標(biāo)是系統(tǒng)性能,具體體現(xiàn)為實時響應(yīng)時間(Response Time),即用戶在終端上送入數(shù)據(jù)之后,到計算機對這個請求給出答復(fù)所需要的時間。典型性數(shù)據(jù)庫代表為:ORACLE、DB2、SQLServer、MYSQL等常用關(guān)系型數(shù)據(jù)庫。
b. OLAP數(shù)據(jù)庫
隨著數(shù)據(jù)的積累,用戶的查詢需求也越來越復(fù)雜,涉及的已不僅是查詢或操縱一張關(guān)系表中的一條或幾條記錄,而且要對多張表中千萬條記錄的數(shù)據(jù)進行數(shù)據(jù)分析和信息綜合,傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)已不能全部短時間內(nèi)響應(yīng)數(shù)據(jù)處理的復(fù)雜查詢要求。因此數(shù)據(jù)倉庫的出現(xiàn),專門設(shè)計用于支持復(fù)雜的分析操作,側(cè)重對決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進行大數(shù)據(jù)量的復(fù)雜查詢處理。在數(shù)據(jù)倉庫的設(shè)計中使用到了諸多提高數(shù)據(jù)查詢性能的特性,諸如:列式存儲、數(shù)據(jù)壓縮、數(shù)據(jù)分區(qū)等技術(shù),這些技術(shù)的使用都有利于提高數(shù)據(jù)的處理分析速度。典型性數(shù)據(jù)倉庫產(chǎn)品有SAP HANA、HP Vertical、IBM Netezza等。
傳統(tǒng)關(guān)系數(shù)據(jù)庫已可解決傳統(tǒng)的數(shù)據(jù)分析與數(shù)據(jù)挖掘工作。但隨著傳感器的廣泛使用,數(shù)據(jù)采集更加方便,這些傳感器會連續(xù)地產(chǎn)生數(shù)據(jù),如實時監(jiān)控系統(tǒng)、數(shù)據(jù)采集、圖像標(biāo)識等。這些數(shù)據(jù)最大的特點就是海量,因為它們每時每刻連續(xù)不斷地產(chǎn)生,但與其他的海量數(shù)據(jù)不同,流數(shù)據(jù)連續(xù)有序、變化迅速,而且對處理分析的響應(yīng)度要求較高,因此對于流數(shù)據(jù)的處理和挖掘往往采用不同的方法。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫并不能夠很好地解決海量數(shù)據(jù)帶來的問題,單機的統(tǒng)計和可視化工具也變得力不從心。一些新的數(shù)據(jù)管理系統(tǒng)如并行數(shù)據(jù)庫、網(wǎng)格數(shù)據(jù)庫、分布式數(shù)據(jù)庫、云平臺、可擴展數(shù)據(jù)庫等孕育而生,它們?yōu)榻鉀Q海量數(shù)據(jù)提供了多種選擇。
c. NoSQL數(shù)據(jù)庫:
NoSQL(NoSQL = Not Only SQL),指的是非關(guān)系型的數(shù)據(jù)庫。非關(guān)系型數(shù)據(jù)庫以鍵值對存儲,它的結(jié)構(gòu)不固定,每一個元組可以有不一樣的字段,每個元組可以根據(jù)需要增加一些自己的鍵值對,這樣就不會局限于固定的結(jié)構(gòu),可以減少一些時間和空間的開銷。它們可以處理超大量的數(shù)據(jù)。它們運行在便宜的PC服務(wù)器集群上。PC集群擴充起來非常方便并且成本很低,避免了“sharding”操作的復(fù)雜性和成本。它們擊碎了性能瓶頸。通過NoSQL架構(gòu)可以省去將Web或Java應(yīng)用和數(shù)據(jù)轉(zhuǎn)換成SQL格式的時間,執(zhí)行速度變得更快。典型性數(shù)據(jù)庫代表為HBASE、HIVE等。
3)大數(shù)據(jù)分析平臺建設(shè)
當(dāng)前基于公司成熟的業(yè)務(wù)信息系統(tǒng)(ERP、MES、EMS等),利用SAP及HANA數(shù)據(jù)庫軟件建立數(shù)據(jù)中心和數(shù)據(jù)倉庫,自動提取各類異構(gòu)數(shù)據(jù)并進行集中展示。隨著公司信息系統(tǒng)的大量應(yīng)用,系統(tǒng)中存儲了大量的圖片,文檔,音頻等非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)的存儲和查詢對傳統(tǒng)計算機系統(tǒng)來說是個巨大的挑戰(zhàn),普遍存在查詢慢,管理手段復(fù)雜的問題,集中存儲、集中計算無法處理巨大的數(shù)據(jù)量,無法實現(xiàn)高并發(fā),實時獲取和更新數(shù)據(jù)。此外現(xiàn)有架構(gòu)也無法實現(xiàn)快速的橫向擴展能力。通過采用Hadoop架構(gòu),為公司大數(shù)據(jù)的有效應(yīng)用,為云計算的落地提供支撐。去年實現(xiàn)了大數(shù)據(jù)分析的架構(gòu)搭建,利用3臺PC服務(wù)器進行Hadoop環(huán)境的部署和實施,部署簡單易于操作,恢復(fù)實施都很快?,F(xiàn)階段將ERP系統(tǒng)每日產(chǎn)生的GB級 access.log 文件數(shù)據(jù)上傳至HDFS,提取并抽入到Hbase,利用Hive對作業(yè)訪問從高到底進行統(tǒng)計,歸納出系統(tǒng)中使用度最重Top50,以及使用度最輕的作業(yè)Top50,為后續(xù)公司的信息化再提升,提供依據(jù)。
眾所周知Hadoop的兩大核心是分布式文件系統(tǒng)HDFS和分步計算MapReduce, MapReduce 包括Map過程實現(xiàn)任務(wù)的分解,Reduce實現(xiàn)計算結(jié)果的匯總。HDFS通過Namenode實現(xiàn)文件的管理,通過DataNode實現(xiàn)文件的存儲。HDFS 是一個高度容錯性的分布式文件系統(tǒng),它能夠提供高吞吐量的數(shù)據(jù)訪問,通過NameNode來管理存儲文件系統(tǒng)的Meta-Data,負責(zé)管理文件系統(tǒng)的命名空間,集群的配置信息,通過把文件分塊存儲在不同的DataNode中,來實現(xiàn)數(shù)據(jù)的分布存儲。通過MapReduce,先把任務(wù)分割分布到集群的多個節(jié)點上,并行計算,然后再把計算結(jié)果合并,得到最終的計算結(jié)果。多節(jié)點計算所用到的任務(wù)調(diào)度,負載均衡,容錯等都由MapReduce自動完成。在十三五期間,我們豐富數(shù)據(jù)服務(wù)平臺內(nèi)容,為全面數(shù)據(jù)分析,智能制造的敏捷響應(yīng)系統(tǒng)提供數(shù)據(jù)平臺支持。下圖就是數(shù)據(jù)平臺覆蓋范圍與分類設(shè)計圖