AI需要什么樣的IT基礎設施
多年以來,隨著AI技術的發(fā)展與變革,各個行業(yè)及IT決策者都在大力投資這一領域。AI有望改變企業(yè)內(nèi)的一切、轉變?nèi)藗兊墓ぷ鞣绞?,因此對業(yè)務及企業(yè)的宏觀/微觀層面控制體系至關重要。而隨著AI的發(fā)展演進,我們更需要關注自己的業(yè)務功能變化,將每時每刻的需求與改進融入AI解決方案。
雖然只處于試點和起步階段,AI已經(jīng)顯示出無可比擬的力量與影響力。隨著AI的后續(xù)發(fā)展,預計我們將迎來一波又一波更大、更廣泛的變革。那么,AI到底要怎樣繼續(xù)改進?
隨著人們對于AI的努力改進,全社會對計算及基礎設施資源的需求也將同步增長。當AI真正實現(xiàn)全面普及之后,我們無疑需要一個更經(jīng)濟、更高效的環(huán)境容納如此龐大的流程。每家企業(yè)都需要適應這些變化,并以充分的靈活度迎接新型基礎設施。換言之,云技術、特別是混合云解決方案,必將成為AI的實現(xiàn)基礎。混合云解決方案能夠保證將AI基礎設施需求消解為業(yè)務需求,同時從容維持并匹配技術動態(tài)。只有這樣,企業(yè)才能在持續(xù)使用、開發(fā)并實現(xiàn)AI方案的同時,不致對自身基礎設施性能造成嚴重影響。
下面,我們就聊聊在評估潛在合作伙伴、選擇最佳平臺時需要關注的幾大核心因素。
核心因素一 高算力
企業(yè)需要高性能計算資源(包括CPU與GPU)探索AI領域內(nèi)的種種可能性。目前大部分企業(yè)仍在AI實驗階段,所以傾向于建立強大的CPU環(huán)境處理基礎AI負載。但事實證明,基于CPU的現(xiàn)有計算架構并不能滿足深度學習流程的需求;可擴展神經(jīng)網(wǎng)絡算法的部署以及高性能網(wǎng)絡/存儲管理都對算力和數(shù)據(jù)處理密度提出了極高的要求。
核心因素二 存儲容量
存儲容量是一切AI基礎設施的基本要求;隨著數(shù)據(jù)量的增長,存儲系統(tǒng)也必須擁有擴展能力。因此對企業(yè)來說,最重要的就是明確AI實驗究竟需要何等規(guī)模的存儲系統(tǒng)支持。只有以強大的存儲擴展計劃與容量管理能力為依托,企業(yè)才能從容做出實時決策;也只有這樣,我們手中的AI應用才能在數(shù)據(jù)的滋養(yǎng)下愈發(fā)完善。
核心因素三 網(wǎng)絡基礎設施
無縫網(wǎng)絡是AI基礎設施中的又一重要組成部分??紤]到可擴展性的重要意義,企業(yè)必須建立起高帶寬、低延遲的網(wǎng)絡體系。深度學習算法高度依賴于通信能力,隨著AI實驗的推進與擴展,網(wǎng)絡系統(tǒng)自然要同步成長與進化。對于網(wǎng)絡這種泛用性服務,企業(yè)有必要選擇一家專業(yè)的基礎設施服務商,由他們在全球范圍內(nèi)提供服務打包與技術支持,并確保不同區(qū)域內(nèi)的堆棧始終擁有良好的分布式與一致性。
核心因素四 安全性
由于AI模型往往會接觸到大量來自醫(yī)療保健、金融等部門的敏感數(shù)據(jù),因此對個人數(shù)據(jù)的安全維護就成了一大現(xiàn)實挑戰(zhàn)。這些信息在本質上極其脆弱;一旦管理不當、特別是被不可靠來源所利用,則可能對使用AI模型的企業(yè)造成巨大危害。此外,如果向AI系統(tǒng)中添加了非必要數(shù)據(jù),則可能引發(fā)決策和推理錯誤。因此,我們需要一套更安全的AI基礎設施保障數(shù)據(jù)免受侵擾。
核心因素五 解決方案必須具有成本效益
這一切還只是AI模型的發(fā)展起點。隨著研究工作的緩慢推進,AI本身也會變得更加復雜、開發(fā)成本隨之一路飆升。各個企業(yè)必須努力找到具有成本效益的解決方案,這樣才能推動流程延續(xù)與業(yè)務增長。具體來講,企業(yè)在支撐AI探索方面勢必要不斷升級網(wǎng)絡、服務器及存儲等基礎設施,滿足AI模型的訓練與推理需求。整個過程將極其昂貴,因此必須謹慎選擇那些資源經(jīng)濟性更好的服務供應商。只有這樣,企業(yè)才能更明智地規(guī)劃、決策并投資于AI基礎設施,保證自身在被資源支出壓垮之前找到提升自身業(yè)務績效的寶貴機會。