微軟和NVIDIA合作:將云端加密擴(kuò)展到GPU上
很多組織都遷移到云端,來滿足他們?cè)诖鎯?chǔ)和人工智能解決方案方面的數(shù)據(jù)相關(guān)需求。為了確保敏感數(shù)據(jù)的隱私和安全,使用保密計(jì)算是至關(guān)重要的。這基本上是通過一整套硬件和軟件的配合實(shí)現(xiàn)控制的,管理數(shù)據(jù)如何被共享和使用,以及數(shù)據(jù)所有者如何驗(yàn)證這些過程。
英特爾和AMD的CPU已經(jīng)能夠創(chuàng)建可信的執(zhí)行環(huán)境(TEEs),在CPU層面為保密計(jì)算提供支持。TEEs確保數(shù)據(jù)在靜止?fàn)顟B(tài)、傳輸過程中,甚至在使用過程中都保持加密。它還提供遠(yuǎn)程驗(yàn)證,以驗(yàn)證硬件的配置,并只對(duì)所需的算法授予數(shù)據(jù)訪問權(quán)。微軟在Azure上的保密計(jì)算解決方案也利用同樣的原則。
然而,現(xiàn)有的解決方案與內(nèi)置在 CPU 中的 TEE 聯(lián)系在一起,所以微軟現(xiàn)在希望將這一邊界也擴(kuò)展到 GPU,確保數(shù)據(jù)可以安全地轉(zhuǎn)移到更強(qiáng)大的硬件上以滿足計(jì)算需求。當(dāng)涉及到組織的人工智能工作負(fù)載時(shí),這就更加重要了,微軟正在與英偉達(dá)在這方面進(jìn)行合作。
微軟表示想要實(shí)現(xiàn)這個(gè)目標(biāo)并不簡(jiǎn)單。因?yàn)樗枰Wo(hù) GPU 免受各種攻擊,同時(shí)確保 Azure 主機(jī)對(duì)管理活動(dòng)有足夠的控制。即使在硬件層面,該實(shí)施方案也不應(yīng)對(duì)熱能和性能產(chǎn)生負(fù)面影響,而且理想情況下,也不需要對(duì)現(xiàn)有的 GPU 微架構(gòu)進(jìn)行改變。該公司的愿景包括保密 GPU 的以下功能:
- 一種新的模式,GPU上的所有敏感狀態(tài),包括GPU內(nèi)存,都與主機(jī)隔離。
- 在GPU芯片上有一個(gè)硬件信任根,可以生成可驗(yàn)證的證明,捕獲GPU的所有安全敏感狀態(tài),包括所有固件和微代碼
- 對(duì)GPU驅(qū)動(dòng)程序進(jìn)行擴(kuò)展,以驗(yàn)證GPU的證明,建立與GPU的安全通信通道,并透明地加密CPU和GPU之間的所有通信
- 硬件支持通過NVLink透明地加密所有GPU-GPU通信
- 在客戶操作系統(tǒng)和管理程序中支持將GPU安全地連接到CPU TEE,即使CPU TEE的內(nèi)容是加密的。
微軟表示,它已經(jīng)在Azure上的NVIDIA A100 Tensor Core GPU中建立了保密計(jì)算能力。這已經(jīng)通過一個(gè)名為安培保護(hù)內(nèi)存(APM)的新功能完成。實(shí)施細(xì)節(jié)在本質(zhì)上是高度技術(shù)性的,你可以在這里查看。
這個(gè)解決方案現(xiàn)在可以通過Azure Confidential GPU VMs進(jìn)行私人預(yù)覽。目前,企業(yè)可以使用最多4個(gè)NVIDIA A100 Tensor Core GPU的虛擬機(jī)來處理他們的Azure工作負(fù)載。微軟的下一步包括確保更廣泛地采用這些做法,并與NVIDIA合作,在其Hopper架構(gòu)上進(jìn)一步加強(qiáng)現(xiàn)有的實(shí)施。