自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="pttt1"></sub>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

訓(xùn)練大模型缺少高質(zhì)量數(shù)據(jù)？我們找到了一種新的解決方案

作者：機(jī)器之心 2023-09-07 13:25:09

人工智能新聞

獲取高質(zhì)量訓(xùn)練數(shù)據(jù)的主要難點(diǎn)在于企業(yè)往往不愿意、不能或者不敢分享他們的數(shù)據(jù)。作為一種隱私計(jì)算的新范式，「可控計(jì)算」讓數(shù)據(jù)提供方能夠控制自己的數(shù)據(jù)如何被使用，保障數(shù)據(jù)提供方的權(quán)益，有望推動(dòng)大模型產(chǎn)業(yè)和更廣泛的數(shù)據(jù)要素市場(chǎng)發(fā)展。

數(shù)據(jù)，作為決定機(jī)器學(xué)習(xí)模型性能的三大要素之一，正在成為制約大模型發(fā)展的瓶頸。正所謂「Garbage in, garbage out」[1]，無(wú)論你的算法多么優(yōu)秀，你的計(jì)算資源多么強(qiáng)大，模型的質(zhì)量都直接取決于你用來(lái)訓(xùn)練模型的數(shù)據(jù)。

隨著各種開(kāi)源大模型的涌現(xiàn)，數(shù)據(jù)的重要性進(jìn)一步凸顯，尤其是高質(zhì)量的行業(yè)數(shù)據(jù)。彭博社基于開(kāi)源的 GPT-3 框架打造金融大模型 BloombergGPT，證明了基于開(kāi)源的大模型框架開(kāi)發(fā)垂直行業(yè)大模型的可行性。事實(shí)上，面向垂直行業(yè)構(gòu)建或定制閉源的輕量化大模型，也正是國(guó)內(nèi)多數(shù)大模型創(chuàng)業(yè)公司所選擇的路徑。

在這個(gè)賽道，高質(zhì)量的垂直行業(yè)數(shù)據(jù)、基于專(zhuān)業(yè)知識(shí)的微調(diào)和對(duì)齊能力至關(guān)重要——BloombergGPT 基于彭博社積累了 40 多年的金融文檔構(gòu)建，訓(xùn)練語(yǔ)料庫(kù)的 token 超過(guò) 7000 億[2]。

然而，獲取高質(zhì)量的數(shù)據(jù)并不容易。有研究指出，按照當(dāng)前大模型吞噬數(shù)據(jù)的速率，高質(zhì)量的公域語(yǔ)言數(shù)據(jù)，例如書(shū)籍、新聞報(bào)道、科學(xué)論文、維基百科等，將在 2026 年左右耗盡[3]。

公開(kāi)可用的中文高質(zhì)量數(shù)據(jù)資源原本就相對(duì)較少，而國(guó)內(nèi)的專(zhuān)業(yè)數(shù)據(jù)服務(wù)還在起步階段，進(jìn)行數(shù)據(jù)收集、清洗、標(biāo)注和驗(yàn)證需要投入大量的人力和物力。據(jù)悉，國(guó)內(nèi)某高校大模型團(tuán)隊(duì)，收集、清洗 3TB 高質(zhì)量中文數(shù)據(jù)的成本，包括下載數(shù)據(jù)帶寬、數(shù)據(jù)存儲(chǔ)資源（未清洗的原始數(shù)據(jù)約為 100TB）、清洗數(shù)據(jù)的 CPU 資源成本總計(jì)約數(shù)十萬(wàn)元。

隨著大模型發(fā)展走向深度，要訓(xùn)練出滿足產(chǎn)業(yè)需求、精度極高的垂直行業(yè)模型，一定需要更多的行業(yè)專(zhuān)業(yè)知識(shí)，甚至商業(yè)機(jī)密類(lèi)型的私域數(shù)據(jù)。但是，出于隱私保護(hù)的要求，以及確權(quán)、收益劃分存在的困難，企業(yè)往往不愿意、不能或者不敢分享他們的數(shù)據(jù)。

有沒(méi)有一種方案，既可以享受數(shù)據(jù)開(kāi)放和共享的好處，又能保護(hù)數(shù)據(jù)的安全和隱私呢？

隱私計(jì)算能否打破困境？

隱私計(jì)算（Privacy-preserving Computation）能夠在保證數(shù)據(jù)提供方不泄露原始數(shù)據(jù)的前提下，對(duì)數(shù)據(jù)進(jìn)行分析、處理和使用，被視為促進(jìn)數(shù)據(jù)要素流通和交易的關(guān)鍵技術(shù)[4]，因此，將隱私計(jì)算用于保護(hù)大模型的數(shù)據(jù)安全，似乎成了一種自然的選擇。

隱私計(jì)算不是一種技術(shù)，而是一個(gè)技術(shù)體系。根據(jù)具體的實(shí)現(xiàn)，隱私計(jì)算主要分為以多方安全計(jì)算為代表的密碼學(xué)路徑、以可信執(zhí)行環(huán)境為代表的機(jī)密計(jì)算路徑，以及以聯(lián)邦學(xué)習(xí)為代表的人工智能路徑[5]。

不過(guò)，在實(shí)際應(yīng)用中，隱私計(jì)算存在一些局限。例如，引入隱私計(jì)算 SDK 通常會(huì)對(duì)原有業(yè)務(wù)系統(tǒng)進(jìn)行代碼層面的修改[6]。如果是基于密碼學(xué)的實(shí)現(xiàn)，加解密操作會(huì)讓計(jì)算量呈幾何級(jí)增長(zhǎng)，同時(shí)密文計(jì)算需要更大的計(jì)算和存儲(chǔ)資源以及通信負(fù)載[7]。

此外，涉及超大規(guī)模數(shù)據(jù)量的大模型訓(xùn)練場(chǎng)景，現(xiàn)有的隱私計(jì)算方案還會(huì)遭遇一些新的問(wèn)題。

基于聯(lián)邦學(xué)習(xí)的方案

讓我們首先看看聯(lián)邦學(xué)習(xí)的困難。聯(lián)邦學(xué)習(xí)的核心思想是「數(shù)據(jù)不動(dòng)模型動(dòng)」，這種去中心化的方式保證了敏感數(shù)據(jù)待在本地，無(wú)需暴露或傳輸。每個(gè)設(shè)備或服務(wù)器通過(guò)向中心服務(wù)器發(fā)送模型的更新，參與到訓(xùn)練過(guò)程中，而中心服務(wù)器則聚合并融合這些更新，從而改進(jìn)全局模型[8]。

然而，集中訓(xùn)練大模型已經(jīng)是一件非常困難的事情，分布式的訓(xùn)練方法大大增加了系統(tǒng)的復(fù)雜性。我們還需要考慮模型在各個(gè)終端上訓(xùn)練時(shí)數(shù)據(jù)的異質(zhì)性，以及如何安全地聚合所有設(shè)備的學(xué)習(xí)權(quán)重——對(duì)于大模型的訓(xùn)練，模型權(quán)重本身就是一項(xiàng)重要資產(chǎn)。此外，還必須防止攻擊者從單個(gè)模型更新中推斷出私有數(shù)據(jù)，而相應(yīng)的防御措施會(huì)進(jìn)一步增加訓(xùn)練開(kāi)銷(xiāo)。

基于密碼學(xué)的方案

同態(tài)加密能夠直接對(duì)加密數(shù)據(jù)進(jìn)行計(jì)算，讓數(shù)據(jù)「可用不可見(jiàn)」[9]。在處理或分析敏感數(shù)據(jù)并保證其機(jī)密性的場(chǎng)景中，同態(tài)加密是保護(hù)隱私的強(qiáng)大工具。這種技術(shù)不僅可以應(yīng)用于大模型的訓(xùn)練，也能在保護(hù)用戶輸入（prompt）的機(jī)密性的同時(shí)進(jìn)行推理。

然而，相比于使用未加密數(shù)據(jù)進(jìn)行大模型的訓(xùn)練和推理，使用加密數(shù)據(jù)要困難得多。同時(shí)，處理加密數(shù)據(jù)需要更多的計(jì)算，會(huì)指數(shù)級(jí)地增加處理時(shí)間，并進(jìn)一步增加訓(xùn)練大模型已經(jīng)非常高的算力需求。

基于可信執(zhí)行環(huán)境的方案

再來(lái)說(shuō)說(shuō)基于可信執(zhí)行環(huán)境（TEE）的解決方案。大多 TEE 解決方案或產(chǎn)品都需要額外采購(gòu)專(zhuān)門(mén)的設(shè)備，如多方安全計(jì)算節(jié)點(diǎn)、可信執(zhí)行環(huán)境設(shè)備、密碼加速卡等，無(wú)法適配已有的計(jì)算、存儲(chǔ)資源，使得這種解決方案對(duì)許多中小企業(yè)來(lái)說(shuō)并不現(xiàn)實(shí)。此外，目前 TEE 方案主要是基于 CPU 進(jìn)行的，而大模型訓(xùn)練嚴(yán)重依靠 GPU?，F(xiàn)階段支持隱私計(jì)算的 GPU 方案還不成熟，反而造成了額外的風(fēng)險(xiǎn)[10]。

總的來(lái)說(shuō)，在多方協(xié)作計(jì)算的場(chǎng)景下，很多時(shí)候要求原始數(shù)據(jù)物理意義上的「不可見(jiàn)」并不合理。此外，由于加密過(guò)程給數(shù)據(jù)添加了噪聲，在加密數(shù)據(jù)上進(jìn)行訓(xùn)練或推理，也會(huì)造成模型性能損失和降低模型準(zhǔn)確性?，F(xiàn)有的隱私計(jì)算方案無(wú)論是性能和還是在 GPU 支持方面，都無(wú)法很好地適用于大模型訓(xùn)練場(chǎng)景，也阻礙了擁有高質(zhì)量數(shù)據(jù)資源的企業(yè)和機(jī)構(gòu)開(kāi)放和共享信息，參與到大模型產(chǎn)業(yè)中來(lái)。

可控計(jì)算，一種隱私計(jì)算的新范式

「當(dāng)我們把大模型產(chǎn)業(yè)看做從數(shù)據(jù)到應(yīng)用的一個(gè)鏈條，會(huì)發(fā)現(xiàn)這個(gè)鏈條實(shí)際上是各種數(shù)據(jù)（包括原始數(shù)據(jù)，也包括以參數(shù)形式存在于模型中的數(shù)據(jù)）在不同主體間的流通鏈，而這個(gè)產(chǎn)業(yè)的商業(yè)模式則應(yīng)該構(gòu)建于這些流通的數(shù)據(jù)（或模型）是可以被交易的資產(chǎn)基礎(chǔ)之上。」熠智科技的 CEO 湯載陽(yáng)博士表示。

「數(shù)據(jù)要素的流通涉及多個(gè)主體，而產(chǎn)業(yè)鏈的源頭一定是數(shù)據(jù)提供方。也就是說(shuō)，所有的業(yè)務(wù)其實(shí)都是由數(shù)據(jù)提供方來(lái)發(fā)起，只有數(shù)據(jù)提供方授權(quán)，交易才可能進(jìn)行，所以應(yīng)該優(yōu)先保證數(shù)據(jù)提供方的權(quán)益。」

目前市場(chǎng)上主流的隱私保護(hù)解決方案，如多方安全計(jì)算、可信執(zhí)行環(huán)境和聯(lián)邦學(xué)習(xí)，都聚焦數(shù)據(jù)使用方如何處理數(shù)據(jù)，湯載陽(yáng)認(rèn)為，我們需要從數(shù)據(jù)提供者的角度出發(fā)去看問(wèn)題。

熠智科技成立于 2019 年，定位于面向數(shù)據(jù)合作的隱私保護(hù)解決方案提供商。2021 年，公司入選了由中國(guó)信息通信研究院發(fā)起的「數(shù)據(jù)安全推進(jìn)計(jì)劃」（Data Security Initiative，DSI）首批參與單位，并被 DSI 認(rèn)證為 9 家代表性隱私計(jì)算企業(yè)廠商之一。2022 年，熠智科技正式成為國(guó)內(nèi)首個(gè)國(guó)際化自主可控隱私計(jì)算開(kāi)源社區(qū)——開(kāi)放群島（Open Islands）開(kāi)源社區(qū)成員單位，共同推動(dòng)數(shù)據(jù)要素流通關(guān)鍵基礎(chǔ)設(shè)施建設(shè)。

針對(duì)目前大模型訓(xùn)練的數(shù)據(jù)困境，以及更廣泛的數(shù)據(jù)要素流通問(wèn)題，熠智科技從實(shí)踐出發(fā)，提出了一種新的隱私計(jì)算解決方案——可控計(jì)算。

「可控計(jì)算的核心關(guān)注點(diǎn)是以保護(hù)隱私的方式來(lái)發(fā)現(xiàn)和共享信息。我們解決的問(wèn)題是在訓(xùn)練的過(guò)程中保證所用數(shù)據(jù)的安全，以及訓(xùn)練出來(lái)的模型不被惡意竊取。」湯載陽(yáng)說(shuō)。

具體說(shuō)，可控計(jì)算要求數(shù)據(jù)使用方在數(shù)據(jù)提供方定義的安全域中對(duì)數(shù)據(jù)進(jìn)行加工和處理。

安全域在數(shù)據(jù)流通場(chǎng)景中的示例

安全域是一個(gè)邏輯上的概念，指由相應(yīng)的密鑰和加密算法保護(hù)的存儲(chǔ)、計(jì)算單元。安全域由數(shù)據(jù)提供方定義和約束，但相應(yīng)的存儲(chǔ)、計(jì)算資源并不由數(shù)據(jù)提供方提供。物理上，安全域在數(shù)據(jù)使用方，但是由數(shù)據(jù)提供方所控制。除了原始數(shù)據(jù)，加工、處理后的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)也在相同的安全域中。

在安全域中，數(shù)據(jù)可以是密文（不可見(jiàn)），也可以是明文（可見(jiàn)），在明文情況下，由于數(shù)據(jù)可見(jiàn)的范圍是受控的，因此確保了數(shù)據(jù)在使用過(guò)程中的安全。

復(fù)雜的密文計(jì)算導(dǎo)致的性能下降是限制隱私計(jì)算應(yīng)用范圍的一個(gè)重要因素，通過(guò)強(qiáng)調(diào)數(shù)據(jù)的可控，而不是一味追求不可見(jiàn)，可控計(jì)算解決了傳統(tǒng)隱私計(jì)算方案對(duì)原有業(yè)務(wù)的侵入性，因此非常適合需要處理超大規(guī)模數(shù)據(jù)的大模型訓(xùn)練場(chǎng)景。

企業(yè)可以選擇將自己的數(shù)據(jù)存放在多個(gè)不同的安全域中，并給這些安全域設(shè)定不同的安全等級(jí)、使用權(quán)限或白名單。對(duì)于分布式應(yīng)用，也可以在多個(gè)計(jì)算機(jī)節(jié)點(diǎn)乃至芯片上設(shè)定安全域。

「安全域是可以串起來(lái)的，在數(shù)據(jù)流通的各個(gè)環(huán)節(jié)，數(shù)據(jù)提供方可以定義多個(gè)不同的安全域，讓自己的數(shù)據(jù)只在這些安全域之間互相流轉(zhuǎn)，最終這些串聯(lián)的安全域就構(gòu)建起了一個(gè)數(shù)據(jù)的網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)上面，數(shù)據(jù)是可控的，對(duì)數(shù)據(jù)的流轉(zhuǎn)、分析、處理等也可度量、可監(jiān)管，數(shù)據(jù)的流通也可以做相應(yīng)的變現(xiàn)?！箿d陽(yáng)解釋說(shuō)。

基于可控計(jì)算的思想，熠智科技推出了「DataVault」。

DataVault 原理：結(jié)合 Linux 度量啟動(dòng)和 Linux 全盤(pán)加密技術(shù)，實(shí)現(xiàn)數(shù)據(jù)在安全域內(nèi)的可控、防護(hù)。

DataVault 將可信平臺(tái)模塊 TPM（Trusted Platform Module，其核心是提供基于硬件的安全相關(guān)功能）做為信任根，保護(hù)了系統(tǒng)的完整性；使用 Linux 安全模塊 LSM（ Linux Security Modules，Linux 內(nèi)核中用于支持各種計(jì)算機(jī)安全模型的框架，其與任何單獨(dú)的安全實(shí)現(xiàn)無(wú)關(guān)）技術(shù)，使安全域內(nèi)的數(shù)據(jù)只在可控范圍內(nèi)使用。

在此基礎(chǔ)上，DataVault 使用 Linux 提供的全盤(pán)加密技術(shù)將數(shù)據(jù)置于安全域內(nèi)，熠智科技自研了完整的密鑰分發(fā)以及簽名授權(quán)等密碼協(xié)議，并做了大量工程上的優(yōu)化，進(jìn)一步保證了數(shù)據(jù)的可控。

DataVault 支持多種專(zhuān)用加速卡，包括不同的 CPU、GPU、FPGA 等硬件，也支持多種數(shù)據(jù)處理框架、模型訓(xùn)練框架，且二進(jìn)制兼容。

更重要的是，它有著遠(yuǎn)低于其他隱私計(jì)算解決方案的性能損失，在大部分應(yīng)用中，相比原生系統(tǒng)（即不用任何隱私計(jì)算技術(shù)），整體性能損失不超過(guò) 5%。

部署 DataVault 后，基于 LLaMA-65B 的評(píng)估（Evaluation）和提示評(píng)估（Prompt Evaluation）環(huán)節(jié)中，性能損失小于 1‰。

DataVault 保護(hù)數(shù)據(jù)流通和模型資產(chǎn)案例

現(xiàn)在，熠智科技已與國(guó)家超級(jí)計(jì)算中心達(dá)成合作，在超算平臺(tái)上部署面向 AI 應(yīng)用的隱私保護(hù)高性能計(jì)算平臺(tái)?；?DataVault，算力使用方可以在計(jì)算平臺(tái)上設(shè)定安全域，確保數(shù)據(jù)從存儲(chǔ)節(jié)點(diǎn)轉(zhuǎn)移到計(jì)算節(jié)點(diǎn)的全過(guò)程都只能在安全域之間移動(dòng)，不離開(kāi)設(shè)定的范圍。

除了確保數(shù)據(jù)在模型訓(xùn)練中的可控，基于 DataVault 解決方案，訓(xùn)練好的大模型本身作為一種數(shù)據(jù)資產(chǎn)，也可以得到保護(hù)并被安全地交易。

目前，對(duì)于那些希望在本地部署大模型的企業(yè)，例如金融、醫(yī)療等高敏感數(shù)據(jù)機(jī)構(gòu)，苦于缺少在本地運(yùn)行大模型的基礎(chǔ)設(shè)施，包括訓(xùn)練大模型的高成本高性能硬件，以及部署大模型后續(xù)的運(yùn)維經(jīng)驗(yàn)。而對(duì)于構(gòu)建行業(yè)大模型的企業(yè)，他們則擔(dān)心如果直接將模型交付給客戶，模型本身和模型參數(shù)背后積累的行業(yè)數(shù)據(jù)和專(zhuān)業(yè)知識(shí)存在被二次販賣(mài)的可能。

作為對(duì)垂直行業(yè)大模型落地的一種探索，熠智科技也正與粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院（IDEA 研究院）合作，雙方聯(lián)合打造了具有模型安全保護(hù)功能的大模型一體機(jī)。這種一體機(jī)內(nèi)置了若干垂直行業(yè)大模型，配備大模型訓(xùn)推所需的基礎(chǔ)算力資源，可以滿足客戶開(kāi)箱即用的需求，其中熠智的可控計(jì)算組件 DataVault 可以確保這些內(nèi)置模型僅在獲得授權(quán)的情況下被使用，模型以及所有中間數(shù)據(jù)無(wú)法被外部環(huán)境竊取。

作為一種新的隱私計(jì)算范式，熠智科技希望可控計(jì)算能為大模型行業(yè)和數(shù)據(jù)要素流通帶來(lái)改變。

「DataVault 只是一個(gè)輕量級(jí)的實(shí)現(xiàn)方案。隨著技術(shù)和需求的變化，我們會(huì)持續(xù)更新，在數(shù)據(jù)要素流通市場(chǎng)有更多的嘗試和貢獻(xiàn)，也歡迎更多行業(yè)伙伴加入進(jìn)來(lái)，共建可控計(jì)算社區(qū)?！箿d陽(yáng)說(shuō)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)