AI 應(yīng)用安全挑戰(zhàn)與測評實(shí)踐指南
作者 | 陳達(dá)
在人工智能蓬勃發(fā)展的時(shí)代,AI應(yīng)用廣泛融入人們的生活與工作,從智能客服到智能推薦系統(tǒng),從醫(yī)療影像診斷到金融風(fēng)險(xiǎn)預(yù)測,AI的身影無處不在。然而,隨著AI應(yīng)用的普及,其潛在風(fēng)險(xiǎn)也逐漸凸顯,AI風(fēng)險(xiǎn)測評成為保障應(yīng)用可信的關(guān)鍵環(huán)節(jié)。
本文將圍繞“AI風(fēng)險(xiǎn)測評助力應(yīng)用可信”這一主題,深入探討AI應(yīng)用面臨的風(fēng)險(xiǎn)、業(yè)界測評方法、實(shí)踐思路及關(guān)鍵要點(diǎn)。
一、AI應(yīng)用典型風(fēng)險(xiǎn)面面觀
AI技術(shù)棧涵蓋數(shù)據(jù)、模型和應(yīng)用三個(gè)層面,其中應(yīng)用層作為直接與用戶交互的部分,成為風(fēng)險(xiǎn)暴露的主要窗口,以下是大模型系統(tǒng)的典型風(fēng)險(xiǎn)分析。
1. 數(shù)據(jù)泄露:隱藏在暗處的威脅
數(shù)據(jù)泄露風(fēng)險(xiǎn)在AI應(yīng)用中尤為突出。以智能體應(yīng)用Writer為例,它能通過對話自動檢索信息并生成報(bào)告。但攻擊者利用其數(shù)據(jù)獲取機(jī)制,創(chuàng)建假網(wǎng)站并將白色隱藏指令混入其中。當(dāng)Writer加載該假網(wǎng)站內(nèi)容時(shí),隱藏指令會被執(zhí)行,導(dǎo)致敏感信息被讀取并發(fā)送給攻擊者。這一攻擊利用了Writer智能體系加載Markdown時(shí)對圖片創(chuàng)建HTTP參數(shù)GET請求的特性,揭示了AI應(yīng)用在數(shù)據(jù)安全方面的脆弱性。數(shù)據(jù)泄露不僅侵犯用戶隱私,還可能導(dǎo)致企業(yè)面臨法律風(fēng)險(xiǎn)和聲譽(yù)損失。
2. 模型越獄:突破安全防線的挑戰(zhàn)
模型越獄是指突破模型的安全防范機(jī)制,獲取不符合預(yù)期的輸出。測試人員曾通過模擬兩人對話,成功繞過GPT 4的安全防范,讓其詳細(xì)描述盜竊車輛的步驟,產(chǎn)生了有害內(nèi)容。如今,隨著新技術(shù)如DBCC的興起,國外安全團(tuán)隊(duì)對其進(jìn)行大量模型越獄測試。對于接入開源產(chǎn)品(如Deepseek)的應(yīng)用來說,如何抵御模型越獄攻擊,在投入市場后經(jīng)得起安全團(tuán)隊(duì)的測試,成為開發(fā)者亟待解決的問題。模型越獄可能導(dǎo)致模型被惡意利用,產(chǎn)生違背道德和法律的輸出,損害用戶利益和社會安全。
3. 智能體過度:缺乏防范的隱患
智能體過度風(fēng)險(xiǎn)體現(xiàn)為智能體對用戶輸入缺乏有效過濾和防范。例如,國外某卡車銷售商使用智能體協(xié)助銷售,當(dāng)顧客表示預(yù)算僅為一元時(shí),智能體竟爽快答應(yīng)交易。這一案例表明智能體在處理用戶請求時(shí),可能出現(xiàn)不合理響應(yīng),反映出智能體應(yīng)用在業(yè)務(wù)邏輯和風(fēng)險(xiǎn)控制方面的不足。智能體過度響應(yīng)可能導(dǎo)致企業(yè)遭受經(jīng)濟(jì)損失,同時(shí)也影響用戶對AI應(yīng)用的信任。
二、AI應(yīng)用風(fēng)險(xiǎn)測評的困境
從企業(yè)內(nèi)部視角出發(fā),理想的AI風(fēng)險(xiǎn)測評應(yīng)具備自動化、低成本、持續(xù)評測且不影響性能的特點(diǎn),同時(shí)能全面覆蓋信息安全和內(nèi)容安全等多方面風(fēng)險(xiǎn)。但在實(shí)際操作中,智能體應(yīng)用的特性給測評工作帶來諸多挑戰(zhàn)。
1. 不確定性:測評的難題
智能體應(yīng)用存在諸多不確定性。它針對不同指令調(diào)用的工具不同,且同一工具在相同輸入下返回結(jié)果的字?jǐn)?shù)或形式可能不同,盡管含義或許一致。這種不確定性使得傳統(tǒng)基于規(guī)則或機(jī)器學(xué)習(xí)的檢測方式難以適用。傳統(tǒng)方法難以處理智能體返回值的多樣性,無法準(zhǔn)確判斷其是否符合預(yù)期,給測評工作增加了難度。
2. 局限性:難以全面覆蓋
一方面,不同基礎(chǔ)模型抗風(fēng)險(xiǎn)能力不同,應(yīng)用調(diào)用不同基礎(chǔ)模型時(shí)面臨的風(fēng)險(xiǎn)敞口各異,增加了應(yīng)用管理風(fēng)險(xiǎn)的難度。另一方面,目前測試應(yīng)用多借鑒基礎(chǔ)模型的評測手段,而基礎(chǔ)模型的評測指標(biāo)主要針對語言理解、編碼算數(shù)等任務(wù),無法完全覆蓋應(yīng)用的特點(diǎn)。例如,一個(gè)涉及圖像識別和自然語言處理的多模態(tài)AI應(yīng)用,現(xiàn)有的基礎(chǔ)模型評測指標(biāo)難以全面評估其風(fēng)險(xiǎn)。
3. 復(fù)雜性:通用指標(biāo)的困境
智能體應(yīng)用的復(fù)雜性體現(xiàn)在其涉及多個(gè)基礎(chǔ)模型和工具的組合使用。通用評估指標(biāo)難以完全適配智能體應(yīng)用,不同任務(wù)基于不同基礎(chǔ)模型,使得應(yīng)用在管理風(fēng)險(xiǎn)時(shí)面臨更大挑戰(zhàn)。一個(gè)智能體應(yīng)用可能同時(shí)調(diào)用用于文本生成的大模型和用于數(shù)據(jù)分析的工具,如何綜合評估這些不同組件帶來的風(fēng)險(xiǎn),是當(dāng)前測評面臨的難題。
三、業(yè)界AI應(yīng)用風(fēng)險(xiǎn)測評方法梳理
目前業(yè)界的測評方法主要從指標(biāo)豐富度和對業(yè)務(wù)的適配能力兩個(gè)維度進(jìn)行分類,大致可分為以下四類。
1. 基準(zhǔn)測評:傳統(tǒng)方法的局限
基準(zhǔn)測評(Benchmark)是一種傳統(tǒng)的測評方式,早期主要聚焦于基礎(chǔ)模型的任務(wù)完成情況。近年來,部分Benchmark開始增加內(nèi)容安全相關(guān)測評,如幻覺、毒性檢測等。但這類方法大多是非連續(xù)性的,對于開源模型的測試環(huán)境與企業(yè)實(shí)際使用環(huán)境存在差異,更多用于榜單排名。以某開源模型為例,其測試環(huán)境是自行搭建的,與企業(yè)在實(shí)際項(xiàng)目中使用該開源模型的環(huán)境不同,導(dǎo)致測試結(jié)果可能無法真實(shí)反映企業(yè)應(yīng)用的風(fēng)險(xiǎn)狀況。
2. 模型廠商測評:應(yīng)用層的缺失
模型廠商通常會整合多種Benchmark,在真實(shí)環(huán)境下對各類任務(wù)進(jìn)行測評,涵蓋語言理解、編碼、數(shù)學(xué)、幻覺等方面,近期也加入了更多內(nèi)容安全測評標(biāo)準(zhǔn)。OpenAI較早采用大模型評測大模型(LLM-as-Judge)的方式,并倡導(dǎo)使用思維鏈(Thought Chain)來評測自定義指標(biāo),這些方法在業(yè)界被廣泛應(yīng)用。然而,模型廠商的評測主要側(cè)重于基礎(chǔ)模型層面,對應(yīng)用層的關(guān)注較少,企業(yè)仍需自行探索應(yīng)用層的測評方法。
3. 商業(yè)平臺測評:成本與適配問題
商業(yè)平臺如Google的S66等,集成了對基礎(chǔ)模型、任務(wù)和內(nèi)容安全的相關(guān)評測,并且具備自動化評測能力,可對RAG進(jìn)行測試。但從企業(yè)角度看,商業(yè)平臺在測評智能體應(yīng)用時(shí),存在成本較高以及指標(biāo)不完全適配的問題,難以完全滿足企業(yè)的需求。企業(yè)在使用商業(yè)平臺進(jìn)行測評時(shí),可能需要支付高額費(fèi)用,且部分測評指標(biāo)與企業(yè)實(shí)際業(yè)務(wù)場景不匹配,影響測評效果。
4. 開源工具測評:整合的需求
開源工具如DeepEval、Galileo、LangSmith等在測試智能體應(yīng)用方面各有優(yōu)勢,但也存在不足,沒有一款工具能夠全面解決所有測評問題,需要企業(yè)自行整合使用。DeepEval提供了一些針對智能體特點(diǎn)的指標(biāo)函數(shù),但在與其他工具的兼容性方面可能存在問題;LangSmith則更側(cè)重于對語言模型應(yīng)用的監(jiān)控和分析。
四、AI應(yīng)用風(fēng)險(xiǎn)測評的實(shí)踐思路
基于對業(yè)界測評方法的分析,為有效進(jìn)行AI風(fēng)險(xiǎn)測評,可從以下幾個(gè)方面入手。
1. 構(gòu)建智能體:選擇合適的框架
推薦使用Lang chain構(gòu)建智能體。Lang chain可以通過內(nèi)部函數(shù)監(jiān)控每個(gè)函數(shù)的調(diào)用成本和性能,這對于企業(yè)落地應(yīng)用至關(guān)重要。通過Lang chain,企業(yè)可以清晰了解智能體在調(diào)用不同工具時(shí)的資源消耗情況,從而評估其在實(shí)際應(yīng)用中的可行性,為優(yōu)化智能體性能提供依據(jù)。
2. 定義大模型評估器:自動化與高效性
使用大模型作為評估器具有自動化運(yùn)行和評估效果好的優(yōu)勢。從GPT 3.5及以上能力的大模型,其評估能力已超越人類評估。利用Lang chain定義大模型評估器,可參考OpenAI的做法,利用大模型的結(jié)構(gòu)化輸出功能,對智能體的輸出進(jìn)行評估。通過設(shè)定評估文檔相關(guān)性的任務(wù),讓大模型判斷檢索到的文檔與用戶問題的相關(guān)性,給出“是”或“否”的評分,提高評估的準(zhǔn)確性和效率。
3. 自定義測試數(shù)據(jù)與指標(biāo):貼合應(yīng)用需求
由于應(yīng)用測試數(shù)據(jù)相對較少,推薦使用大模型生成合成測試數(shù)據(jù)。通過定義模板和輸入輸出格式,讓大模型生成類似特定類型的數(shù)據(jù)。在應(yīng)用運(yùn)行一段時(shí)間后,其日志和記錄也可作為測試數(shù)據(jù)。在指標(biāo)方面,除了使用業(yè)界已有的指標(biāo)函數(shù),如DeepEval提供的任務(wù)完成度、工具選擇等指標(biāo),還應(yīng)基于這些指標(biāo)的父類進(jìn)行繼承和擴(kuò)展,自定義適合應(yīng)用場景的指標(biāo)。當(dāng)智能體與RAG一起使用時(shí),可將RAG的忠誠度、答案相關(guān)性等指標(biāo)繼承過來,通過大模型評估自定義指標(biāo)的有效性,使測評更貼合應(yīng)用實(shí)際需求。
4. 集成自動化流水線:持續(xù)測評的保障
通過代碼實(shí)現(xiàn)和YAML配置,在每次代碼推拉時(shí),使用Poetry進(jìn)行自動化測試。在運(yùn)行態(tài),推薦使用專門的大模型測試工具進(jìn)行紅隊(duì)測試(Red-Teaming)。微軟推出的PORT工具包,內(nèi)置大量Prompt,通過模擬用戶與應(yīng)用進(jìn)行多輪對話,測試應(yīng)用的安全性和可靠性。定義YAML文件,讓PORT工具測試對話中是否包含對特定群體的偏見等內(nèi)容,以此評估應(yīng)用在內(nèi)容安全方面的表現(xiàn),確保應(yīng)用在整個(gè)生命周期內(nèi)都能得到持續(xù)有效的測評。
5. 運(yùn)行時(shí)紅隊(duì)測試:模擬真實(shí)攻擊
紅隊(duì)測試是模擬攻擊者對應(yīng)用進(jìn)行攻擊,以發(fā)現(xiàn)潛在的安全漏洞。使用專門的工具和方法,如微軟發(fā)布的PyRIT,使用對話的形式(內(nèi)置SelfAskTrueFalseScorer和RedTeamingOrchestrator)結(jié)合自定義的風(fēng)險(xiǎn)清單,對應(yīng)用進(jìn)行多輪攻擊測試。風(fēng)險(xiǎn)清單涵蓋內(nèi)容安全、信息安全等方面的風(fēng)險(xiǎn),如毒性、暴力、偏見、數(shù)據(jù)泄露等。通過紅隊(duì)測試,可及時(shí)發(fā)現(xiàn)應(yīng)用在面對攻擊時(shí)的薄弱環(huán)節(jié),從而采取相應(yīng)的措施進(jìn)行修復(fù)和改進(jìn),提升應(yīng)用的安全性。
五、AI應(yīng)用風(fēng)險(xiǎn)測評的關(guān)鍵要點(diǎn)
通過構(gòu)建智能體、定義大模型評估器、自定義測試數(shù)據(jù)與指標(biāo)、集成自動化流水線以及進(jìn)行運(yùn)行時(shí)紅隊(duì)測試等實(shí)踐思路,并把握選擇評估器、生成測試數(shù)據(jù)、自定義指標(biāo)和持續(xù)迭代測評方式等關(guān)鍵要點(diǎn),企業(yè)能夠有效提升AI應(yīng)用的安全性和可靠性。
1. 選擇合適的評估器:權(quán)衡線上線下
目前推薦使用大模型作為評估器,但在選擇大模型時(shí),需考慮線上和線下的差異。如果企業(yè)自行部署大模型,如使用Deepseek作為評估器,與使用線上的GPT存在區(qū)別,應(yīng)根據(jù)具體應(yīng)用需求進(jìn)行選擇。對于對數(shù)據(jù)隱私和安全性要求較高的應(yīng)用,可能更適合使用自行部署的大模型;而對于對實(shí)時(shí)性要求較高、對數(shù)據(jù)隱私要求相對較低的應(yīng)用,則可選擇線上的大模型。
2. 生成針對性的測試數(shù)據(jù):基于威脅分析
通過威脅分析,明確應(yīng)用面臨的風(fēng)險(xiǎn),根據(jù)風(fēng)險(xiǎn)清單和威脅分級結(jié)果,生成針對性的測試數(shù)據(jù)。測試數(shù)據(jù)應(yīng)盡可能覆蓋應(yīng)用可能面臨的各種風(fēng)險(xiǎn)場景,確保測評的全面性和有效性。以金融類AI為例應(yīng)重點(diǎn)考慮數(shù)據(jù)泄露、欺詐風(fēng)險(xiǎn)等場景,生成相應(yīng)的測試數(shù)據(jù),以準(zhǔn)確評估應(yīng)用在實(shí)際使用中的風(fēng)險(xiǎn)。
3. 自定義適配的指標(biāo):貼合實(shí)際風(fēng)險(xiǎn)擬定指標(biāo)
根據(jù)應(yīng)用的特點(diǎn)和面臨的風(fēng)險(xiǎn),自定義評估指標(biāo)??赏ㄟ^繼承和擴(kuò)展已有指標(biāo)函數(shù)的方式,編寫適合應(yīng)用場景的指標(biāo)。在自定義指標(biāo)時(shí),應(yīng)確保指標(biāo)具有可衡量性、相關(guān)性和可操作性,能夠準(zhǔn)確反映應(yīng)用的風(fēng)險(xiǎn)狀況。對于一個(gè)電商推薦智能體,可自定義推薦準(zhǔn)確性、推薦多樣性等指標(biāo),以評估其在業(yè)務(wù)場景中的表現(xiàn),為優(yōu)化推薦策略提供依據(jù)。
4. 持續(xù)迭代測評方式:適應(yīng)變化
由于模型和應(yīng)用不斷迭代,測評方式也應(yīng)持續(xù)更新。通過工程化的方式,將測評過程自動化、規(guī)范化,確保測評結(jié)果的準(zhǔn)確性和可靠性。建立定期的測評機(jī)制,每次模型或應(yīng)用更新后,都進(jìn)行全面的風(fēng)險(xiǎn)測評,及時(shí)發(fā)現(xiàn)并解決新出現(xiàn)的風(fēng)險(xiǎn)問題,使測評工作與AI應(yīng)用的發(fā)展保持同步。
六、AI應(yīng)用風(fēng)險(xiǎn)測評的實(shí)施步驟
評估大型語言模型(LLM)應(yīng)用的三個(gè)主要步驟:診斷與設(shè)計(jì)、數(shù)據(jù)準(zhǔn)備和執(zhí)行評估。在“診斷與設(shè)計(jì)”階段,確定評估目標(biāo)、范圍和指標(biāo);在“數(shù)據(jù)準(zhǔn)備”階段,收集輸入和輸出數(shù)據(jù),清洗和轉(zhuǎn)換原始數(shù)據(jù),生成測試數(shù)據(jù),并擬定指標(biāo)測評函數(shù);在“執(zhí)行評估”階段,運(yùn)行評估程序,分析結(jié)果,識別問題,并根據(jù)結(jié)果優(yōu)化和改進(jìn)LLM應(yīng)用,將其集成到CI/CD流程中進(jìn)行持續(xù)監(jiān)控。
AI風(fēng)險(xiǎn)測評是保障AI應(yīng)用可信的核心環(huán)節(jié),核心價(jià)值是 :提高 LLM 系統(tǒng)可信、降低 LLM 應(yīng)用風(fēng)險(xiǎn)、確保LLM系統(tǒng)合規(guī)性。當(dāng)前AI應(yīng)用風(fēng)險(xiǎn)多樣,測評面臨諸多挑戰(zhàn),而業(yè)界現(xiàn)有的測評方法各有利弊。在未來,隨著AI技術(shù)的不斷發(fā)展,風(fēng)險(xiǎn)測評也需持續(xù)創(chuàng)新和完善,以應(yīng)對新的風(fēng)險(xiǎn)挑戰(zhàn),推動企業(yè)的AI應(yīng)用在可信的軌道上健康發(fā)展。