自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用開源GenAI時需要注意的十個問題

人工智能
在查看開源GenAI時,排行榜是一個好的起點(diǎn),EY Americas的GenAI負(fù)責(zé)人David Guarrera說,特別是Hugging Face在基準(zhǔn)測試方面做得很好,他說。

如今似乎任何人都可以制作AI模型。即使你沒有訓(xùn)練數(shù)據(jù)或編程技巧,你也可以選擇你喜歡的開源模型,對其進(jìn)行調(diào)整,并以新的名字發(fā)布。

根據(jù)斯坦福大學(xué)在4月發(fā)布的AI指數(shù)報告,2023年發(fā)布了149個基礎(chǔ)模型,其中三分之二是開源的,而且有大量的變體。Hugging Face目前僅跟蹤用于文本生成的LLM就超過80000個,并且幸運(yùn)的是,它有一個排行榜,可以讓你快速根據(jù)各種基準(zhǔn)對模型進(jìn)行排序。盡管這些模型落后于大型商業(yè)模型,但它們正在迅速改進(jìn)。

在查看開源GenAI時,排行榜是一個好的起點(diǎn),EY Americas的GenAI負(fù)責(zé)人David Guarrera說,特別是Hugging Face在基準(zhǔn)測試方面做得很好,他說。

“但是不要低估親自嘗試這些模型的價值,”他說,“因為它們是開源的,很容易做到這一點(diǎn)并進(jìn)行切換?!彼a(bǔ)充道,開源模型和它們的閉源商業(yè)替代品之間的性能差距正在縮小。

“開源很棒,”Uber Freight的工程主管Val Marchevsky補(bǔ)充道,“我覺得開源非常有價值。”它們不僅在性能上趕上了專有模型,而且有些提供了閉源模型無法匹敵的透明度,他說?!耙恍╅_源模型允許你查看用于推理的內(nèi)容和不用于推理的內(nèi)容,”他補(bǔ)充道,“可審核性對于防止幻覺非常重要?!?/p>

當(dāng)然,還有價格優(yōu)勢?!叭绻阌幸粋€恰好有容量的數(shù)據(jù)中心,為什么要付錢給別人?”他說。

公司已經(jīng)非常熟悉使用開源代碼。根據(jù)Synopsys在2月發(fā)布的開源安全和風(fēng)險分析,96%的所有商業(yè)代碼庫包含開源組件。

由于所有這些經(jīng)驗,公司應(yīng)該知道如何確保它們使用的是適當(dāng)許可的代碼,如何檢查漏洞以及如何保持所有內(nèi)容的最新狀態(tài)。然而,一些規(guī)則和最佳實踐有一些特別的細(xì)微差別,公司可能會忽略。以下是最重要的幾點(diǎn)。

1. 奇怪的新許可條款

不同開源許可證類型的情況已經(jīng)足夠復(fù)雜了。項目是否可以安全用于商業(yè)用途,還是只能用于非商業(yè)用途?可以修改和分發(fā)嗎?可以安全地并入專有代碼庫嗎?現(xiàn)在,隨著GenAI的出現(xiàn),有一些新的皺褶。首先,有一些新的許可證類型,只在一個非常寬松的定義下才算開源。

例如,Llama許可證。Llama家族的模型是一些最好的開源LLM之一,但Meta正式將其描述為“一個定制的商業(yè)許可證,平衡了對模型的開放訪問以及為幫助解決潛在的濫用而制定的責(zé)任和保護(hù)措施”。

企業(yè)被允許商業(yè)使用這些模型,開發(fā)人員可以在Llama基礎(chǔ)模型的基礎(chǔ)上創(chuàng)建和分發(fā)額外的工作,但它們不能使用Llama輸出來改進(jìn)其他LLM,除非它們本身是Llama的衍生品。而且,如果企業(yè)或其附屬公司每月有超過700個用戶,他們必須申請許可證,Meta可能會也可能不會授予。如果他們使用Llama 3,他們必須在顯著位置包含“使用Llama 3構(gòu)建”的標(biāo)志。

類似地,Apple剛剛發(fā)布了OpenELM,根據(jù)“Apple示例代碼許可證”,這也是為了這個場合而發(fā)明的,僅涵蓋版權(quán)許可,不包括專利權(quán)。

Apple和Meta都沒有使用公認(rèn)的開源許可證,但代碼實際上是開放的。Apple實際上不僅發(fā)布了代碼,還發(fā)布了模型權(quán)重、訓(xùn)練數(shù)據(jù)集、訓(xùn)練日志和預(yù)訓(xùn)練配置。這就引出了開源許可的另一個方面。傳統(tǒng)的開源軟件就是代碼。它是開源的,意味著你可以看到它的作用以及是否存在潛在的問題或漏洞。

然而,GenAI不僅僅是代碼。它還包括訓(xùn)練數(shù)據(jù)、模型權(quán)重和微調(diào)。所有這些都是了解模型工作原理并識別潛在偏見的關(guān)鍵。一個模型如果訓(xùn)練在地平說陰謀論的存檔上,它將無法回答科學(xué)問題,或者由朝鮮黑客進(jìn)行微調(diào)的模型可能無法正確識別惡意軟件。那么,開源LLM是否發(fā)布所有這些信息?這取決于模型,甚至取決于模型的特定版本,因為沒有標(biāo)準(zhǔn)。

“有時它們會提供代碼,但如果你沒有微調(diào),你可能會花費(fèi)很多錢才能達(dá)到相當(dāng)?shù)男阅?,”卡?nèi)基梅隆大學(xué)AI教授、前普華永道全球AI負(fù)責(zé)人Anand Rao說。

2. 技能短缺

開源通常是一種自助式的努力。公司可以下載代碼,但然后它們需要內(nèi)部專家或雇傭的顧問來使一切正常工作。這在GenAI領(lǐng)域是一個大問題。沒有人有多年的經(jīng)驗,因為這項技術(shù)太新了。如果一家公司剛剛開始使用GenAI,或者它想快速推進(jìn),Rao說,最好從專有平臺開始。

“下載開源版本需要專業(yè)知識,”他說。但是,一旦公司完成了概念驗證,將模型部署到生產(chǎn)中,并開始產(chǎn)生費(fèi)用,那么就可能是時候考慮開源替代品了,他補(bǔ)充道。

行業(yè)經(jīng)驗的缺乏也給開源GenAI領(lǐng)域帶來了另一個問題。開源的一個關(guān)鍵優(yōu)勢是,許多人查看代碼,可以發(fā)現(xiàn)編程錯誤、安全漏洞和其他弱點(diǎn)。但是,這種“千眼”方法只有在確實有千眼能夠理解他們看到的東西時才起作用。

3. 越獄

LLM特別容易越獄,即用戶給它一個巧妙的提示,使其違反其指南,例如生成惡意軟件。在商業(yè)項目中,有高度動機(jī)的供應(yīng)商在背后支持他們,可以識別這些漏洞并在它們出現(xiàn)時關(guān)閉它們。此外,供應(yīng)商可以訪問用戶發(fā)送給公共版本模型的提示,因此他們可以監(jiān)控是否有可疑活動的跡象。

惡意行為者不太可能購買在私人環(huán)境中運(yùn)行的企業(yè)版本的產(chǎn)品,這些提示不會共享給供應(yīng)商以改進(jìn)模型。對于開源項目,團(tuán)隊中可能沒有任何人負(fù)責(zé)尋找越獄的跡象。壞人可以免費(fèi)下載這些模型,并在他們自己的環(huán)境中運(yùn)行,以測試潛在的漏洞。壞人還可以看到模型使用的系統(tǒng)提示以及模型開發(fā)人員可能構(gòu)建的任何其他防護(hù)措施,從而在越獄時占得先機(jī)。

“這不僅僅是試驗和錯誤,”Rao說。攻擊者可以分析訓(xùn)練數(shù)據(jù),例如,找出使模型誤識別圖像的方法,或者當(dāng)它遇到看似無害的提示時出錯。

如果一個AI模型在其輸出上添加水印,惡意行為者可能會分析代碼以逆向工程過程,以去除水印。攻擊者還可以分析模型或其他支持代碼和工具,找出漏洞區(qū)域。

“你可以用請求淹沒基礎(chǔ)設(shè)施,這樣模型就不會工作了,”全球數(shù)字化轉(zhuǎn)型咨詢公司Nortal的高級數(shù)據(jù)科學(xué)家和能力主管Elena Sügis說。“當(dāng)模型是更大系統(tǒng)的一部分時,它的輸出被系統(tǒng)的另一個部分使用,如果我們可以攻擊模型產(chǎn)生輸出的方式,它將擾亂整個系統(tǒng),這對企業(yè)來說可能是危險的。”

4. 訓(xùn)練數(shù)據(jù)的風(fēng)險

藝術(shù)家、作家和其他版權(quán)持有者正左和右地起訴大型AI公司。但是,如果他們認(rèn)為他們的知識產(chǎn)權(quán)被一個開源模型侵犯了,而唯一有深口袋的是那些將該模型納入其產(chǎn)品或服務(wù)的企業(yè)用戶呢?企業(yè)用戶會被起訴嗎?

“這是一個潛在的問題,沒有人真正知道一些待決訴訟將如何解決,”EY的Guarrera說。我們可能正走向一個必須對數(shù)據(jù)集進(jìn)行某種補(bǔ)償?shù)氖澜?,他說?!按罂萍脊靖心芰ㄥX來應(yīng)對可能圍繞版權(quán)的風(fēng)暴。”

大型商業(yè)供應(yīng)商不僅有錢購買訓(xùn)練數(shù)據(jù)和打官司,他們也有錢購買策劃的數(shù)據(jù)集,Sügis說。免費(fèi)的公共數(shù)據(jù)集不僅包含未經(jīng)許可使用的版權(quán)內(nèi)容。它們還充滿了不準(zhǔn)確和有偏見的信息、惡意軟件和其他可能降低輸出質(zhì)量的材料。

“許多模型開發(fā)者正在談?wù)撌褂貌邉澋臄?shù)據(jù),”她說?!斑@比你將整個互聯(lián)網(wǎng)扔給它進(jìn)行訓(xùn)練要貴得多?!?/p>

5. 新的數(shù)據(jù)泄露渠道

由于GenAI項目不僅僅是代碼,還有更多潛在的數(shù)據(jù)暴露風(fēng)險。LLM(大型語言模型)可能在多個方面受到惡意行為者的攻擊。他們可能會滲透到管理不善的項目開發(fā)團(tuán)隊中,在軟件中添加惡意代碼。但他們也可能會毒害訓(xùn)練數(shù)據(jù)、微調(diào)或權(quán)重,Sügis說。

“黑客可能會用惡意代碼示例重新訓(xùn)練模型,這樣它就會侵入用戶的基礎(chǔ)設(shè)施,”她說?!盎蛘咚麄兛梢杂眉傩侣労湾e誤信息訓(xùn)練它?!?/p>

另一個攻擊向量是模型的系統(tǒng)提示。

“這通常對用戶是隱藏的,”她補(bǔ)充道?!跋到y(tǒng)提示可能包含讓模型識別不受歡迎或不道德行為的防護(hù)措施或安全規(guī)則?!?/p>

專有模型不會公開其系統(tǒng)提示,她說,訪問這些提示可能會讓黑客找到攻擊模型的方法。

6. 缺少防護(hù)措施

一些開源團(tuán)體可能在哲學(xué)上反對在其模型上設(shè)置防護(hù)措施,或者他們認(rèn)為模型在沒有任何限制的情況下表現(xiàn)會更好。而有些模型則專門為惡意用途而創(chuàng)建。企業(yè)在選擇LLM時可能不一定知道他們的模型屬于哪一類。Nortal的Sügis說,目前沒有獨(dú)立機(jī)構(gòu)評估開源GenAI模型的安全性。歐洲的《人工智能法案》將要求提供一些此類文件,但大部分規(guī)定要到2026年才會生效,她說。

“我會盡可能多地獲取文檔,測試和評估模型,并在公司內(nèi)部實施一些防護(hù)措施,”她說。

7. 缺乏標(biāo)準(zhǔn)

用戶驅(qū)動的開源項目通?;跇?biāo)準(zhǔn),因為企業(yè)用戶喜歡它們,并且希望實現(xiàn)互操作性。事實上,根據(jù)Linux基金會去年發(fā)布的一項對近500名技術(shù)專業(yè)人員的調(diào)查,71%的人更喜歡開源標(biāo)準(zhǔn),相比之下只有10%的人更喜歡封閉標(biāo)準(zhǔn)。而生產(chǎn)專有軟件的公司可能更希望將其客戶困在其生態(tài)系統(tǒng)中。但如果你認(rèn)為所有的開源GenAI都是基于標(biāo)準(zhǔn)的,那你就錯了。

事實上,當(dāng)大多數(shù)人談?wù)揂I標(biāo)準(zhǔn)時,他們談?wù)摰氖莻惱?、隱私和可解釋性等內(nèi)容。而在這一領(lǐng)域確實有一些工作正在進(jìn)行,例如去年12月發(fā)布的ISO/IEC 42001人工智能管理系統(tǒng)標(biāo)準(zhǔn)。4月29日,NIST發(fā)布了一個AI標(biāo)準(zhǔn)草案,涵蓋了很多內(nèi)容,從創(chuàng)建一個關(guān)于AI的通用語言開始,也主要關(guān)注風(fēng)險和治理問題。但在技術(shù)標(biāo)準(zhǔn)方面,進(jìn)展不大。

“這是一個非常初期的領(lǐng)域,”云原生計算基金會的CIO兼生態(tài)系統(tǒng)負(fù)責(zé)人Taylor Dolezal說?!拔铱吹揭恍╆P(guān)于數(shù)據(jù)分類的好對話,討論為訓(xùn)練數(shù)據(jù)、API和提示設(shè)置標(biāo)準(zhǔn)格式?!钡侥壳盀橹?,這些只是對話。

他說,目前已經(jīng)有一個向量數(shù)據(jù)庫的通用數(shù)據(jù)標(biāo)準(zhǔn),但沒有標(biāo)準(zhǔn)查詢語言。關(guān)于自主代理的標(biāo)準(zhǔn)呢?

“我還沒有看到,但我希望看到,”他說?!罢页霾粌H讓代理執(zhí)行特定任務(wù)的方法,還要把這些任務(wù)聯(lián)系在一起。”

用于創(chuàng)建代理的最常見工具LangChain更像是一個框架而不是標(biāo)準(zhǔn),他說。而用戶公司,即那些對標(biāo)準(zhǔn)有需求的公司,還沒有準(zhǔn)備好,“大多數(shù)最終用戶在實際操作之前并不知道他們想要什么?!?/p>

相反,他說,人們更有可能將大供應(yīng)商的API和接口視為潛在的事實標(biāo)準(zhǔn)?!斑@就是我看到人們在做的事,”他說。

8. 缺乏透明度

你可能認(rèn)為開源模型本質(zhì)上更透明,但情況可能并非總是如此。大型商業(yè)項目可能有更多資源來創(chuàng)建文檔,BI軟件供應(yīng)商Vero AI的CEO Eric Sydell說。該公司最近發(fā)布了一份報告,基于可見性、完整性、立法準(zhǔn)備情況和透明度等方面對主要的GenAI模型進(jìn)行了評分。Google的Gemini和OpenAI的GPT-4排名最高。

“僅僅因為它們是開源的,并不意味著它們提供相同的信息,關(guān)于模型的背景和開發(fā)方式,”Sydell說?!澳壳?,大型商業(yè)模型在這方面做得更好。”

以偏見為例。

“我們發(fā)現(xiàn)我們的排名中前兩名的閉源模型在這方面有相當(dāng)多的文檔,并投入時間探討這個問題,”他說。

9. 源代碼問題

開源項目經(jīng)常被分叉,但當(dāng)這種情況發(fā)生在GenAI時,你會面臨傳統(tǒng)軟件中不存在的風(fēng)險。比如,一個基礎(chǔ)模型使用了有問題的訓(xùn)練數(shù)據(jù)集,有人從中創(chuàng)建了一個新模型,那么它將繼承這些問題,Sonatype的產(chǎn)品高級副總裁Tyler Warden說。

“在權(quán)重和調(diào)優(yōu)方面有很多黑箱操作,”他說。

事實上,這些問題可能追溯到好幾級代碼,最終模型的代碼中不會顯示出來。當(dāng)公司下載一個模型供自己使用時,這個模型與原始來源的距離越來越遠(yuǎn)。原始基礎(chǔ)模型可能已經(jīng)修復(fù)了這些問題,但根據(jù)上下鏈的透明度和溝通量,最后一個模型的開發(fā)人員可能甚至不知道這些修復(fù)。

10. 新的影子IT

使用開源組件作為軟件開發(fā)過程一部分的公司,通常會有相應(yīng)的流程來審核庫并確保組件是最新的。他們會確保項目有良好的支持,安全問題得到處理,并且軟件具有適當(dāng)?shù)脑S可證條款。

然而,對于GenAI,負(fù)責(zé)審核的人可能不知道要查找什么。此外,GenAI項目有時會脫離標(biāo)準(zhǔn)的軟件開發(fā)流程。它們可能來自數(shù)據(jù)科學(xué)團(tuán)隊或秘密項目。開發(fā)人員可能會下載模型來試驗,最終被更廣泛地使用?;蛘邩I(yè)務(wù)用戶自己可能會按照在線教程設(shè)置他們自己的GenAI,完全繞過IT部門。

GenAI的最新發(fā)展,自治代理,有可能將巨大的力量交到這些系統(tǒng)手中,從而將這種類型的影子IT的風(fēng)險提升到新的高度。

“如果你要進(jìn)行實驗,創(chuàng)建一個容器,以一種對組織安全的方式進(jìn)行,”Corelight開源高級總監(jiān)Kelley Misata說。她表示,這應(yīng)該由公司的風(fēng)險管理團(tuán)隊負(fù)責(zé),并且確保開發(fā)人員以及整個業(yè)務(wù)理解有一個流程的是CIO的責(zé)任。

“他們是最適合設(shè)定文化的人,”她說?!白屛覀兝瞄_源提供的創(chuàng)新和所有偉大之處,但要睜大眼睛進(jìn)入?!?/p>

兩全其美的方式

一些公司在尋找開源的低成本、透明度、隱私和控制,但希望有一個供應(yīng)商來提供治理、長期可持續(xù)性和支持。在傳統(tǒng)的開源世界中,有很多供應(yīng)商可以做到這一點(diǎn),比如Red Hat、MariaDB、Docker、Automattic等。

“它們?yōu)榇笮推髽I(yè)提供了一定程度的安全性和保障,”AArete數(shù)據(jù)科學(xué)和分析副總裁Priya Iragavarapu說?!斑@幾乎是一種降低風(fēng)險的方式?!?/p>

她說,在GenAI領(lǐng)域,這樣的供應(yīng)商還不多,但情況正在開始改變。

責(zé)任編輯:姜華 來源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2023-10-04 00:03:00

SQL數(shù)據(jù)庫

2022-09-13 10:09:23

IT 領(lǐng)導(dǎo)者招聘

2021-10-15 10:04:37

云計算安全云服務(wù)

2012-07-04 14:40:37

Ajax

2016-11-24 15:54:06

androidJSONObject

2016-12-26 18:51:34

AndroidJavascriptJSONObject

2015-10-08 10:07:29

游戲開發(fā)內(nèi)存使用

2021-02-24 07:40:38

React Hooks閉包

2011-12-21 09:54:15

項目經(jīng)理

2010-06-29 15:54:36

UML建模

2024-01-29 15:44:20

人工智能GenAI

2021-10-15 16:37:45

云計算KubernetesApache

2009-04-23 14:30:19

UML建模

2013-09-29 10:36:08

VMware虛擬化

2022-09-30 09:04:29

開源開發(fā)

2021-02-05 17:35:07

數(shù)據(jù)高管CIO技術(shù)

2020-10-26 14:01:22

Java泛型

2018-06-11 11:03:09

2010-08-09 11:23:24

Flex開發(fā)

2021-12-30 06:59:28

方法重寫面試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號