撰稿 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
Gentoo Linux是一套通用的、快捷的、完全免費(fèi)的Linux發(fā)行版,因出色的包管理系統(tǒng)Portage而被開發(fā)人員廣為喜愛。最近,GentooLinux社區(qū)宣布:發(fā)行版將不再允許人工智能生成和輔助代碼貢獻(xiàn)。
一、Gentoo Linux禁AI令:AI生成的代碼貢獻(xiàn)要分叉
Gentoo理事會成員Micha?Górny最初于2月27日提出了對人工智能代碼的禁令,Gentoo是一個管理Linux發(fā)行版的民選委員會。Górny主張禁止人工智能有三個主要原因:潛在的版權(quán)侵權(quán)、質(zhì)量控制問題、對人工智能高功耗的道德考慮以及大公司在技術(shù)塑造中的作用。
首先是版權(quán)問題。當(dāng)下,有關(guān)AI生成內(nèi)容的版權(quán)情況尚不明朗。但有一點(diǎn)確認(rèn)的是,幾乎所有LLM都是在龐大的版權(quán)材料語料庫上進(jìn)行培訓(xùn)的,以及所有花哨的“人工智能”公司都不會對侵犯版權(quán)的行為嗤之以鼻。
特別是,這些工具很有可能產(chǎn)生我們不能合法使用的東西。
其次是質(zhì)量問題。LLM非常擅長生成看似合理實(shí)則胡說八道的內(nèi)容。如果你足夠小心,LLM可以提供不錯的幫助,但我們總不能真的依賴于我們所有的貢獻(xiàn)者都能意識到全部風(fēng)險。2月25日,Github用戶就發(fā)現(xiàn)了一個沒有任何描述的奇怪代碼包。
圖片
圖片
問題描述:“pantry倉庫中列出的項(xiàng)目描述來源于每個項(xiàng)目的package.yml文件。這些YAML文件包含了項(xiàng)目的元數(shù)據(jù),包括項(xiàng)目的名稱、版本、作者、描述等。你可以在pantry倉庫中的twine package.yml文件中看到這樣的例子。
然而,我并未找到關(guān)于這些描述如何生成或是否涉及自動過程的具體信息??赡苣阍趐kgx.dev上看到的描述是占位符,或者是以某種方式生成的,沒有準(zhǔn)確反映項(xiàng)目的目的。”
最后,倫理問題。如上所述,“人工智能”企業(yè)既不重視版權(quán),也不關(guān)心人類。人工智能泡沫正在造成巨大的能源浪費(fèi),它為裁員和加大對IT工作者的剝削提供了絕佳的借口。它正在推動互聯(lián)網(wǎng)的惡化,助長了各類垃圾郵件和詐騙活動。
二、英偉達(dá)被起訴,阿里被AI虛擬包坑了
這些顧慮并非空穴來風(fēng),并且已經(jīng)影響到了大家生活的方方面面。
版權(quán)問題方面,無疑正在成為人工智能模型的一個長期問題,這些模型正在使用受保護(hù)材料的訓(xùn)練,英偉達(dá)是最新被起訴的公司之一。
源:theRegister
Books3的三位作者在舊金山對英偉達(dá)發(fā)起了訴訟,理由是使用數(shù)據(jù)集訓(xùn)練NeMo Megatron-GPT模型,該模型已知包含許多未經(jīng)許可的版權(quán)作品。
再者就是,人工智能還會產(chǎn)生毫無意義的文本和代碼,甚至?xí)拐麄€軟件包產(chǎn)生幻覺。最近的一個知名的例子就是阿里巴巴。
被AI愚弄過關(guān),而誤把不存在的軟件包添加進(jìn)開源項(xiàng)目的企業(yè)不在少數(shù),阿里巴巴便是其中之一。幾個星期前,外媒就曾報道阿里一個名為“GraphTranslator”的github項(xiàng)目中,在安裝說明里包含下載Python軟件包huggingface cli的pip命令。
然而事實(shí)上,pip-install huggingfaces cli并不合法,是人工智能想象出來的,正確的命令應(yīng)該是pip install -U "huggingface_hub[cli]".
源:theRegister
但是,通過PyPI分發(fā)并由阿里巴巴的GraphTranslator要求的huggingface cli(使用pip-install huggingfaces cli安裝)是假的,是人工智能想象的。據(jù)悉,huggingface cli是一位代碼安全研究員Lanyado用AI虛構(gòu)的一場釣魚實(shí)驗(yàn)。
在看到生成人工智能反復(fù)產(chǎn)生幻覺后,Lanyado于去年12月創(chuàng)建了huggingface-cli;到今年2月,阿里巴巴在GraphTranslator的README指令中提到了它,而不是真正的Hugging Face CLI工具。
這也就說明:在項(xiàng)目開發(fā)過程中由生成式人工智能發(fā)明的包名是會隨著時間的推移而持續(xù)存在,這種虛假的依賴包,甚至可以通過AI虛構(gòu)的代碼名稱來編寫實(shí)際包來分發(fā)惡意代碼。
這還沒完,據(jù)Lanyado試驗(yàn)顯示,GPT-3.5-Turbo、GPT-4、Gemini Pro aka、Bard和Command(Cohere),這些模型在五種不同編程語言/運(yùn)行時(Python、Node.js、Go、.Net和Ruby)中,每種語言都有各自的打包系統(tǒng)。事實(shí)證明,這些聊天機(jī)器人憑空提取的一部分名字是持久的,有些是別名或衍生版本。
現(xiàn)在,小編發(fā)現(xiàn)GraphTranslator的安裝引導(dǎo)說明中已經(jīng)沒有了上述AI造假的包名。
至于生成式AI模型所需要的水和能源的問題,相信大家已有耳聞。據(jù)《紐約客》雜志引援國外研究機(jī)構(gòu)報告,ChatGPT每天要響應(yīng)大約2億個請求,在此過程中消耗超過50萬度電力,也就是說,ChatGPT每天用電量相當(dāng)于1.7萬個美國家庭的用電量。而隨著生成式AI的廣泛應(yīng)用,預(yù)計到2027年,整個人工智能行業(yè)每年將消耗85至134太瓦時(1太瓦時=10億千瓦時)的電力。
除了耗電,和ChatGPT或其他生成式AI聊天,也會消耗水資源。加州大學(xué)河濱分校研究顯示,ChatGPT每與用戶交流25-50個問題,就可消耗500毫升的水。
我們也許在驚嘆大模型給出問題答案的同時,并沒有想到背后環(huán)境資源做出了怎樣的“犧牲”。
話說回來,版權(quán)、質(zhì)量和倫理,AI明顯還沒有很好的方法來規(guī)避。這也是為什么Gentoo最后決定禁止AI代碼提交的原因。
三、Linux社區(qū)需要預(yù)防AI
除了禁止人工智能代碼提交,Górny說他還希望Gentoo為Linux社區(qū)提供一些獨(dú)特的東西。
圖片
“Gentoo 一直以來都是與眾不同的存在,它滿足了主流發(fā)行版所無法滿足的人群的需求。我認(rèn)為,將“由真實(shí)的人制作”納入我們的優(yōu)勢列表中是一個不錯的想法——但我們需要制定相關(guān)政策,以確保不良內(nèi)容不會涌入?!?/p>
“我認(rèn)為這對Gentoo來說是一個很好的公關(guān)舉措,”Górny表示?!爱?dāng)很多項(xiàng)目都對‘人工智能’充滿熱情時,我覺得許多Gentoo用戶真的很欣賞老式的軟件工程方法,在這種方法中,人比‘生產(chǎn)力’更重要。”
這項(xiàng)禁令及其提議是先發(fā)制人的,不是Gentoo社區(qū)任何特定事件的結(jié)果?!拔覀冋诓扇≡缙陬A(yù)防措施,”Górny解釋道。
四、人工智能被全面禁止,但可能不會永遠(yuǎn)禁止
理事會最初在3月10日預(yù)定的月度會議上討論了Górny提出的禁令。然而,由于禁令的措辭尚未制定,許多理事會成員希望討論更多細(xì)節(jié),因此沒有采取任何行動。該禁令最終在4月14日的理事會會議上頒布,以6比0通過,其中一名成員缺席投票。
“我個人的觀點(diǎn)是,我們只是從這個話題開始,”Górny說?!拔覒岩桑?dāng)我們真正正確地宣布它,并讓用戶了解它時,我們會看到更多的用戶反饋?!?/p>
Gentoo社區(qū)已經(jīng)討論了在電子郵件線程和IRC聊天室中的潛在禁令,Górny表示,人們一致認(rèn)為應(yīng)該實(shí)施“一些限制”。隨著禁令的全面生效,它可以鼓勵更多Gentoo社區(qū)成員分享他們對人工智能的看法。
當(dāng)然,執(zhí)行禁令將是一項(xiàng)挑戰(zhàn);一個人如何區(qū)分由真人編寫的代碼和由機(jī)器編寫的代碼?在Górny看來,禁令的有效性并不是真正的重點(diǎn)。
他說:“我們的主要目標(biāo)是明確哪些是可以接受的,哪些是不可以的,并禮貌地要求我們的貢獻(xiàn)者尊重這一點(diǎn)?!彼a(bǔ)充道,人工智能禁令主要是對當(dāng)前受版權(quán)保護(hù)代碼規(guī)則的延伸。
Górny補(bǔ)充道:“如果我們收到的文件中包含非?!婀帧腻e誤,這種錯誤似乎不太可能是人為錯誤造成的,我們會提出問題,但我認(rèn)為這(禁令)是我們能做的最好的事情?!?/p>
五、或?yàn)锳I破例:為Linux單獨(dú)訓(xùn)練自身的大模型
然而,該禁令明確包括一項(xiàng)條款,規(guī)定未來可以重新審視該政策,這是一些理事會成員明確要求的。理事會成員Sam James說,隨著事態(tài)的迅速發(fā)展,一年后情況可能會發(fā)生很大變化(或者根本沒有變化)。
該委員會已經(jīng)預(yù)見到未來的情況,他們將為人工智能破例——一種專門針對Gentoo訓(xùn)練的模型。這將(在理論上)消除對侵犯版權(quán)的擔(dān)憂,并可能產(chǎn)生更高質(zhì)量的代碼。