點(diǎn)擊參加51CTO網(wǎng)站內(nèi)容調(diào)查問卷
作者丨Matt Asay
編譯丨千山
日前,Stack Overflow悄悄改變了一項(xiàng)長期政策——它不再將社區(qū)貢獻(xiàn)的數(shù)據(jù)上傳到互聯(lián)網(wǎng)檔案館,并要求版主們將“重新啟用數(shù)據(jù)轉(zhuǎn)儲(chǔ)”添加到他們的要求列表中。首席技術(shù)官Jody Bailey說,這樣做是為了“保護(hù)Stack Overflow數(shù)據(jù)不被構(gòu)建LLM的公司濫用?!?/p>
關(guān)于人工智能內(nèi)容,由社區(qū)運(yùn)營的開源問答平臺(tái)Codidact早就指出,“使用人工智能生成的內(nèi)容,特別是大語言模型(LLM)生成的內(nèi)容,構(gòu)成了對(duì)平臺(tái)的濫用,版主有權(quán)刪除此類內(nèi)容并發(fā)出他們認(rèn)為合適的警告。”
在科技領(lǐng)域,我們最終都是寄生蟲。
正如Drupal的創(chuàng)造者Dries Buytaert多年前所說,與其說我們是“制造者”,不如說我們是“接受者”。Buytaert指的是開源社區(qū)的常見做法:“接受者不會(huì)對(duì)他們所接受的開源項(xiàng)目做出有意義的貢獻(xiàn)”,而這傷害了他們所依賴的項(xiàng)目。即使是最熱心的開源貢獻(xiàn)者,也比她貢獻(xiàn)的要多。
谷歌、臉書和推特這些平臺(tái)出現(xiàn)了同樣的“寄生”趨勢,它們都依賴于他人生產(chǎn)的內(nèi)容??梢哉f,今天的生成人工智能(GenAI)更是如此。
Sourcegraph開發(fā)人員Steve Yegge曾夸張地宣稱,“LLM不僅是自社交網(wǎng)絡(luò)、智能手機(jī)或云以來最大的變化,它們更是自萬維網(wǎng)以來最大的事情。”
他的說法或許有其正確性。這些大型語言模型本質(zhì)上是寄生的:它們依賴于抓取其他人的代碼存儲(chǔ)庫(GitHub),技術(shù)答案(Stack Overflow),文獻(xiàn)等等。
正如在開源中發(fā)生的那樣,內(nèi)容創(chuàng)建者和聚合器開始阻止LLM訪問其內(nèi)容。例如,鑒于網(wǎng)站流量下降,Stack Overflow加入了Reddit的行列,要求LLM創(chuàng)建者為使用其數(shù)據(jù)來訓(xùn)練LLM付費(fèi)。這是一個(gè)大膽的舉動(dòng),讓人想起出版商為抵御谷歌和臉書而在開源和付費(fèi)墻中進(jìn)行的許可戰(zhàn)。但它會(huì)起作用嗎?
1、被“過度放牧”的開放地帶
我確信技術(shù)寄生蟲的歷史早于開源。自Linux或MySQL誕生之初,就有一些公司從他人的貢獻(xiàn)中獲利。例如,最近在Linux中,Rocky Linux和Alma Linux都承諾與Red Hat Enterprise Linux(RHEL)實(shí)現(xiàn)“bug對(duì)bug的兼容性”,而對(duì)Red Hat的成功沒有任何貢獻(xiàn)。事實(shí)上,這兩個(gè)RHEL克隆成功的自然結(jié)論是消滅它們的宿主,導(dǎo)致它們自己的滅亡,這就是為什么Linux領(lǐng)域有人稱它們?yōu)殚_源界的“別有用心之人(dirtbag)”。
也許這句話可以表達(dá)很多意思,但你明白其潛臺(tái)詞。這與曾經(jīng)面向AWS上提出的批評(píng)相同(一種日益失去相關(guān)性的“剝離采礦”批評(píng)),并引發(fā)了許多關(guān)于開源許可、商業(yè)模式以及開源可持續(xù)性的長期討論。
當(dāng)然,開源從未如此強(qiáng)大。不過,單獨(dú)的開源項(xiàng)目的健康程度各不相同。一些項(xiàng)目(和項(xiàng)目維護(hù)者)已經(jīng)想出了如何管理社區(qū)內(nèi)的“接受者”;其他人則沒有。然而,作為一種趨勢,開源的重要性和實(shí)力還是不斷增長。
2、當(dāng)所有知識(shí)都被倒入機(jī)器
像摩根大通這樣的大型企業(yè)正在花費(fèi)數(shù)十億美元,雇傭1000多名數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師等,以推動(dòng)個(gè)性化、分析等領(lǐng)域產(chǎn)生對(duì)應(yīng)價(jià)值的影響。盡管許多企業(yè)一直不愿公開接受像ChatGPT這樣的東西,但現(xiàn)實(shí)情況是,他們的開發(fā)人員已經(jīng)在使用LLM來提高生產(chǎn)力。
這些收益的代價(jià)現(xiàn)在才剛剛變得清晰起來。也就是說,像Stack Overflow這樣的公司的成本,歷來是生產(chǎn)力提高的來源。
就像Similarweb詳述地那樣,自2022年1月以來,Stack Overflow的流量平均每月下降6%,2023年3月急劇下降13.9%。將這種下降歸咎于ChatGPT和其他GenAI驅(qū)動(dòng)的工具可能過于簡單,但如果認(rèn)為它們沒有參與其中,那也過于天真。
只要問問Intentional.io的創(chuàng)始人、Stack Overflow 排名前2%的用戶Peter Nixey就明白了。他的答案已經(jīng)惠及逾170萬名開發(fā)人員。盡管他在Stack Overflow上表現(xiàn)突出,但Nixey說,“我不太可能再在那里寫任何東西了。為什么?因?yàn)橄馛hatGPT這樣的LLM可能會(huì)耗盡Stack Overflow上的知識(shí)庫。
“當(dāng)我們停止將知識(shí)匯集在一起,而是直接將其倒入機(jī)器中時(shí),會(huì)發(fā)生什么?”Nixey提出了這樣的問題。他所說的“機(jī)器”指的是ChatGPT等GenAI工具。
例如,從像GitHub Copilot這樣的AI工具中獲得答案的確很棒,該工具在GitHub存儲(chǔ)庫,Stack Overflow Q&A等上面進(jìn)行了訓(xùn)練。但是區(qū)別于Stack Overflow,這些問題是私下里問的,不會(huì)產(chǎn)生公共信息存儲(chǔ)庫。
Nixey據(jù)此發(fā)出了靈魂一問:“如果說GPT-4(在Stack Overflow上)接受了2021年之前所有問題的訓(xùn)練,那么GPT-6將在什么上面進(jìn)行訓(xùn)練?”
3、問題所在:單向的高速公路
看到問題所在了嗎?這不是小事,而且它可能比我們?cè)陂_源領(lǐng)域經(jīng)歷過的討價(jià)還價(jià),更為嚴(yán)重。
“如果這種模式在其他地方復(fù)制,我們的集體知識(shí)的方向從外向到人類轉(zhuǎn)到向內(nèi)進(jìn)入機(jī)器,那么我們對(duì)它的依賴將取代我們以前對(duì)機(jī)器的所有依賴?!盢ixey如此說道。委婉地說,這是一個(gè)問題。他強(qiáng)調(diào)說:“就像快速增長的COVID-19變種一樣,人工智能將僅僅憑借增長而成為知識(shí)的主要來源?!叭绻覀円許tack Overflow為例,曾經(jīng)屬于我們的人類知識(shí)庫可能會(huì)被簡化為模型內(nèi)部的權(quán)重。”
這其中牽涉到很多利害關(guān)系,而不僅僅是不斷流入人工智能的大量現(xiàn)金。我們還需要評(píng)估像ChatGPT這樣的東西生成的信息的相對(duì)價(jià)值。
值得一提的是,Stack Overflow 在2022年12月禁止了ChatGPT派生的答案,因?yàn)樗鼈兾谋救唛L、信息貧乏?!坝捎趶腃hatGPT獲得正確答案的平均比率太低,發(fā)布ChatGPT創(chuàng)建的答案對(duì)網(wǎng)站以及尋找正確答案的用戶造成了極大的傷害?!?/p>
像ChatGPT這樣的東西并不是為了產(chǎn)生正確的信息而設(shè)計(jì)的,而只是簡單的符合數(shù)據(jù)模式的概率信息。換言之,開源可能充滿了“dirtbag”,但如果沒有穩(wěn)定的良好的訓(xùn)練數(shù)據(jù)流,LLM可能會(huì)簡單地用垃圾信息來補(bǔ)充自己,變得不那么有用。
整體而言,這并不是貶低LLM和GenAI的承諾。與開源、出版商等一樣,我們可以感謝OpenAI和其他公司幫助我們利用集體制作的信息,同時(shí)仍然為Reddit等貢獻(xiàn)者歡呼,因?yàn)樗麄兤谕麨樗麄兯缪莸慕巧顿M(fèi)。開源經(jīng)歷了它的許可戰(zhàn),看起來我們將在GenAI的世界里遇到類似的事件,不過其后果將影響更廣、更加不可預(yù)估。
參考鏈接:https://www.infoworld.com/article/3697733/chatgpt-s-parasitic-machine.html






