編譯丨諾亞
出品 | 51CTO技術棧(微信號:blog51cto)
久負盛名的開發(fā)者論壇Stack Overflow最近宣布其與OpenAI達成合作,ChatGPT 將使用 Stack Overflow 的數據,而 OpenAI 的模型也將應用于 OverflowAI。
消息一經傳出,就迎來了巨大聲浪。大量用戶強烈反對利用該網站的論壇帖子來訓練ChatGPT。很多人為了防止自己的問題和答案被用來訓練AI,紛紛選擇刪除或重新編輯這些內容,而這些行為卻招致了網站版主的封禁。
1.開發(fā)者自述:我試圖避免自己的勞動成果被竊取,卻被封號7天
Stack Overflow的一位用戶Ben在Mastodon平臺上詳細描述了自己的遭遇。他提到,為了避免自己的勞動成果被OpenAI竊取,他開始重新編輯過往的高分回答。
圖片
Ben解釋說,之前他投入了大量時間和精力在Stack Overflow上編寫詳盡且有用的回答,目的是幫助其他開發(fā)者解決問題并促進技術社區(qū)的成長。然而,得知自己的貢獻可能未經明確同意就被用來訓練像ChatGPT這樣的大模型時,他感到非常不安。
在他看來,這樣的數據使用不僅侵犯了用戶的原創(chuàng)權利,也可能導致AI生成的內容未來在互聯(lián)網上混淆視聽,進一步模糊原創(chuàng)與衍生內容之間的界限。
出于這些擔憂,Ben決定采取行動,開始系統(tǒng)性地審查和修改他在Stack Overflow上的高分答案,移除那些可能對AI模型訓練特別有價值的獨特見解和示例代碼。他盡量保留問題的核心信息,以便繼續(xù)為尋求幫助的人提供價值,但同時努力避免直接貢獻于一個他并不支持的技術發(fā)展方向。
遺憾的是,Ben和其他采取類似措施的用戶很快發(fā)現(xiàn),他們的這一行為并未得到Stack Overflow管理層的理解。相反,許多用戶因“破壞內容”或“濫用平臺”而遭到臨時或永久封禁。這種處理手段也引發(fā)了更多反彈。社區(qū)內關于版權、數據倫理及用戶權限的討論愈發(fā)激烈。
2.自毀還是自救?Stack Overflow“慷他人之慨”的背后真相
盡管很多人將Stack Overflow與OpenAI的合作視作自毀根基。但實際上Stack Overflow與人工智能之間的關系相當復雜。
首先,隨著代碼編輯期內AI輔助工具的普及,Stack Overflow的流量下降不可避免,同時社區(qū)活躍度的降低又必然會削弱其數據價值。其次,根據政策規(guī)定,使用生成式AI發(fā)布Stack Overflow答案是被禁止的。但禁令之下,依舊有大量貢獻者發(fā)布AI生成答案的情況,其中不乏資深成員。
而Stack Overflow與OpenAI 的合作一旦達成,OpenAI 將利用 OverflowAPI基于Stack Overflow的公共數據集來訓練其模型。公告中還暗示 OpenAI 支付了一筆可觀的金額,稱該協(xié)議將“使 Stack Overflow 能夠繼續(xù)投資于社區(qū)驅動的功能”。此外,由于GitHub Copilot 已采用 OpenAI 的技術和模型,因此這一合作很可能會增強 Copilot 編碼功能與 Stack Overflow 答案之間的集成。
由此可以看到,與OpenAI的合作至少能讓Stack Overflow收獲如下好處:
其一,資金支持:合作帶來的資金,有助于平臺的持續(xù)發(fā)展和社區(qū)功能的增強。
其二,技術進步:利用OpenAI的技術提升用戶體驗,例如通過集成到GitHub Copilot等工具。
其三,生態(tài)共建:一方面,OpenAI使用Stack Overflow的公共數據集來訓練模型,可以提升AI模型的準確性和實用性;另一方面,與OpenAI這樣的領頭羊合作,可以提升Stack Overflow在技術社區(qū)中的市場地位。
當然,從用戶的大片反對之聲中也可以看到:合作弊端也是顯而易見的。
首當其沖的就是版權和倫理問題。合作引發(fā)了關于版權、數據倫理和用戶權限的討論,大量用戶可能對使用他們的內容進行AI訓練感到不安。
另外一個爭議焦點則集中在對內容質量的擔憂上。本身Stack Overflow的社區(qū)標準和信任是建立在用戶之間的互動和對彼此貢獻的認可上。如果AI生成的內容大量涌入,可能會侵蝕這種標準,影響用戶參與度和社區(qū)的長期健康。更可怕的是,如果AI生成的內容被用于進一步訓練AI,可能會導致模型輸出的異常。久而久之,還可能導致用戶難以區(qū)分哪些內容是由人類專家編寫的,哪些是由AI生成的,從而影響用戶對Stack Overflow內容的信任度。
另外,從用戶利益考慮,不可回避的事實是:一些貢獻者擔心他們無法從與OpenAI的交易中獲益,或者希望選擇不讓自己的內容用于喂養(yǎng)AI答案。
最后,從Stack Overflow的立場來說亦有風險。通過與GitHub Copilot等服務的集成也可能減少開發(fā)者訪問需求,進一步加速Stack Overflow自身的衰落。
3.開源知識共享≠拿來即用:“推動技術進步”與“尊重創(chuàng)作者意愿”理應雙軌并行
從上述多種視角來看,很難說清Stack Overflow到底是窮途末路時的自掘根基還是絕地求生時的另辟蹊徑。
Stack Overflow 并非唯一一個為了利潤而改變其對AI原則立場的平臺。此前Valve公司也悄然解除了Steam上對AI生成式作品的禁令。在他們的官方博客中,Valve明確表示,開發(fā)者在發(fā)布游戲時可以使用AIGC但需要明確披露其中使用的人工智能技術。
Stack Overflow與OpenAI的合作也算順應時潮。OpenAI近期正在加速推動更多合作,諸多標志性交易的達成(比如他們與微軟共同宣布將斥資1000億美元建設數據中心)讓其生態(tài)圈的構建愈發(fā)順遂。
不過,Stack Overflow大量封號事件卻也暴露了開源知識共享與新興AI技術應用之間日益緊張的關系,也促使人們反思如何在促進技術進步的同時,更好地保護和尊重創(chuàng)作者的權利與意愿。
在聲勢浩大的AI市場中,對技術與利益的狂熱追逐固然令人興奮,但同時也應當有所節(jié)制。種種發(fā)展態(tài)勢一直在提醒我們,在擁抱技術革新帶來的機遇時,也需要謹慎考慮其雙面性,確??萍歼M步與可持續(xù)發(fā)展并行不悖。
參考鏈接:
https://www.tomshardware.com/tech-industry/artificial-intelligence/stack-overflow-bans-users-en-masse-for-rebelling-against-openai-partnership-users-banned-for-deleting-answers-to-prevent-them-being-used-to-train-chatgpt
https://devclass.com/2024/05/08/stack-overflow-signs-deal-with-openai/