自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI、谷歌雙標(biāo)玩得溜:訓(xùn)練大模型用他人數(shù)據(jù),卻決不允許自身數(shù)據(jù)外流

人工智能 新聞
你的就是我的,我的還是我的。

在生成式 AI 盛行的全新時(shí)代,大型科技公司在使用在線內(nèi)容時(shí)正在奉行「照我說(shuō)的做,而不是做我所做的」策略。在一定程度上,這種策略可以說(shuō)是一種雙標(biāo)以及話語(yǔ)權(quán)的濫用。

同時(shí),隨著大語(yǔ)言模型(LLM)成為 AI 發(fā)展的主流趨勢(shì),無(wú)論是大型還是初創(chuàng)公司,都在不遺余力地開(kāi)發(fā)自己的大模型。其中訓(xùn)練數(shù)據(jù)是大模型能力好壞的重要前提。

近日,根據(jù) Insider 的報(bào)道,微軟支持的 OpenAI、谷歌及其支持的 Anthropic 多年來(lái)一直在使用其他網(wǎng)站或公司的在線內(nèi)容來(lái)訓(xùn)練他們的生成式 AI 模型。這些都是在沒(méi)有征求具體許可的情況下完成的,并將構(gòu)成一場(chǎng)醞釀中的法律斗爭(zhēng)的一部分,決定了網(wǎng)絡(luò)的未來(lái)以及版權(quán)法在這一新時(shí)代的應(yīng)用方式。

圖片

這些大型科技公司可能會(huì)爭(zhēng)辯說(shuō)他們是合理使用,是否真的如此有待商榷。但是他們卻不會(huì)讓自己的內(nèi)容被用來(lái)訓(xùn)練其他 AI 模型。所以不禁要問(wèn),為什么這些大型科技公司卻能在訓(xùn)練大模型時(shí)使用其他公司的在線內(nèi)容呢?

這些公司很聰明,但也非常虛偽

大型科技公司使用他人在線內(nèi)容卻不允許他人使用自己的,這種說(shuō)法是否有確切證據(jù),這可以從他們一些產(chǎn)品的服務(wù)和使用條款中看出端倪。

首先來(lái)看 Claude,它是 Anthropic 推出的類似于 ChatGPT 的 AI 助手。該系統(tǒng)可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問(wèn)答、編碼等任務(wù)。前段時(shí)間再次升級(jí),將上下文 token 擴(kuò)展到了 100k,處理速度大大加快。

圖片

Claude 的服務(wù)條款是這樣的。你不得以下列方式(這里列舉出部分)訪問(wèn)或使用本服務(wù),如果這些限制的任何一項(xiàng)與可接受使用政策不一致或不明確,則以后者依從為先:

  • 開(kāi)發(fā)與我們的服務(wù)競(jìng)爭(zhēng)的任何產(chǎn)品或服務(wù),包括開(kāi)發(fā)或訓(xùn)練任何 AI 或機(jī)器學(xué)習(xí)算法或模型
  • 未經(jīng)條款允許,從我們的服務(wù)中抓取、爬取或以任何其他方式獲取數(shù)據(jù)或信息

Claude 服務(wù)條款地址:https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms

同樣地,谷歌的生成式 AI 使用條款也是如此,「你不得使用本服務(wù)來(lái)開(kāi)發(fā)機(jī)器學(xué)習(xí)模型或相關(guān)技術(shù)。」

圖片

谷歌生成式 AI 使用條款地址:https://policies.google.com/terms/generative-ai

OpenAI 的使用條款又怎樣呢?與谷歌類似,「你不得使用本服務(wù)的輸出來(lái)開(kāi)發(fā)與 OpenAI 競(jìng)爭(zhēng)的模型。」

圖片

OpenAI 使用條款地址:https://openai.com/policies/terms-of-use

這些公司很聰明,他們知道高質(zhì)量的內(nèi)容對(duì)于訓(xùn)練新的 AI 模型至關(guān)重要,所以不允許別人用這樣的方式使用他們的輸出也是合情合理的。但他們卻無(wú)所顧忌地利用他人數(shù)據(jù)來(lái)訓(xùn)練自己的模型,這又該如何解釋呢?

目前,OpenAI、谷歌和 Anthropic 拒絕了 Insider 的置評(píng)請(qǐng)求,并且沒(méi)有做出任何回應(yīng)。

Reddit、推特和其他公司:受夠了

實(shí)際上,其他公司意識(shí)到正在發(fā)生的事情時(shí)并不高興。今年 4 月,多年來(lái)一直被用于 AI 模型訓(xùn)練的 Reddit 計(jì)劃開(kāi)始對(duì)其數(shù)據(jù)的訪問(wèn)收費(fèi)。

Reddit 首席執(zhí)行官 Steve Huffman 表示,「Reddit 的數(shù)據(jù)語(yǔ)料庫(kù)非常有價(jià)值,因此我們不能把這些價(jià)值免費(fèi)提供給世界上最大的公司?!?/span>

同樣今年 4 月,馬斯克指責(zé) OpenAI 的主要支持者微軟非法使用 Twitter 的數(shù)據(jù)來(lái)訓(xùn)練 AI 模型。「訴訟時(shí)間到」,他在推特上寫(xiě)道。

圖片

不過(guò)在回復(fù) Insider 的置評(píng)時(shí),微軟表示「這個(gè)前提有太多的錯(cuò)誤,我甚至不知道從何說(shuō)起?!?/span>

OpenAI 首席執(zhí)行官 Sam Altman 試圖通過(guò)探索尊重版權(quán)的全新 AI 模型來(lái)深化這個(gè)問(wèn)題。據(jù) Axios 報(bào)道,他于近期表示,「我們正在嘗試開(kāi)發(fā)新的模式,如果 AI 系統(tǒng)使用了你的內(nèi)容,或者使用了你的風(fēng)格,你就會(huì)因此獲得報(bào)酬?!?/span>

圖片

Sam Altman

出版商(包括 Insider)都會(huì)是既得利益獲得者。此外,包括美國(guó)新聞集團(tuán)在內(nèi)的一些出版商已經(jīng)在推動(dòng)科技公司付費(fèi)使用其內(nèi)容訓(xùn)練 AI 模型。

目前 AI 模型的訓(xùn)練方式「打破」了網(wǎng)絡(luò)

有前微軟高管表示這一定有問(wèn)題。微軟老將、著名軟件開(kāi)發(fā)者 Steven Sinofsky 認(rèn)為,目前 AI 模型的訓(xùn)練方式「打破」了網(wǎng)絡(luò)。

圖片

Steven Sinofsky

他在推特上寫(xiě)道,「過(guò)去,爬取數(shù)據(jù)是用來(lái)?yè)Q取點(diǎn)擊率的。但現(xiàn)在只是用來(lái)訓(xùn)練一個(gè)模型,沒(méi)有給創(chuàng)作者、版權(quán)所有者帶來(lái)任何價(jià)值。」

也許,隨著更多公司的覺(jué)醒,生成式 AI 時(shí)代這一不均衡的數(shù)據(jù)使用方式會(huì)很快被改變。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2018-06-13 10:08:05

蘋(píng)果數(shù)據(jù)開(kāi)發(fā)者

2023-08-22 20:43:09

HashMap單線程null

2022-05-31 11:17:14

單元化異地雙活

2022-05-08 18:18:40

JDKValueHashMap

2023-08-08 09:44:01

OpenAIGPT 模型

2010-11-02 15:08:40

設(shè)置db2主鍵

2014-06-30 14:53:49

Android定制google

2020-08-20 11:12:14

iOS 13.6蘋(píng)果降級(jí)

2023-12-09 14:30:50

2011-04-22 10:15:56

Novell專利

2022-01-27 07:02:52

JavaHashMap單線程

2009-06-18 10:47:44

java接口定義變量

2010-06-01 16:12:00

2011-03-01 14:12:12

FreebsdProftpd

2017-04-13 15:30:09

大數(shù)據(jù)動(dòng)向

2023-03-31 08:11:04

2010-05-20 13:03:52

IIS父路徑

2023-03-06 15:24:54

谷歌人才

2009-10-22 08:46:35

Windows 7中文版包裝

2009-09-22 15:54:42

CCIE筆試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)