OpenAI大呼冤枉，稱《紐約時(shí)報(bào)》說法片面，吳恩達(dá)也為其發(fā)聲

作者：機(jī)器之心 2024-01-09 15:04:10

OpenAI 在博客最后表示，《紐約時(shí)報(bào)》的訴訟毫無根據(jù)。他們?nèi)韵Ｍc《紐約時(shí)報(bào)》建立建設(shè)性的合作關(guān)系，并尊重其悠久的歷史。

2023 年年底，《紐約時(shí)報(bào)》拿出了強(qiáng)有力的證據(jù)起訴微軟與 OpenAI。根據(jù)多家科技公司的首席法律顧問 Cecilia Ziniti 的分析，《紐約時(shí)報(bào)》獲勝的概率極大。

機(jī)器學(xué)習(xí)領(lǐng)域著名學(xué)者吳恩達(dá)針對(duì)這件事連發(fā)兩條推文說明了自己的觀點(diǎn)。在他的第一條推文中，表達(dá)對(duì) OpenAI 和微軟的同情。他懷疑很多重復(fù)的文章實(shí)際是通過類似于 RAG（檢索增強(qiáng)生成）的機(jī)制產(chǎn)生的，而非僅僅依賴模型訓(xùn)練的權(quán)重。

來源：https://twitter.com/AndrewYNg/status/1744145064115446040

不過，吳恩達(dá)的推測(cè)被也遭到了反駁。紐約大學(xué)教授 Gary Marcus 表示在視覺生成領(lǐng)域的「抄襲」和 RAG 毫不相干。

今天，吳恩達(dá)再次發(fā)布推文，對(duì)上一條的說法進(jìn)行了新的說明。他明確指出，任何公司未經(jīng)許可或沒有合理的使用理由就大規(guī)模復(fù)制他人版權(quán)內(nèi)容是不對(duì)的。但他認(rèn)為 LLM 只有在罕見的情況下，才會(huì)根據(jù)特定的提示「反芻」。而一般的普通用戶幾乎不會(huì)采用這些特定的提示。關(guān)于通過特定的方式提示 GPT-4 可以復(fù)制《紐約時(shí)報(bào)》的文本，吳恩達(dá)也表示這種情況很少發(fā)生。他補(bǔ)充道，ChatGPT 的新版本似乎已經(jīng)將這個(gè)漏洞進(jìn)行改善了。

來源：https://twitter.com/AndrewYNg/status/1744433663969022090

當(dāng)嘗試復(fù)制訴訟中看起來最糟糕的版權(quán)侵犯例子時(shí)，例如嘗試使用 ChatGPT 繞過付費(fèi)墻，或獲取 Wirecutter 的結(jié)果時(shí)，吳恩達(dá)發(fā)現(xiàn)這會(huì)觸發(fā) GPT-4 的網(wǎng)絡(luò)瀏覽功能。這表明，這些例子中可能涉及了 RAG。GPT-4 可以瀏覽網(wǎng)頁下載額外信息以生成回應(yīng)，例如進(jìn)行網(wǎng)頁搜索或下載特定文章。他認(rèn)為，在訴訟中這些例子被突出展示，會(huì)讓人們誤以為是 LLM 在《紐約時(shí)報(bào)》文本上的訓(xùn)練直接導(dǎo)致了這些文本被復(fù)制，但如果涉及 RAG，那么這些復(fù)制例子的根本原因并非 LLM 在《紐約時(shí)報(bào)》文本上訓(xùn)練。

既然有兩種觀點(diǎn)，我們已經(jīng)看過了《紐約時(shí)報(bào)》的「聲討」，OpenAI 對(duì)這件事情到底是怎樣的看法，有怎樣的回應(yīng)，我們一起來看看吧。

博客地址：https://openai.com/blog/openai-and-journalism

OpenAI 申明立場(chǎng)

OpenAI 表示，他們的目標(biāo)是開發(fā)人工智能工具，讓人們有能力解決那些遙不可及的問題。他們的技術(shù)正在被世界各地的人使用來改善日常生活。

OpenAI 不同意《紐約時(shí)報(bào)》訴訟中的說法，但認(rèn)為這是一個(gè)闡明公司業(yè)務(wù)、意圖和技術(shù)構(gòu)建方式的機(jī)會(huì)。他們將自己的立場(chǎng)概括為以下四點(diǎn)：

與新聞機(jī)構(gòu)合作并創(chuàng)造新機(jī)會(huì)；
訓(xùn)練是合理使用，但需要提供退出的選項(xiàng)；
「復(fù)述」是一個(gè)罕見的錯(cuò)誤，OpenAI 正在努力將其減少到零；
《紐約時(shí)報(bào)》的講述并不完整。

關(guān)于這四點(diǎn)內(nèi)容具體如何，OpenAI 在博客中也進(jìn)行了詳細(xì)說明。

OpenAI 與新聞機(jī)構(gòu)合作并創(chuàng)造新機(jī)會(huì)

OpenAI 在技術(shù)設(shè)計(jì)過程中努力支持新聞機(jī)構(gòu)。他們與多家媒體機(jī)構(gòu)及領(lǐng)先行業(yè)組織會(huì)面，討論需求并提供解決方案。OpenAI 的目標(biāo)是學(xué)習(xí)、教育、傾聽反饋，并進(jìn)行適應(yīng)，支持健康的新聞生態(tài)系統(tǒng)，創(chuàng)造互利的機(jī)會(huì)。

他們與新聞機(jī)構(gòu)建立了伙伴關(guān)系：
來幫助記者和編輯處理大量繁瑣的、耗時(shí)的工作等等；
在此基礎(chǔ)上，OpenAI 可以通過對(duì)更多歷史、非公開內(nèi)容的訓(xùn)練，讓 AI 模型了解世界；
在 ChatGPT 中顯示實(shí)時(shí)內(nèi)容并注明出處，為新聞出版商提供與讀者聯(lián)系的新方式。

訓(xùn)練是合理使用

但需要提供退出的選項(xiàng)

使用公開可用的互聯(lián)網(wǎng)材料訓(xùn)練 AI 模型是合理的，這一點(diǎn)是被長期且廣泛接受的，并得到了支持。這些支持來自廣泛的學(xué)者、圖書館協(xié)會(huì)、民間社會(huì)團(tuán)體、初創(chuàng)企業(yè)、領(lǐng)先的美國公司、創(chuàng)作者、作者等，他們都同意將 AI 模型訓(xùn)練視為合理使用。在歐盟、日本、新加坡和以色列，也有允許在受版權(quán)保護(hù)的內(nèi)容上訓(xùn)練模型的法律。這是人工智能創(chuàng)新、進(jìn)步和投資的優(yōu)勢(shì)。

OpenAI 表示，他們?cè)?AI 行業(yè)中率先提供了一個(gè)簡單的退出流程，而《紐約時(shí)報(bào)》在 2023 年 8 月就采用了這一程序，以防止 OpenAI 的工具訪問他們的網(wǎng)站。

「復(fù)述」是一個(gè)罕見的錯(cuò)誤

OpenAI 正在努力將其減少到零

「復(fù)述」是 AI 訓(xùn)練過程中的罕見故障。如果當(dāng)特定內(nèi)容在訓(xùn)練數(shù)據(jù)中出現(xiàn)不止一次時(shí)，比如同一篇內(nèi)容被不同的網(wǎng)站反復(fù)轉(zhuǎn)發(fā)，AI 模型的「復(fù)述」就比較常見了。因此，OpenAI 采取了一些措施來防止在模型輸出中出現(xiàn)重復(fù)內(nèi)容。

學(xué)習(xí)概念，再將其應(yīng)用于新問題使人類常見的思維模式，OpenAI 在設(shè)計(jì) AI 模型時(shí)也遵循了這個(gè)原理，他們希望 AI 模型能夠吸取來自世界各地的新鮮信息。由于模型的「學(xué)習(xí)資料」是所有人類知識(shí)的集合，來自新聞方面的訓(xùn)練數(shù)據(jù)只是其中的冰山一角，任何單一的數(shù)據(jù)源，包括《紐約時(shí)報(bào)》，對(duì)模型的學(xué)習(xí)行為都沒有意義。

《紐約時(shí)報(bào)》的講述并不完整

去年 12 月 19 日，OpenAI 與《紐約時(shí)報(bào)》為達(dá)成合作進(jìn)行了順利的談判。談判的重點(diǎn)為 ChatGPT 將在回答中實(shí)時(shí)顯示引用來源，《紐約時(shí)報(bào)》也將通過這種方式與和新讀者建立聯(lián)系。當(dāng)時(shí) OpenAI 就已經(jīng)向《紐約時(shí)報(bào)》解釋，他們的內(nèi)容對(duì)的現(xiàn)有模型的訓(xùn)練沒有實(shí)質(zhì)性貢獻(xiàn)，也不會(huì)涉及未來的模型訓(xùn)練。

《紐約時(shí)報(bào)》拒絕向 OpenAI 分享任何 GPT「涉嫌抄襲」其報(bào)道的示例。在 7 月，OpenAI 已經(jīng)提供了解決問題的誠意，在得知 ChatGPT 可能意外復(fù)制實(shí)時(shí)網(wǎng)頁上的內(nèi)容后，他們立即下架了有關(guān)內(nèi)容。

然而《紐約時(shí)報(bào)》提供的「抄襲行為」似乎都是多年前的文章。這些文章已在多個(gè)第三方網(wǎng)站被廣泛地轉(zhuǎn)發(fā)和傳播。OpenAI 認(rèn)為，《紐約時(shí)報(bào)》有可能故意操縱了提示詞，他們可以輸入大段「被抄襲」的文章的節(jié)選，誘導(dǎo) AI 做出和原文重復(fù)度高的回答。即使使用了這樣的提示詞，OpenAI 的模型通常不會(huì)出現(xiàn)申訴書中重復(fù)率如此之高的情況。因此，OpenAI 猜測(cè)《紐約時(shí)報(bào)》要么操縱了提示詞，要么就是在反復(fù)試驗(yàn)中精心挑選出了「范例」。

這種多次重復(fù)的多輪對(duì)話，違反了用戶使用條款。OpenAI 正在不斷提高系統(tǒng)的抗逆性，以抵御反芻訓(xùn)練數(shù)據(jù)的惡意攻擊，并在最近取得了很大進(jìn)展。

這場(chǎng)爭論最后到底會(huì)產(chǎn)生怎樣的結(jié)果，對(duì)于人工智能未來的發(fā)展至關(guān)重要。它可能阻礙 AI 模型的訓(xùn)練，也可能探索出新的 AI 與各企業(yè)協(xié)同發(fā)展的道路。

責(zé)任編輯：張燕妮來源：機(jī)器之心