字節(jié)GPT賬戶突遭凍結(jié),OpenAI:正在調(diào)查不當(dāng)行為
字節(jié)跳動,陷入大模型輿論風(fēng)波。
據(jù)The Verge報道:
字節(jié)跳動一直在秘密使用OpenAI的技術(shù),來開發(fā)自家大語言模型(LLM)。
而在此消息被披露不久,The Verge進一步稱OpenAI已經(jīng)暫停了字節(jié)跳動的賬戶。
具體而言,OpenAI發(fā)言人Niko Felix發(fā)布的聲明如下:
雖然字節(jié)跳動使用我們API的量很少,但我們已經(jīng)暫停了他們的賬戶,同時我們會進一步調(diào)查。
如果我們發(fā)現(xiàn)他們的使用不符合規(guī)則,我們將要求他們進行必要的更改或終止他們的帳戶。
這里提到的“規(guī)則”是指在OpenAI的服務(wù)條款中有一項明確的規(guī)定,那就是OpenAI提供的模型能力,不允許用來被“開發(fā)任何與之產(chǎn)品和服務(wù)形成競爭的 AI 模型”。
據(jù)了解,字節(jié)跳動是通過微軟購買的OpenAI訪問權(quán)限,但是微軟也制定了與OpenAI同樣的政策。
The Verge表示正在向微軟做進一步的咨詢,是否也會跟OpenAI采取同樣的措施暫停字節(jié)跳動的賬戶。
那么,此次的抄襲風(fēng)波具體是怎么一回事呢?
內(nèi)部文件被曝光
根據(jù)The Verge的說法,證據(jù)是來自字節(jié)跳動的一份內(nèi)部文件——海外版飛書Lark的聊天記錄。
這份文件表明,字節(jié)跳動在代號為“種子計劃”(Project Seed)基礎(chǔ)大語言模型項目中,幾乎是在每個開發(fā)階段都依賴OpenAI的API來進行開發(fā),包括訓(xùn)練和評估模型。
“種子計劃”是大約在一年前啟動,目前主要研發(fā)兩個產(chǎn)品,一個是在國內(nèi)已經(jīng)上線的Doubao;另一個是針對商業(yè)用戶的聊天機器人平臺,目前正在開發(fā)中。
據(jù)稱,參與“種子計劃”的員工是深知過度依賴OpenAI API的后果,于是他們就開始討論如何通過“數(shù)據(jù)脫敏”來粉飾證據(jù)。
以至于經(jīng)常會出現(xiàn)員工達到OpenAI API的最大訪問上限的情況。
更具體而言,字節(jié)跳動更多的是在“種子計劃”的早期階段使用了OpenAI的技術(shù)。
The Verge根據(jù)內(nèi)部文件表示,字節(jié)跳動大約是在幾個月前下達了“模型開發(fā)的任何階段停止使用 GPT 生成的文本”的命令。
不過也正是在這個時候,字節(jié)跳動發(fā)布了自家大語言模型Doubao。
但The Verge表示即便到了這個時候,字節(jié)跳動依舊沒有停止違規(guī)行為:
字節(jié)跳動繼續(xù)以違反OpenAI和微軟服務(wù)條款的方式使用 API,包括評估豆包背后模型的性能。
并且還表示一位對字節(jié)跳動內(nèi)部情況有一手消息的人指出:
他們說他們想確保一切都是合法的,但他們實際上只是不想被抓住把柄。
字節(jié)跳動已作回應(yīng)
在The Verge發(fā)出這篇報道之后,字節(jié)跳動發(fā)言人Jodi Seth做出了如下回應(yīng):
GPT 生成的數(shù)據(jù)在“種子計劃”的早期開發(fā)中用于注釋模型,并且在今年年中左右的時候已從字節(jié)跳動的訓(xùn)練數(shù)據(jù)中刪除。
字節(jié)跳動得到了微軟的授權(quán),可以使用GPT API。
我們在非中國市場利用GPT支持我們的產(chǎn)品;但在中國市場,則是使用我們自研的模型來支持Doubao。
微軟方面,發(fā)言人Frank Shaw則表示:
像Azure OpenAI服務(wù)這樣的Microsoft AI解決方案,屬于我們的有限訪問框架的一部分,意味著所有客戶都必須申請并得到 Microsoft 的批準(zhǔn)。
我們還制定了標(biāo)準(zhǔn),并提供資源幫助客戶負(fù)責(zé)任地使用這些技術(shù),并符合我們的服務(wù)條款。
我們有流程來檢測濫用,并在發(fā)現(xiàn)違反行為準(zhǔn)則的公司時,將停止他們的訪問權(quán)限。
量子位也在第一時間與字節(jié)跳動取得了聯(lián)系,但目前字節(jié)跳動并未做出正式回應(yīng)。