用戶聊天內(nèi)容不能白用,Reddit將向OpenAI等收費
4月19日消息,微軟?、谷歌?和OpenAI?一直在利用Reddit論壇上的用戶聊天數(shù)據(jù)來開發(fā)新的人工智能系統(tǒng)?,F(xiàn)在,Reddit打算向這些公司收取使用費。
Reddit一直是互聯(lián)網(wǎng)上熱門話題的討論集中地,每天有大約5700萬人訪問這個網(wǎng)站討論各種話題,包括化妝技巧、電子游戲到自動洗車機等等。
近年來,Reddit論壇上的聊天內(nèi)容已成為谷歌、OpenAI和微軟等公司的免費訓練工具,用于開發(fā)人工智能系統(tǒng)。現(xiàn)在,許多業(yè)內(nèi)人士認為,這些人工智能系統(tǒng)將成為科技行業(yè)的下一個大事件。
因此,Reddit打算向開發(fā)人工智能技術(shù)的公司收費。許多公司都通過應用程序編程接口(API)下載并處理論壇上的聊天內(nèi)容。周二,Reddit表示計劃開始向使用API的公司收費。
Reddit創(chuàng)始人兼首席執(zhí)行官史蒂夫·霍夫曼(Steve Huffman)在接受采訪時表示:“Reddit的數(shù)據(jù)庫確實很有價值,我們沒有必要免費提供這些價值給世界上最大的公司?!?/p>
Reddit此舉是社交網(wǎng)絡首次明確向OpenAI等收取費用開放訪問權(quán),用于開發(fā)像ChatGPT這樣的人工智能系統(tǒng)。ChatGPT等新人工智能系統(tǒng)可能有一天會成為大企業(yè),但對Reddit等公司的幫助不大。相反,這些人工智能系統(tǒng)還可以自動生成聊天內(nèi)容,成為Reddit的競爭對手。
Reddit正在為今年可能上市做準備,該公司成立于2005年,目前主要依賴平臺廣告和電商交易進行盈利。Reddit方面表示,正在敲定API接口的收費細節(jié),并將在未來幾周內(nèi)公布價格。
如今,大型語言模型已成為開發(fā)人工智能新技術(shù)的重要組成部分,Reddit論壇上的用戶聊天內(nèi)容也成了有價值的商品。
谷歌人工智能聊天機器人Bard的底層算法之一就是用Reddit聊天數(shù)據(jù)訓練的。同時,OpenAI的ChatGPT也將Reddit的數(shù)據(jù)作為訓練大型語言模型的信息之一。
除此之外,其他公司也開始意識到平臺上所存儲的聊天內(nèi)容和圖片的價值。圖片托管服務Shutterstock已經(jīng)把圖像數(shù)據(jù)出售給OpenAI,幫助開發(fā)了能夠根據(jù)簡單文字提示就能生成圖像的人工智能系統(tǒng)DALL-E。
目前,有幾千家公司和大小開發(fā)者都在使用API跟蹤推特平臺上的幾百萬條聊天內(nèi)容。上個月,個人社交媒體平臺推特所有者埃隆·馬斯克(Elon Musk)表示,他正在改變使用推特API的現(xiàn)行方式,要為使用API收取幾萬到幾十萬不等的費用。不過馬斯克沒有提到大型語言模型是促使他做出改變的原因。
為了不斷改進模型,人工智能企業(yè)需要兩個重要因素:強大的計算能力和大量可用的數(shù)據(jù)。一些大型人工智能開發(fā)企業(yè)通常擁有足夠的算力,但仍會在互聯(lián)網(wǎng)上尋找改進算法所需的數(shù)據(jù)。其中包括維基百科、各種數(shù)字化書籍、學術(shù)文章和Reddit論壇上的聊天內(nèi)容等資源。
谷歌、OpenAI和微軟等公司目前尚未對Reddit計劃收費的事宜作出回應。
很長一段時間以來,Reddit與谷歌和必應等搜索引擎一直是相互依存的關(guān)系。它們自動獲取Reddit網(wǎng)頁信息,進行索引,然后將相關(guān)信息展示在搜索結(jié)果頁面中。雖然這種自動抓取方式不見得受到所有網(wǎng)站的歡迎,但是Reddit卻能因此在搜索結(jié)果中排名靠前。
而大型語言模型則完全不同,它需要盡可能多地獲取數(shù)據(jù),這樣才能創(chuàng)建新的人工智能系統(tǒng)。
Reddit認為,它的論壇數(shù)據(jù)特別有價值,因為它不斷更新。霍夫曼表示,這種新鮮度和相關(guān)性正是大型語言模型算法生成最佳結(jié)果所需要的東西。
“Reddit比互聯(lián)網(wǎng)上任何其他地方都更適合聊天,”霍夫曼說?!熬W(wǎng)站上有很多內(nèi)容是你只會私下里說的,或者壓根就不會說的東西?!?/p>
霍夫曼還強調(diào),對于想要開發(fā)幫助人們使用Reddit的應用程序開發(fā)者來說,API仍然是免費的。比如開發(fā)者可以免費使用API等工具來開發(fā)機器人,自動跟蹤用戶評論是否遵守了內(nèi)容發(fā)布規(guī)則。出于學術(shù)研究或非商業(yè)目的來研究Reddit數(shù)據(jù)的人也能繼續(xù)免費訪問這些數(shù)據(jù)。
Reddit還希望將更多機器學習融入論壇運營,例如,Reddit可以用機器學習來識別平臺上人工智能生成文本的使用情況,并為其添加標簽,告知用戶哪些評論是來自機器人。Reddit還承諾改進供論壇版主使用的軟件工具,幫助他們監(jiān)控論壇上的第三方機器人。
但對于人工智能制造商來說,Reddit認為是時候付費了。
“通過抓取Reddit的數(shù)據(jù)來創(chuàng)造價值,卻不向我們的用戶返利,這是我們自己的問題,”霍夫曼說?!艾F(xiàn)在是我們加強管理的好時機?!保ǔ匠剑?/p>