自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人類數(shù)據(jù)告急,微軟OpenAI開始用AI喂AI,奧特曼放話:未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)

人工智能
對于使用合成數(shù)據(jù),OpenAI的CEO Sam Altman不僅不介意,還放話“未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)”。估值20億美元的大模型初創(chuàng)公司Cohere同樣在用合成數(shù)據(jù)。公司CEO、經(jīng)典大模型Transformer論文作者之一Aidan Gomez甚至認為。

人類數(shù)據(jù)缺缺缺,AI被迫開始吃AI生產(chǎn)的數(shù)據(jù)了!

這是微軟、OpenAI等一眾AI前沿公司面臨的現(xiàn)狀。

他們從維基百科、電子書、新聞網(wǎng)站、博客、推特和Reddit等平臺和論壇中搜羅了大量數(shù)據(jù),然后現(xiàn)在……這些數(shù)據(jù)快被用完了。

BUT,要訓(xùn)練更好的大模型,多少數(shù)據(jù)都不夠。

據(jù)《金融時報》介紹,不少公司正把大模型生成的結(jié)果、也就是所謂的合成數(shù)據(jù)(Synthetic data),喂給參數(shù)量更小的大模型吃,發(fā)現(xiàn)效果還不錯。

對于使用合成數(shù)據(jù),OpenAI的CEO Sam Altman不僅不介意,還放話“未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)”。

估值20億美元的大模型初創(chuàng)公司Cohere同樣在用合成數(shù)據(jù)。公司CEO、經(jīng)典大模型Transformer論文作者之一Aidan Gomez甚至認為:

合成數(shù)據(jù)可能加速通往“超級智能”AI系統(tǒng)的道路。

所以,究竟哪些大模型已經(jīng)在用合成數(shù)據(jù)了,這些合成數(shù)據(jù)又是從何而來?

大AI合成數(shù)據(jù),小AI吃

這些所謂的合成數(shù)據(jù),本質(zhì)上是用當前表現(xiàn)較好的大模型生成的數(shù)據(jù),經(jīng)過人工調(diào)整后,再喂給稍微小一點的大模型。

例如Cohere公司就嘗試使用了兩個大模型進行“角色扮演”對話,并將它們生成的結(jié)果做成合成數(shù)據(jù)。

這兩個大模型分別扮演“數(shù)學(xué)老師”和“學(xué)生”,正在進行一堂虛擬的數(shù)學(xué)教學(xué)。同時,Cohere安排一個人類員工在旁邊監(jiān)督對話生成。

圖片圖片

一旦對話出現(xiàn)錯誤,人類員工就會插手對文本進行修正。

盡管確實還需要人力,但這比聘請科學(xué)、醫(yī)學(xué)和商業(yè)方面的專家來撰寫文本要便宜得多。

那么,什么樣的大模型會用到這些合成數(shù)據(jù)呢?

微軟研究院最近有研究表明,合成數(shù)據(jù)可以用于訓(xùn)練比GPT-4或PaLM-2稍微小一點的語言模型。

以用GPT-4生成的一個“四歲兒童小說”數(shù)據(jù)集TinyStories為例,這個數(shù)據(jù)集被證明雖然只包含4歲小孩能理解的單詞,但用于訓(xùn)練一個大模型之后,同樣可以生成語法正確、閱讀體驗流暢的故事:

圖片圖片

對于使用合成數(shù)據(jù)的理由,Cohere的CEO Aidan Gomez認為:

能從網(wǎng)上獲取數(shù)據(jù)當然更好,但網(wǎng)絡(luò)數(shù)據(jù)太雜亂了,完全無法滿足需求。相比之下,合成數(shù)據(jù)已經(jīng)非常多了,即使它還沒被廣泛傳播。

背后產(chǎn)業(yè)鏈已出現(xiàn)

目前,包括Scale AI、Gretel.ai等企業(yè),已經(jīng)開始給外界提供合成數(shù)據(jù)服務(wù)。

先是Scale AI,旗下就推出了一款合成數(shù)據(jù)產(chǎn)品Scale Synthetic,用于給企業(yè)提供合成數(shù)據(jù)服務(wù)。

而在之前一篇SemiAnalysis爆料GPT-4“大花邊”的新聞中,還提到GPT-4的數(shù)據(jù)集中,有數(shù)百萬行是來自Scale AI和內(nèi)部的指令微調(diào)數(shù)據(jù)。

圖片圖片

至于合成數(shù)據(jù)平臺Gretel.ai,從官網(wǎng)來看,它已經(jīng)和谷歌、拳頭游戲、匯豐銀行等不同企業(yè)進行了合作,以生成更多合成的數(shù)據(jù)提供給其他開發(fā)者使用。

圖片圖片

Gretel.ai的CEO Ali Golshan認為,合成數(shù)據(jù)的好處在于,它保留了數(shù)據(jù)集中所有個人的隱私,同時仍然保持其統(tǒng)計學(xué)意義上的完整性(statistical integrity)。

但并非所有人都接受合成數(shù)據(jù)這種“神奇操作”,目前各方的看法主要分成兩波。

一部分贊同使用合成數(shù)據(jù)。包括Cohere等AI公司在內(nèi),有不少搞大模型的企業(yè)仍然堅持這一做法,并認為它可能生成更好的AI,甚至從中誕生出“超級智能”。

另一部分則認為,合成數(shù)據(jù)終將讓AI“自食其果”。

例如一篇來自牛津大學(xué)、劍橋大學(xué)、帝國理工學(xué)院、多倫多大學(xué)、愛丁堡大學(xué)和Vector Institute多家機構(gòu)的研究表明:

使用合成數(shù)據(jù)訓(xùn)練,會讓模型出現(xiàn)不可逆轉(zhuǎn)的缺陷:

忘記那些“不可能發(fā)生的事件”,最終被自己生成的數(shù)據(jù)毒害。

圖片圖片

有網(wǎng)友認為,這些合成數(shù)據(jù)最后會變成一灘“無法使用的污泥”——然后人們不得不被迫雇傭數(shù)據(jù)科學(xué)家來對它進行清洗。

圖片圖片

還有網(wǎng)友調(diào)侃,這聽起來就像是“AI近親繁殖”一樣。

圖片圖片

你認為AI需要使用合成數(shù)據(jù)嗎?

參考鏈接:
[1]https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de
[2]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
[3]https://arxiv.org/pdf/2306.11644.pdf
[4]https://arxiv.org/pdf/2305.17493v2.pdf

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2022-06-13 11:18:08

合成數(shù)據(jù)AIML

2023-08-01 15:46:18

數(shù)據(jù)

2022-08-11 08:00:00

機器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2023-02-22 09:37:14

AI模型

2021-03-23 23:17:18

AI人工智能

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2024-01-16 14:23:32

大數(shù)據(jù)人工智能AI

2025-01-23 09:15:00

數(shù)據(jù)技術(shù)模型

2023-10-30 09:15:00

AI智能

2025-01-10 08:06:39

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2019-10-23 19:33:24

數(shù)據(jù)科學(xué)保護數(shù)據(jù)匿名化

2021-07-25 20:14:29

AI 數(shù)據(jù)人工智能

2023-11-02 13:35:00

訓(xùn)練模型

2025-01-06 08:47:00

2024-04-25 09:01:53

2023-12-06 11:24:02

2024-04-09 09:38:16

OpenAI模型

2022-02-21 13:57:47

人工智能小數(shù)據(jù)機器學(xué)習(xí)

2022-08-23 14:56:04

合成數(shù)據(jù)數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號