自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="mlkpa"><track id="mlkpa"></track></cite>

<p id="mlkpa"><li id="mlkpa"></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

人類數(shù)據(jù)告急，微軟OpenAI開始用AI喂AI，奧特曼放話：未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)

2023-08-13 14:48:14

對于使用合成數(shù)據(jù)，OpenAI的CEO Sam Altman不僅不介意，還放話“未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)”。估值20億美元的大模型初創(chuàng)公司Cohere同樣在用合成數(shù)據(jù)。公司CEO、經(jīng)典大模型Transformer論文作者之一Aidan Gomez甚至認為。

人類數(shù)據(jù)缺缺缺，AI被迫開始吃AI生產(chǎn)的數(shù)據(jù)了！

這是微軟、OpenAI等一眾AI前沿公司面臨的現(xiàn)狀。

他們從維基百科、電子書、新聞網(wǎng)站、博客、推特和Reddit等平臺和論壇中搜羅了大量數(shù)據(jù)，然后現(xiàn)在……這些數(shù)據(jù)快被用完了。

BUT，要訓(xùn)練更好的大模型，多少數(shù)據(jù)都不夠。

據(jù)《金融時報》介紹，不少公司正把大模型生成的結(jié)果、也就是所謂的合成數(shù)據(jù)（Synthetic data），喂給參數(shù)量更小的大模型吃，發(fā)現(xiàn)效果還不錯。

對于使用合成數(shù)據(jù)，OpenAI的CEO Sam Altman不僅不介意，還放話“未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)”。

估值20億美元的大模型初創(chuàng)公司Cohere同樣在用合成數(shù)據(jù)。公司CEO、經(jīng)典大模型Transformer論文作者之一Aidan Gomez甚至認為：

合成數(shù)據(jù)可能加速通往“超級智能”AI系統(tǒng)的道路。

所以，究竟哪些大模型已經(jīng)在用合成數(shù)據(jù)了，這些合成數(shù)據(jù)又是從何而來？

大AI合成數(shù)據(jù)，小AI吃

這些所謂的合成數(shù)據(jù)，本質(zhì)上是用當前表現(xiàn)較好的大模型生成的數(shù)據(jù)，經(jīng)過人工調(diào)整后，再喂給稍微小一點的大模型。

例如Cohere公司就嘗試使用了兩個大模型進行“角色扮演”對話，并將它們生成的結(jié)果做成合成數(shù)據(jù)。

這兩個大模型分別扮演“數(shù)學(xué)老師”和“學(xué)生”，正在進行一堂虛擬的數(shù)學(xué)教學(xué)。同時，Cohere安排一個人類員工在旁邊監(jiān)督對話生成。

圖片

一旦對話出現(xiàn)錯誤，人類員工就會插手對文本進行修正。

盡管確實還需要人力，但這比聘請科學(xué)、醫(yī)學(xué)和商業(yè)方面的專家來撰寫文本要便宜得多。

那么，什么樣的大模型會用到這些合成數(shù)據(jù)呢？

微軟研究院最近有研究表明，合成數(shù)據(jù)可以用于訓(xùn)練比GPT-4或PaLM-2稍微小一點的語言模型。

以用GPT-4生成的一個“四歲兒童小說”數(shù)據(jù)集TinyStories為例，這個數(shù)據(jù)集被證明雖然只包含4歲小孩能理解的單詞，但用于訓(xùn)練一個大模型之后，同樣可以生成語法正確、閱讀體驗流暢的故事：

圖片

對于使用合成數(shù)據(jù)的理由，Cohere的CEO Aidan Gomez認為：

能從網(wǎng)上獲取數(shù)據(jù)當然更好，但網(wǎng)絡(luò)數(shù)據(jù)太雜亂了，完全無法滿足需求。相比之下，合成數(shù)據(jù)已經(jīng)非常多了，即使它還沒被廣泛傳播。

背后產(chǎn)業(yè)鏈已出現(xiàn)

目前，包括Scale AI、Gretel.ai等企業(yè)，已經(jīng)開始給外界提供合成數(shù)據(jù)服務(wù)。

先是Scale AI，旗下就推出了一款合成數(shù)據(jù)產(chǎn)品Scale Synthetic，用于給企業(yè)提供合成數(shù)據(jù)服務(wù)。

而在之前一篇SemiAnalysis爆料GPT-4“大花邊”的新聞中，還提到GPT-4的數(shù)據(jù)集中，有數(shù)百萬行是來自Scale AI和內(nèi)部的指令微調(diào)數(shù)據(jù)。

圖片

至于合成數(shù)據(jù)平臺Gretel.ai，從官網(wǎng)來看，它已經(jīng)和谷歌、拳頭游戲、匯豐銀行等不同企業(yè)進行了合作，以生成更多合成的數(shù)據(jù)提供給其他開發(fā)者使用。

圖片

Gretel.ai的CEO Ali Golshan認為，合成數(shù)據(jù)的好處在于，它保留了數(shù)據(jù)集中所有個人的隱私，同時仍然保持其統(tǒng)計學(xué)意義上的完整性（statistical integrity）。

但并非所有人都接受合成數(shù)據(jù)這種“神奇操作”，目前各方的看法主要分成兩波。

一部分贊同使用合成數(shù)據(jù)。包括Cohere等AI公司在內(nèi)，有不少搞大模型的企業(yè)仍然堅持這一做法，并認為它可能生成更好的AI，甚至從中誕生出“超級智能”。

另一部分則認為，合成數(shù)據(jù)終將讓AI“自食其果”。

例如一篇來自牛津大學(xué)、劍橋大學(xué)、帝國理工學(xué)院、多倫多大學(xué)、愛丁堡大學(xué)和Vector Institute多家機構(gòu)的研究表明：

使用合成數(shù)據(jù)訓(xùn)練，會讓模型出現(xiàn)不可逆轉(zhuǎn)的缺陷：
忘記那些“不可能發(fā)生的事件”，最終被自己生成的數(shù)據(jù)毒害。

圖片

有網(wǎng)友認為，這些合成數(shù)據(jù)最后會變成一灘“無法使用的污泥”——然后人們不得不被迫雇傭數(shù)據(jù)科學(xué)家來對它進行清洗。

圖片

還有網(wǎng)友調(diào)侃，這聽起來就像是“AI近親繁殖”一樣。

圖片

你認為AI需要使用合成數(shù)據(jù)嗎？

參考鏈接：
[1]https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de
[2]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
[3]https://arxiv.org/pdf/2306.11644.pdf
[4]https://arxiv.org/pdf/2305.17493v2.pdf

責(zé)任編輯：武曉燕來源：量子位

OpenAI AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<acronym id="vb0qu"><td id="vb0qu"></td></acronym>

<cite id="vb0qu"></cite>