人類數(shù)據(jù)告急,微軟OpenAI開始用AI喂AI,奧特曼放話:未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)
人類數(shù)據(jù)缺缺缺,AI被迫開始吃AI生產(chǎn)的數(shù)據(jù)了!
這是微軟、OpenAI等一眾AI前沿公司面臨的現(xiàn)狀。
他們從維基百科、電子書、新聞網(wǎng)站、博客、推特和Reddit等平臺和論壇中搜羅了大量數(shù)據(jù),然后現(xiàn)在……這些數(shù)據(jù)快被用完了。
BUT,要訓(xùn)練更好的大模型,多少數(shù)據(jù)都不夠。
據(jù)《金融時報》介紹,不少公司正把大模型生成的結(jié)果、也就是所謂的合成數(shù)據(jù)(Synthetic data),喂給參數(shù)量更小的大模型吃,發(fā)現(xiàn)效果還不錯。
對于使用合成數(shù)據(jù),OpenAI的CEO Sam Altman不僅不介意,還放話“未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)”。
估值20億美元的大模型初創(chuàng)公司Cohere同樣在用合成數(shù)據(jù)。公司CEO、經(jīng)典大模型Transformer論文作者之一Aidan Gomez甚至認為:
合成數(shù)據(jù)可能加速通往“超級智能”AI系統(tǒng)的道路。
所以,究竟哪些大模型已經(jīng)在用合成數(shù)據(jù)了,這些合成數(shù)據(jù)又是從何而來?
大AI合成數(shù)據(jù),小AI吃
這些所謂的合成數(shù)據(jù),本質(zhì)上是用當前表現(xiàn)較好的大模型生成的數(shù)據(jù),經(jīng)過人工調(diào)整后,再喂給稍微小一點的大模型。
例如Cohere公司就嘗試使用了兩個大模型進行“角色扮演”對話,并將它們生成的結(jié)果做成合成數(shù)據(jù)。
這兩個大模型分別扮演“數(shù)學(xué)老師”和“學(xué)生”,正在進行一堂虛擬的數(shù)學(xué)教學(xué)。同時,Cohere安排一個人類員工在旁邊監(jiān)督對話生成。
圖片
一旦對話出現(xiàn)錯誤,人類員工就會插手對文本進行修正。
盡管確實還需要人力,但這比聘請科學(xué)、醫(yī)學(xué)和商業(yè)方面的專家來撰寫文本要便宜得多。
那么,什么樣的大模型會用到這些合成數(shù)據(jù)呢?
微軟研究院最近有研究表明,合成數(shù)據(jù)可以用于訓(xùn)練比GPT-4或PaLM-2稍微小一點的語言模型。
以用GPT-4生成的一個“四歲兒童小說”數(shù)據(jù)集TinyStories為例,這個數(shù)據(jù)集被證明雖然只包含4歲小孩能理解的單詞,但用于訓(xùn)練一個大模型之后,同樣可以生成語法正確、閱讀體驗流暢的故事:
圖片
對于使用合成數(shù)據(jù)的理由,Cohere的CEO Aidan Gomez認為:
能從網(wǎng)上獲取數(shù)據(jù)當然更好,但網(wǎng)絡(luò)數(shù)據(jù)太雜亂了,完全無法滿足需求。相比之下,合成數(shù)據(jù)已經(jīng)非常多了,即使它還沒被廣泛傳播。
背后產(chǎn)業(yè)鏈已出現(xiàn)
目前,包括Scale AI、Gretel.ai等企業(yè),已經(jīng)開始給外界提供合成數(shù)據(jù)服務(wù)。
先是Scale AI,旗下就推出了一款合成數(shù)據(jù)產(chǎn)品Scale Synthetic,用于給企業(yè)提供合成數(shù)據(jù)服務(wù)。
而在之前一篇SemiAnalysis爆料GPT-4“大花邊”的新聞中,還提到GPT-4的數(shù)據(jù)集中,有數(shù)百萬行是來自Scale AI和內(nèi)部的指令微調(diào)數(shù)據(jù)。
圖片
至于合成數(shù)據(jù)平臺Gretel.ai,從官網(wǎng)來看,它已經(jīng)和谷歌、拳頭游戲、匯豐銀行等不同企業(yè)進行了合作,以生成更多合成的數(shù)據(jù)提供給其他開發(fā)者使用。
圖片
Gretel.ai的CEO Ali Golshan認為,合成數(shù)據(jù)的好處在于,它保留了數(shù)據(jù)集中所有個人的隱私,同時仍然保持其統(tǒng)計學(xué)意義上的完整性(statistical integrity)。
但并非所有人都接受合成數(shù)據(jù)這種“神奇操作”,目前各方的看法主要分成兩波。
一部分贊同使用合成數(shù)據(jù)。包括Cohere等AI公司在內(nèi),有不少搞大模型的企業(yè)仍然堅持這一做法,并認為它可能生成更好的AI,甚至從中誕生出“超級智能”。
另一部分則認為,合成數(shù)據(jù)終將讓AI“自食其果”。
例如一篇來自牛津大學(xué)、劍橋大學(xué)、帝國理工學(xué)院、多倫多大學(xué)、愛丁堡大學(xué)和Vector Institute多家機構(gòu)的研究表明:
使用合成數(shù)據(jù)訓(xùn)練,會讓模型出現(xiàn)不可逆轉(zhuǎn)的缺陷:
忘記那些“不可能發(fā)生的事件”,最終被自己生成的數(shù)據(jù)毒害。
圖片
有網(wǎng)友認為,這些合成數(shù)據(jù)最后會變成一灘“無法使用的污泥”——然后人們不得不被迫雇傭數(shù)據(jù)科學(xué)家來對它進行清洗。
圖片
還有網(wǎng)友調(diào)侃,這聽起來就像是“AI近親繁殖”一樣。
圖片
你認為AI需要使用合成數(shù)據(jù)嗎?
參考鏈接:
[1]https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de
[2]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
[3]https://arxiv.org/pdf/2306.11644.pdf
[4]https://arxiv.org/pdf/2305.17493v2.pdf