人類創(chuàng)造的數(shù)據(jù)太貴了!開發(fā)者悄悄使用AI合成數(shù)據(jù)訓練模型
現(xiàn)在,開發(fā)者都在悄悄使用AI生成的數(shù)據(jù)來訓練AI模型。
原因就是——人類創(chuàng)造的數(shù)據(jù),實在是太貴了!
在以往,大多數(shù)AI模型都是靠人類的數(shù)據(jù)訓練的,但現(xiàn)在,越來越多的公司(包括OpenAI、微軟,以及Cohere這樣的初創(chuàng)公司)都開始使用這種AI生成的「合成數(shù)據(jù)」,或者在努力搞清如何使用AI生成的數(shù)據(jù)了。
雖然,這會讓整個AI生態(tài)系統(tǒng)變成一種自己吃自己的「貪吃蛇」,但是,人類自己創(chuàng)造的數(shù)據(jù),實在是負擔不起了?。?/span>
互聯(lián)網(wǎng)上的人類數(shù)據(jù)快耗盡了
除了價格,另外還有一個原因,就是規(guī)模問題。
現(xiàn)在,互聯(lián)網(wǎng)上很多可用的人類數(shù)據(jù)都被薅干凈了,可是如果要構建更強大的模型,就需要更多數(shù)據(jù)。
去年11月,ChatGPT的推出引爆了大模型之戰(zhàn),谷歌、微軟、Meta、Anthropic等大科技公司輪番下場,三不五時就更新一波新產(chǎn)品。
而像ChatGPT和Bard這樣的聊天機器人背后的LLM,主要就是通過抓取互聯(lián)網(wǎng)數(shù)據(jù)來訓練的,包括所有數(shù)字化書籍、新聞文章、博客、搜索查詢、Twitter和Reddit帖子、YouTube視頻、Flickr圖像等等。
但現(xiàn)在,生成式AI變得越來越復雜,即使是很多財力雄厚的大公司,也耗盡了易于訪問的高質量數(shù)據(jù),來訓練AI模型。
與此同時,因為訓練AI所消耗的個人數(shù)據(jù)數(shù)量龐大,來源廣泛,他們也在不斷承受著全世界各地的監(jiān)管機構、藝術家和媒體的抨擊。
大家早就在悄悄用了
開發(fā)者紛紛表示,來自網(wǎng)絡的通用數(shù)據(jù),已經(jīng)不足以推動人工智能模型的性能。
Cohere首席執(zhí)行官Aiden Gomez在接受《金融時報》采訪時表示,如果能從網(wǎng)上獲取需要的所有數(shù)據(jù),就太完美了。
然而可惜的是,互聯(lián)網(wǎng)上的信息如此嘈雜、混亂,以至于它們并不能代表開發(fā)者真正想要的數(shù)據(jù)。
其實,Cohere早就在悄悄用合成數(shù)據(jù)訓練LLM了,雖然這個消息還未被廣而告之。
而OpenAI之類的公司,也在做此打算。
在五月份于倫敦舉行的一次活動中,OpenAI CEO Sam Altman被問及是否擔心對ChatGPT隱私侵犯風險的監(jiān)管調查。
Altman對此不以為意,云淡風輕地表示,很快所有的數(shù)據(jù)都會變成合成數(shù)據(jù),他對此非常有信心。
合成數(shù)據(jù)潛力巨大
合成數(shù)據(jù),似乎前途大好。
而微軟已經(jīng)發(fā)表了一項研究,來論證合成數(shù)據(jù)如何加強基本的LLM。
論文地址:https://arxiv.org/pdf/2306.11644.pdf
如今,像GPT-4這類最前沿的模型,在寫作和編碼等領域的表現(xiàn)已經(jīng)在接近人類,還能通過美國律詩考試等基準測試。
為了顯著提高性能,讓它們能夠應對科學、醫(yī)學或商業(yè)方面的挑戰(zhàn),就需要使用獨特而復雜的數(shù)據(jù)集來訓練AI模型。
這些數(shù)據(jù)集要么需要由科學家、醫(yī)生、作家、演員或工程師等專家創(chuàng)建,要么需要作為專有數(shù)據(jù),從制藥、銀行和零售商等大公司獲得。
然而,人類創(chuàng)造的數(shù)據(jù)集,價格太昂貴了。
如果使用合成數(shù)據(jù),成本就會大大降低。
公司可以用AI模型來生成與醫(yī)療保健、金融欺詐等領域相關的文本、代碼或更復雜的信息,然后用這些合成數(shù)據(jù)來訓練高級LLM,讓它們性能更強。
Gomez透露,Cohere及其幾個競爭對手早就在使用合成數(shù)據(jù),然后由人類進行微調和調整了。現(xiàn)在很多地方都在大量采用合成數(shù)據(jù)了,盡管這個消息還沒有大量公開。
Gomez解釋道,比如為了訓練一個高等數(shù)學模型,Cohere就會讓兩個AI模型對話,一個充當導師,一個充當學生。
它倆會談論三角學,所有對話都是合成的、靠模型想象出來的。
然后人類會檢查這個對話,如果模型說錯了,人類就去糾正。
微軟最近的兩項研究表明,合成數(shù)據(jù)可以用來訓練比OpenAI的GPT-4或Google的PaLM-2這類先進模型更小、更簡單的模型。
一篇論文描述了由GPT-4生成的短篇小說的合成數(shù)據(jù)集,它只包含了四歲孩子能理解的單詞。
論文地址:https://arxiv.org/pdf/2305.07759.pdf
這個數(shù)據(jù)集被稱為TinyStories,它被用來訓練一個簡單的LLM,它會講出流利和語法正確的故事。
另一篇論文表明,人工智能可以以教科書和練習的形式進行合成Python代碼的訓練,這些代碼在編碼任務上表現(xiàn)得很好。
Scale AI和Gretel.ai等初創(chuàng)企業(yè)也如雨后春筍般涌現(xiàn),它們提供的,就是合成數(shù)據(jù)即服務。
Gretel由來自NSA和CIA的前美國分析師成立,與谷歌、匯豐銀行、Riot Games和Illumina等公司合作,用合成數(shù)據(jù)訓練更好的AI模型。
根據(jù)Gretel CEO Ali Golshan的說法,合成數(shù)據(jù)關鍵就在于,它保留了數(shù)據(jù)集中的所有個人隱私,同時仍然保持了統(tǒng)計上的完整性。
并且,精心制作的合成數(shù)據(jù)還可以消除現(xiàn)有數(shù)據(jù)中的偏見和不平衡。
「對沖基金可以查看黑天鵝事件,還能創(chuàng)建一百種變體,看看我們的模型是否會失敗。」
對于銀行來說,欺詐通常占總數(shù)據(jù)的不到100%,而Gretel的軟件可以生成「數(shù)千個關于欺詐的邊緣案例場景,并用于訓練AI模型。
AI貪吃蛇,可行嗎?
當然,用AI「自產(chǎn)自銷」的貪吃蛇式數(shù)據(jù),也存在著巨大的問題。
就算是在人類數(shù)據(jù)上訓練出來的AI,都會出現(xiàn)重大的事實性錯誤,更何況AI自己生成數(shù)據(jù)呢。
批評者指出,并非所有合成數(shù)據(jù)都會經(jīng)過精心策劃,以反映或改進現(xiàn)實世界的數(shù)據(jù)。
隨著AI生成的文本和圖像開始充斥互聯(lián)網(wǎng),人工智能公司很可能最終會使用由自己模型的原始版本產(chǎn)生的原始數(shù)據(jù)——這種現(xiàn)象被稱為「狗糧」。
斯坦福大學和萊斯大學的科學家發(fā)現(xiàn),將人工智能生成的內容提供給人工智能模型,似乎會導致它們的輸出質量下降。
論文地址:https://arxiv.org/abs/2307.01850
這種類似貪吃蛇的自我消費,會打破模型的數(shù)字大腦。
萊斯大學和斯坦福團隊發(fā)現(xiàn),將AI生成的內容喂給模型,只會導致性能下降。研究人員對此給出一種解釋,叫做「模型自噬障礙」(MAD)。
研究發(fā)現(xiàn)在使用AI數(shù)據(jù),經(jīng)過第5次迭代訓練后,模型就會患上MAD。
在合成數(shù)據(jù)上訓練AI模型會逐漸放大偽影
換句話說,如果不能給模型提供「新鮮的數(shù)據(jù)」,即由人類標注的數(shù)據(jù),其輸出質量將會受到嚴重影響。
而牛津大學和劍橋大學的研究者也發(fā)表了論文,發(fā)出警告說,在自己的原始輸出上訓練人工智能模型,其中可能包含虛假或捏造,會隨著時間的推移,這些數(shù)據(jù)或許會破壞模型,導致「不可逆轉的缺陷」。
論文地址:https://arxiv.org/pdf/2305.17493v2.pdf
AI,你趕快學會自學吧
Golshan同意,如果用糟糕的合成數(shù)據(jù)進行訓練模型,可能會阻礙它們的進步。
「隨著互聯(lián)網(wǎng)上充斥著越來越多AI生成的內容,確實會導致模型退化,因為它們在產(chǎn)生反芻的知識,沒有產(chǎn)生任何新的見解。」
盡管存在這些風險,但Cohere的Gomez等AI研究人員仍然表示,合成數(shù)據(jù)有望加速通往超級智能AI系統(tǒng)的道路。
CEO Gomez這樣說道:你真正需要的,就是能夠自學的AI模型——自己提出問題,自己發(fā)現(xiàn)真理,自己創(chuàng)造知識,這就是人類的夢想。
網(wǎng)友展開激烈辯論
對此,多位網(wǎng)友發(fā)表了高見。
合成數(shù)據(jù)有以下好處——
?? 合成數(shù)據(jù)可以潛在地解決使用真實世界數(shù)據(jù)會產(chǎn)生的隱私問題。
?? 針對特定需求創(chuàng)建的合成數(shù)據(jù),可能具有更高的質量,從而產(chǎn)生更準確的AI模型。
?? 訓練高級AI模型對數(shù)據(jù)的需求正在飆升。合成數(shù)據(jù)幾乎能無限供應,大大減少了數(shù)據(jù)赤字。
但是,AI訓練AI背后的目的至關重要:
??如果我們的目標是創(chuàng)建幫助人類的人工智能模型,那么對人類生成的數(shù)據(jù)進行訓練可能更合適。這確保了人工智能的反應和行為與我們自己的反應和行為更加一致,并且與我們相關。
??如果我們的目標是創(chuàng)建超級智能AI,那么合成數(shù)據(jù)可能是關鍵,它讓模型能夠從超出人類理解能力的模型中學習。
??我們已經(jīng)看到很多例子,人工智能從合成數(shù)據(jù)中自我學習導致結果質量下降。所以,現(xiàn)在的答案在于真實世界的合成數(shù)據(jù)和用于訓練的專家數(shù)據(jù)的平衡組合??山忉屝訟I是解釋如何確定模型結果的絕對關鍵。
我的立場和其他人不同:我不認為在未來應該讓LLM生成數(shù)據(jù)并讓其他模型從中學習,我認為,必須在私有領域數(shù)據(jù)上進行進一步的模型訓練和調整,使公司能夠利用其敏感但獨特的數(shù)據(jù),作為業(yè)務的核心差異化因素。
正確的方法是,具有隱私保證的合成數(shù)據(jù)。
正如我們所說,「訓練模型是為了了解疾病,而不是了解患者」——這就是合成數(shù)據(jù)的承諾,我們是將自己的見解轉移到模型中,而無需分享我們的個人詳細信息。
1. 有些領域需要好的數(shù)據(jù),而不是完美的數(shù)據(jù),在這些地方合成數(shù)據(jù)將產(chǎn)生最大的影響。
2. 與此相關的是,質量將基于平均水平的范圍,而不是極端情況下的杰出結果。
3. 如果技術人員設計的計算機制造數(shù)據(jù)被用于訓練AI,就會加劇系統(tǒng)中的偏見——其中大多數(shù)是認知偏見——即使只是無意中, 因此,與其考慮有風險的工作類別,更好的方法可能是考慮哪些工作是體面的、必要的,但它只需要達到一定的閾值標準,而不是100%。
最后一點,很多人在討論人工智能與工業(yè)革命的相似之處。在股市場上,被動投資基金和ETF的興起也有很多相似之處,即現(xiàn)在大多數(shù)交易都是基于算法,而不是實際的人為干預完成的。
但這樣的系統(tǒng)本質上往往是被動的,并且很容易被操縱。