自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="cnbm6"><i id="cnbm6"></i></sub>

<cite id="cnbm6"></cite>

<cite id="cnbm6"><track id="cnbm6"><sub id="cnbm6"></sub></track></cite>

<cite id="cnbm6"><rp id="cnbm6"></rp></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

最早2026？全球優(yōu)質(zhì)語言數(shù)據(jù)「存量」告急！網(wǎng)友：杞人憂天

作者：新智元 2022-11-21 15:14:38

人工智能新聞

AI用光所有數(shù)據(jù)，這一天真的快來了？

作為人工智能的三要素之一，數(shù)據(jù)的作用舉足輕重。

但大家有沒有想過：假如有一天，全世界的數(shù)據(jù)都用完了那咋整？

實際上，提出這個問題的人絕對沒有精神問題，因為這一天——可能真的快來了?。?！

近日，研究員Pablo Villalobos等人一篇名為《我們會用完數(shù)據(jù)嗎？機器學(xué)習(xí)中數(shù)據(jù)集縮放的局限性分析》的論文，發(fā)表在了arXiv上。

他們根據(jù)之前對數(shù)據(jù)集大小趨勢的分析，預(yù)測了語言和視覺領(lǐng)域數(shù)據(jù)集大小的增長，估計了未來幾十年可用未標(biāo)記數(shù)據(jù)總存量的發(fā)展趨勢。

他們的研究表明：最早在2026年，高質(zhì)量語言數(shù)據(jù)就將全部消耗殆盡！機器學(xué)習(xí)發(fā)展的速度也將因此而放緩。實在不容樂觀。

兩方法雙管齊下，結(jié)果不容樂觀

這篇論文的研究團隊由11名研究員和3位顧問組成，成員遍布世界各地，致力于縮小AI技術(shù)發(fā)展與AI戰(zhàn)略之間的差距，并為AI安全方面的關(guān)鍵決策者提供建議。

Chinchilla是DeepMind的研究人員提出的一種新型預(yù)測計算優(yōu)化模型。

實際上，此前在對Chinchilla進行實驗時，就曾有研究員提出「訓(xùn)練數(shù)據(jù)很快就會成為擴展大型語言模型的瓶頸」。

因此他們分析了用于自然語言處理和計算機視覺的機器學(xué)習(xí)數(shù)據(jù)集大小的增長，并使用了兩種方法進行推斷：使用歷史增長率，并為未來預(yù)測的計算預(yù)算估計計算最佳數(shù)據(jù)集大小。

在此之前，他們一直在收集有關(guān)機器學(xué)習(xí)輸入趨勢的數(shù)據(jù)，包括一些訓(xùn)練數(shù)據(jù)等，還通過估計未來幾十年互聯(lián)網(wǎng)上可用未標(biāo)記數(shù)據(jù)的總存量，來調(diào)查數(shù)據(jù)使用增長。

由于歷史預(yù)測趨勢可能會受過去十年計算量異常增長的「誤導(dǎo)」，研究團隊還使用了Chinchilla縮放定律，來估計未來幾年的數(shù)據(jù)集大小，提升計算結(jié)果的準(zhǔn)確性。

最終，研究人員使用一系列概率模型估計未來幾年英語語言和圖像數(shù)據(jù)的總存量，并比較了訓(xùn)練數(shù)據(jù)集大小和總數(shù)據(jù)庫存的預(yù)測，結(jié)果如下圖所示。

這說明數(shù)據(jù)集的增長速度將遠快于數(shù)據(jù)存量。

因此，如果當(dāng)前趨勢繼續(xù)保持下去，數(shù)據(jù)存量被用光將是不可避免的。下表則顯示了預(yù)測曲線上每個交叉點的中值耗盡年數(shù)。

高質(zhì)量的語言數(shù)據(jù)庫存最早可能在2026年之前用盡。

相比之下，低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)情況略好：前者將在2030年至2050年間用光，后者將在2030年至2060年之間。

在論文的最后，研究團隊給出結(jié)論：如果數(shù)據(jù)效率沒有大幅提高或新的數(shù)據(jù)來源可用，當(dāng)前依賴巨大數(shù)據(jù)集不斷膨脹的機器學(xué)習(xí)模型，它的增長趨勢很可能會放緩。

網(wǎng)友：杞人憂天，Efficient Zero了解一下

不過在這篇文章的評論區(qū)里，大多數(shù)網(wǎng)友卻認(rèn)為作者杞人憂天。

Reddit上，一位名為ktpr的網(wǎng)友表示：

「自我監(jiān)督學(xué)習(xí)有啥毛病么？如果任務(wù)指定得好，它甚至可以組合擴展數(shù)據(jù)集大小?！?/span>

名為lostmsn的網(wǎng)友則更加不客氣。他直言：

「Efficient Zero都不了解一下？我認(rèn)為作者已經(jīng)嚴(yán)重脫離時代了?！?/span>

Efficient Zero是一種能高效采樣的強化學(xué)習(xí)算法，由清華大學(xué)的高陽博士提出。

在數(shù)據(jù)量有限的情況下，Efficient Zero一定程度上解決了強化學(xué)習(xí)的性能問題，并在算法通用測試基準(zhǔn)Atari Game上獲得了驗證。

在這篇論文作者團隊的博客上，就連他們自己也坦言：

「我們所有的結(jié)論都基于不切實際的假設(shè)，即當(dāng)前機器學(xué)習(xí)數(shù)據(jù)使用和生產(chǎn)的趨勢將繼續(xù)保持下去，并且數(shù)據(jù)效率不會有重大提升。」

「一個更加靠譜的模型應(yīng)該考慮到機器學(xué)習(xí)數(shù)據(jù)效率的提高、合成數(shù)據(jù)的使用以及其他算法和經(jīng)濟因素?！?/span>

「因此就實際情況來說，這種分析有嚴(yán)重的局限性。模型的不確定性非常高?！?/span>

「不過總體而言，我們?nèi)哉J(rèn)為由于缺乏訓(xùn)練數(shù)據(jù)，到2040年時機器學(xué)習(xí)模型的擴展有大約有20%的可能性會顯著放緩。」

責(zé)任編輯：張燕妮來源：新智元

AI 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="0bjih"></style>

<sub id="0bjih"></sub>

<blockquote id="0bjih"><i id="0bjih"></i></blockquote>

<blockquote id="0bjih"><i id="0bjih"><video id="0bjih"></video></i></blockquote>

<blockquote id="0bjih"><i id="0bjih"><video id="0bjih"></video></i></blockquote>

<cite id="0bjih"><track id="0bjih"></track></cite>

<s id="0bjih"><li id="0bjih"></li></s>