自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

參數(shù)要足夠多,神經(jīng)網(wǎng)絡(luò)性能才會好,這是什么原理?

人工智能 機(jī)器學(xué)習(xí)
要使神經(jīng)網(wǎng)絡(luò)能夠更好地記憶數(shù)據(jù),它們需要的參數(shù)比想象的要多得多。

傳統(tǒng)上,只要參數(shù)的數(shù)量大于要滿足的方程數(shù)量,我們就可以使用參數(shù)化模型來進(jìn)行數(shù)據(jù)插值。但在深度學(xué)習(xí)中,一個令人困惑的現(xiàn)象是,模型訓(xùn)練使用的參數(shù)數(shù)量比這個經(jīng)典理論所建議的要多得多。

深度學(xué)習(xí)中經(jīng)常會出現(xiàn)各種大型的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)是執(zhí)行類人任務(wù)的領(lǐng)先 AI 系統(tǒng)。隨著它們參數(shù)的增多,神經(jīng)網(wǎng)絡(luò)已經(jīng)可以執(zhí)行各種任務(wù)。按照數(shù)學(xué)的理論,神經(jīng)網(wǎng)絡(luò)無需很大就能執(zhí)行任務(wù),例如在直線 y=2x 中,確定這條直線無需很多參數(shù)。但是,現(xiàn)代神經(jīng)網(wǎng)絡(luò)的規(guī)模通常遠(yuǎn)遠(yuǎn)超出預(yù)測的要求,這種情況被稱為過度參數(shù)化

在去年 12 月入選 NeurIPS 的一篇論文《A Universal Law of Robustness via Isoperimetry》中,來自微軟研究院的 Sébastien Bubeck 和斯坦福大學(xué)的 Mark Sellke 為神經(jīng)網(wǎng)絡(luò)擴(kuò)展成功背后的奧秘提供了新的解釋。他們表明,神經(jīng)網(wǎng)絡(luò)必須比傳統(tǒng)預(yù)期規(guī)模要大得多,才能避免某些基本問題。這一發(fā)現(xiàn)為一個持續(xù)了幾十年的問題提供了一般性見解。


論文鏈接:https://arxiv.org/abs/2105.12806

Mark Sellke 和 Sébastien Bubeck 

瑞士洛桑聯(lián)邦理工學(xué)院的 Lenka Zdeborová 表示:他們的研究觸及了計算機(jī)科學(xué)的核心。神經(jīng)網(wǎng)絡(luò)規(guī)模的標(biāo)準(zhǔn)來自對其如何記憶數(shù)據(jù)的分析。但要了解數(shù)據(jù)記憶,我們必須首先了解網(wǎng)絡(luò)的作用。

神經(jīng)網(wǎng)絡(luò)中一項常見的任務(wù)是識別圖像中的目標(biāo)。為了創(chuàng)建這種網(wǎng)絡(luò),研究人員首先需要提供數(shù)據(jù)圖像及其標(biāo)注,然后對其進(jìn)行訓(xùn)練以學(xué)習(xí)相關(guān)參數(shù),之后模型能正確識別圖像中的目標(biāo)。換句話說,訓(xùn)練使網(wǎng)絡(luò)記住數(shù)據(jù)。更值得注意的是,一旦網(wǎng)絡(luò)記住了足夠多的訓(xùn)練數(shù)據(jù),它還能夠以不同程度的準(zhǔn)確率預(yù)測它從未見過的目標(biāo),這一過程稱為泛化。

網(wǎng)絡(luò)的大小決定了它可以記住多少。這可以通過圖形來理解,想象一下,將兩個數(shù)據(jù)點放在 xy 平面上。你可以將這兩個點與由兩個參數(shù)描述的線連接起來。如果知道了這條線的一個點坐標(biāo)以及一個原始數(shù)據(jù)點的 x 坐標(biāo),我們只需查看這條線(或使用參數(shù))就可以計算出相應(yīng)的 y 坐標(biāo)。因為這條線已經(jīng)記住了這兩個數(shù)據(jù)點。

神經(jīng)網(wǎng)絡(luò)的原理與此類似。例如,圖像由成百上千個值描述 —— 每個像素是一個值。這些值在數(shù)學(xué)上等價于高維空間中一個點的坐標(biāo),坐標(biāo)的數(shù)量稱為維度

一個古老的數(shù)學(xué)結(jié)果表明,要將 n 個數(shù)據(jù)點與曲線擬合,則需要一個具有 n 個參數(shù)的函數(shù)。當(dāng)神經(jīng)網(wǎng)絡(luò)在 1980 年代首次作為一種有影響的力量出現(xiàn)時,研究者的想法與此相同,他們認(rèn)為對于神經(jīng)網(wǎng)絡(luò)來說,應(yīng)該只需要 n 個參數(shù)來擬合 n 個數(shù)據(jù)點 —— 無論數(shù)據(jù)的維度如何。

德克薩斯大學(xué)奧斯汀分校的 Alex Dimakis 表示:「現(xiàn)在的研究改變了,我們經(jīng)常創(chuàng)建參數(shù)數(shù)量超過訓(xùn)練樣本數(shù)量的神經(jīng)網(wǎng)絡(luò)。這意味著相關(guān)研究文獻(xiàn)書籍必須重寫?!?/span>

Bubeck 和 Sellke 并沒有打算重寫任何東西。他們正在研究神經(jīng)網(wǎng)絡(luò)缺乏的另一種特性,稱為穩(wěn)健性(robustness),即網(wǎng)絡(luò)處理微小變化的能力。例如,一個穩(wěn)健性較差的網(wǎng)絡(luò)可能已經(jīng)學(xué)會了識別長頸鹿,但它會將一個幾乎沒有修改過的圖片錯誤地標(biāo)記為沙鼠,這就是網(wǎng)絡(luò)穩(wěn)健性帶來的影響。 

2019 年,當(dāng) Bubeck 及其同事意識到該問題與網(wǎng)絡(luò)規(guī)模有關(guān)時,他們正在尋求證明有關(guān)該問題的定理。新研究表明過度參數(shù)化對于網(wǎng)絡(luò)的穩(wěn)健性是必要的。他們通過將數(shù)據(jù)點與曲線擬合所需的參數(shù)來做到這一點,該曲線具有與穩(wěn)健性等效的數(shù)學(xué)屬性:平滑度。

為了看到這一點,再次想象平面中的一條曲線,其中 x 坐標(biāo)代表單個像素的顏色,y 坐標(biāo)代表圖像標(biāo)簽。由于曲線是平滑的,如果你稍微修改像素的顏色,沿著曲線移動一小段距離,相應(yīng)的預(yù)測只會發(fā)生很小的變化。另一方面,對于極度鋸齒狀的曲線,x 坐標(biāo)(顏色)的微小變化會導(dǎo)致 y 坐標(biāo)(圖像標(biāo)簽)發(fā)生劇烈變化,原本識別為長頸鹿的圖像可以變成沙鼠。

Bubeck 和 Sellke 的研究表明,平滑擬合高維數(shù)據(jù)點不僅需要 n 個參數(shù),還需要 n × d 個參數(shù),其中 d 是輸入的維度(例如,784 表示 784 像素的圖像)。換句話說,如果你想讓神經(jīng)網(wǎng)絡(luò)穩(wěn)健地記住它的訓(xùn)練數(shù)據(jù),過度參數(shù)化不僅有幫助 —— 而是絕對有效。證明依賴于一個關(guān)于高維幾何的奇特事實 —— 即放置在球體表面上的隨機(jī)分布的點,幾乎都彼此相距一個完整的直徑。點與點之間的大間隔意味著用一條平滑曲線擬合它們需要許多額外的參數(shù)。

耶魯大學(xué)的 Amin Karbasi 表示,「這個證明非?;A(chǔ) —— 不需要繁重的數(shù)學(xué)運算,它說明了一些非常普遍的東西?!?/span>

該結(jié)果提供了一種新方法來理解為什么擴(kuò)大神經(jīng)網(wǎng)絡(luò)規(guī)模的簡單策略如此有效。與此同時,其他研究揭示了過度參數(shù)化帶來幫助的更多原因,例如它可以提高訓(xùn)練過程的效率,以及網(wǎng)絡(luò)的泛化能力。

雖然我們現(xiàn)在知道過度參數(shù)化對于穩(wěn)健性是必要的,但尚不清楚穩(wěn)健性對其他事物的必要性。通過將其與過度參數(shù)化聯(lián)系起來,新的證據(jù)似乎表明穩(wěn)健性可能比想象的更加重要,是一個可以帶來許多好處的關(guān)鍵因素。

「穩(wěn)健性似乎是泛化的先決條件,」Bubeck 說到?!溉绻阌幸粋€系統(tǒng),你只是稍微擾亂它,然后它就失控了,這會是怎樣的系統(tǒng)?這是不可接受的,這是一個非常基礎(chǔ)和基本的要求?!?/span>

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-08-25 13:13:58

神經(jīng)網(wǎng)絡(luò)AI算法

2022-04-07 09:01:52

神經(jīng)網(wǎng)絡(luò)人工智能

2021-01-10 08:46:43

神經(jīng)網(wǎng)絡(luò)激活函數(shù)人工神經(jīng)網(wǎng)絡(luò)

2022-03-02 14:53:34

人工智能神經(jīng)網(wǎng)絡(luò)

2020-03-25 09:48:10

AI芯片神經(jīng)網(wǎng)絡(luò)

2020-05-29 17:21:33

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)函數(shù)

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2017-04-17 13:10:09

神經(jīng)網(wǎng)絡(luò)人工智能網(wǎng)絡(luò)

2020-12-08 20:20:15

神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2021-10-26 09:00:00

圖形機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2017-09-28 16:15:12

神經(jīng)網(wǎng)絡(luò)訓(xùn)練多層

2017-07-19 11:39:25

深度學(xué)習(xí)人工智能boosting

2020-09-02 07:05:56

手機(jī)支付

2024-04-30 14:54:10

2021-08-31 14:22:12

技術(shù)資訊

2025-02-19 15:12:17

神經(jīng)網(wǎng)絡(luò)PyTorch大模型

2018-05-15 09:15:03

CNN卷積神經(jīng)網(wǎng)絡(luò)函數(shù)

2023-11-08 08:58:58

GPT-4神經(jīng)網(wǎng)絡(luò)智能

2019-07-02 13:37:23

神經(jīng)網(wǎng)絡(luò)運算Python

2022-04-22 12:36:11

RNN神經(jīng)網(wǎng)絡(luò))機(jī)器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號