自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

裴健團隊44頁新作:理解深度學(xué)習模型復(fù)雜度,看這一篇就夠了

人工智能 深度學(xué)習
在機器學(xué)習、數(shù)據(jù)挖掘和深度學(xué)習中,模型復(fù)雜性始終是重要的基本問題。因此近年來,模型復(fù)雜性已成為一個越來越活躍的方向,在模型體系結(jié)構(gòu)搜索、圖形表示、泛化研究和模型壓縮等領(lǐng)域都至關(guān)重要。

 近日,首篇深度學(xué)習模型復(fù)雜度綜述「Model Complexity of Deep Learning: A Survey」在arXiv上線。論文作者為著名大數(shù)據(jù)科學(xué)家裴健教授與他的兩位學(xué)生,以及微軟亞洲研究院的兩位合作者。44頁的綜述從深度學(xué)習模型框架、模型規(guī)模、優(yōu)化過程和數(shù)據(jù)復(fù)雜性對現(xiàn)有成果進行了回顧。

在機器學(xué)習、數(shù)據(jù)挖掘和深度學(xué)習中,模型復(fù)雜性始終是重要的基本問題。

模型的復(fù)雜性不僅會影響模型在特定問題和數(shù)據(jù)上的可學(xué)習性,模型在看不見的數(shù)據(jù)上的泛化能力也與之有關(guān)。

模型的復(fù)雜性不僅受模型體系結(jié)構(gòu)的本身影響,還受到數(shù)據(jù)分布,數(shù)據(jù)復(fù)雜性和信息量的影響。

因此近年來,模型復(fù)雜性已成為一個越來越活躍的方向,在模型體系結(jié)構(gòu)搜索、圖形表示、泛化研究和模型壓縮等領(lǐng)域都至關(guān)重要。

近日,首篇深度學(xué)習模型復(fù)雜度綜述「Model Complexity of Deep Learning: A Survey」在arXiv上線。

并對這兩個方向的最新進展進行了回顧。

論文作者為著名大數(shù)據(jù)科學(xué)家裴健教授與他的兩位學(xué)生,以及微軟亞洲研究院的兩位合作者。

深度學(xué)習的模型復(fù)雜性可以解釋為「表達能力」和「有效模型復(fù)雜度」。在這篇論文在,研究人員沿著模型框架、模型尺寸、優(yōu)化過程、數(shù)據(jù)復(fù)雜度四個重要因素對這兩類模型的現(xiàn)有研究進行回顧。

最后,作者再從理解模型泛化能力、優(yōu)化策略、模型的選擇與設(shè)計對其應(yīng)用進行論述。

可以說,理解深度學(xué)習模型復(fù)雜度,看這一篇就夠了。

首篇深度學(xué)習模型復(fù)雜度綜述,四個重要因素

首先,我們先來看模型復(fù)雜度受哪些因素影響。

模型框架

模型框架的選擇影響模型的復(fù)雜性。影響因素包括模型類型(如FCNN、CNN),激活函數(shù)(例如,Sigmoid、ReLU)等。不同的模型框架可能需要不同的復(fù)雜性度量標準和方法可能無法直接相互比較。

模型尺寸

深度模型的大小影響模型的復(fù)雜度。一些常見的所采用的模型尺寸測量方法包括參數(shù)個數(shù)、參數(shù)個數(shù)隱藏層的數(shù)量、隱藏層的寬度、過濾器的數(shù)量以及過濾器大小。在同一模型框架下,模型的復(fù)雜性對于不同的大小,可以通過相同的復(fù)雜性度量進行量化從而成為可比較的標準。

優(yōu)化過程

優(yōu)化過程影響模型的復(fù)雜度,包括目標函數(shù)的形式、學(xué)習算法的選擇和超參數(shù)的設(shè)置。

數(shù)據(jù)復(fù)雜度

訓(xùn)練模型的數(shù)據(jù)也會影響模型的復(fù)雜性。主要影響因素包括數(shù)據(jù)維度、數(shù)據(jù)類型和數(shù)據(jù)類型分布、由Kolmogorov復(fù)雜性度量的信息量等。

通常來說,復(fù)雜度的研究模型選取有如下兩種:

一是指定模型(model-specific)的方法關(guān)注于特定類型的模型,并基于結(jié)構(gòu)特征探索復(fù)雜性。例如,Bianchini等人和Hanin等人研究了FCNNs的模型復(fù)雜性,Bengio和Delalleau關(guān)注和積網(wǎng)絡(luò)的模型復(fù)雜性。此外,一些研究進一步提出了激活的限制條件約束非線性特性的函數(shù)。

還有一種方法是跨模型(cross-model),當它涵蓋多種類型的模型時,而不是多個特定類型的模型,因此可以應(yīng)用于比較兩個或多個更多不同類型的模型。例如,Khrulkov等人比較了建筑物連接對一般RNN、CNN和淺層FCNN復(fù)雜性的影響在這些網(wǎng)絡(luò)結(jié)構(gòu)和張量分解中。

「表達能力」與「有效模型復(fù)雜度」

模型的表達能力

模型的表達能力意味著這個模型在不同數(shù)據(jù)上的表達能力,即性能,綜述主要分析方法是從下面四個角度分析。

深度效率(depth efficiency)分析深度學(xué)習模型如何從架構(gòu)的深度獲得更好地性能(例如,精確度)。

寬度效率(width efficiency)分析深度學(xué)習中各層的寬度對模型影響程度。

可表達功能空間(expressible functional space)研究可表達的功能由具有特定框架和指定大小的深模型表示,在不同參數(shù)的情況下。

最后,VC維度和Rademacher復(fù)雜性是機器學(xué)習中表達能力的兩個經(jīng)典度量。

模型的有效復(fù)雜度

深度學(xué)習模型的有效復(fù)雜性也稱為實際復(fù)雜性、實際表達能力和可用容量。

它反映了復(fù)雜性具有特定參數(shù)化的深部模型所代表的函數(shù)。深度學(xué)習模型的有效復(fù)雜性主要從以下兩個方面進行了探討。

有效復(fù)雜性的一般度量(general measures of effective complexity)設(shè)計深度學(xué)習模型有效復(fù)雜性的量化度量。

對高容量低現(xiàn)實現(xiàn)象的調(diào)查發(fā)現(xiàn)深度學(xué)習模型的有效復(fù)雜性可能遠低于他們的表達能力。一些研究探討了深度學(xué)習模型的有效復(fù)雜性和表達能力之間的差距。

模型復(fù)雜度的應(yīng)用

這篇論文主要介紹了三個應(yīng)用,理解模型泛化能力、模型優(yōu)化、模型選擇和設(shè)計。

理解模型泛化能力

深度學(xué)習模型總是過于參數(shù)化,也就是說,它們的參數(shù)要多得多,模型參數(shù)比最優(yōu)解和訓(xùn)練樣本數(shù)多。然而,人們經(jīng)常發(fā)現(xiàn)大型的過參數(shù)化神經(jīng)網(wǎng)絡(luò)具有良好的泛化能力。一些研究甚至發(fā)現(xiàn)更大、更復(fù)雜的網(wǎng)絡(luò)通常更具通用性。這一觀察結(jié)果與函數(shù)復(fù)雜性的經(jīng)典概念相矛盾,例如著名的奧卡姆剃須刀原則,更喜歡簡單的定理。

什么導(dǎo)致過度參數(shù)化深度學(xué)習模型的良好泛化能力?

1、在訓(xùn)練誤差為零的情況下,一個網(wǎng)絡(luò)訓(xùn)練在真實的標簽上,導(dǎo)致良好的泛化能力,其復(fù)雜度比在隨機標簽上訓(xùn)練的網(wǎng)絡(luò)要低得多。

2、增加隱藏單元的數(shù)量或參數(shù)的數(shù)量,從而減少了泛化誤差,有望降低復(fù)雜度。

3、使用兩種不同的優(yōu)化算法,如果都導(dǎo)致零訓(xùn)練誤差,具有較好泛化能力的模型具有較低的復(fù)雜度。

優(yōu)化策略

模型優(yōu)化關(guān)注的是神經(jīng)網(wǎng)絡(luò)模型如何建立以及為什么建立,為什么可以成功訓(xùn)練。具體來說,優(yōu)化一個深度學(xué)習模型一般是確定模型參數(shù),使損失函數(shù)最小化非凸的。損失函數(shù)的設(shè)計通常基于一個問題和模型的要求,因此一般包括在訓(xùn)練集上評估的性能度量和其他約束條件。

模型復(fù)雜度被廣泛用于提供一個度量來進行優(yōu)化可追蹤。例如,有效模型復(fù)雜性的度量指標神經(jīng)網(wǎng)絡(luò)有助于監(jiān)測優(yōu)化過程中模型的變化處理并理解優(yōu)化過程是如何進行的。這樣的度量也有助于驗證優(yōu)化算法新改進的有效性。

Nakkiran等人研究了訓(xùn)練過程中的雙下降現(xiàn)象利用有效復(fù)雜度度量數(shù)據(jù)集的最大大小,在該數(shù)據(jù)集上可以得到零訓(xùn)練誤差實現(xiàn)。結(jié)果表明,雙下降現(xiàn)象是可以表示的作為有效復(fù)雜性的函數(shù)。Raghu等人和Hu等人提出了新的正則化方法,并證明了這些方法對減小復(fù)雜度是有效的。

模型選擇和設(shè)計

給定一個具體的學(xué)習任務(wù),研究人員如何為這個任務(wù)確定一個可行的模型結(jié)構(gòu)。給出了各種不同體系結(jié)構(gòu)和不同性能的模型復(fù)雜性,研究人員如何從中挑選出最好的模型?這就是模型選擇和設(shè)計問題。

一般來說,模型的選擇和設(shè)計是基于兩者之間的權(quán)衡,預(yù)測性能和模型復(fù)雜性。

一方面,高精度的預(yù)測是學(xué)習模型的基本目標。模型應(yīng)該能夠捕獲隱藏在模型中的底層模式訓(xùn)練數(shù)據(jù)和實現(xiàn)預(yù)測的精度盡可能高。為了表示大量的知識并獲得較高的準確度,一個模型具有較高的表達能力,自由度大,體積大,需要更大訓(xùn)練集。在這個程度上,一個具有更多參數(shù)和更高的復(fù)雜性是有利的。

另一方面,過于復(fù)雜的模型可能很難進行訓(xùn)練,可能會導(dǎo)致不必要的資源消耗,例如存儲、計算和時間成本。不必要的資源消耗特別是在實際的大規(guī)模應(yīng)用中,應(yīng)避免使用。為了這個目標,一個更簡單的模型比一個更精確的模型更可取。

數(shù)據(jù)價值和數(shù)據(jù)資產(chǎn)管理

綜述的作者裴健是數(shù)據(jù)科學(xué)領(lǐng)域的世界頂尖學(xué)者,加拿大西蒙弗雷澤大學(xué)計算機科學(xué)學(xué)院教授,還是加拿大皇家學(xué)會、加拿大工程院、ACM和IEEE的院士。

近日,在O'Reilly媒體集團原首席數(shù)據(jù)科學(xué)家Ben Lorica 羅瑞卡主持的podcast中,裴健教授談?wù)摿藬?shù)據(jù)價值和數(shù)據(jù)資產(chǎn)管理的問題。

他認為,第一,數(shù)據(jù)作為企業(yè)的核心資源,CFO和CDO要一起來關(guān)注數(shù)據(jù)資源的運轉(zhuǎn)、使用和效益。第二,數(shù)據(jù)不僅僅是技術(shù),企業(yè)急需組建有經(jīng)濟學(xué)家參與的核心團隊來研發(fā)運營數(shù)據(jù)產(chǎn)品和數(shù)據(jù)資產(chǎn)。第三,每一家企業(yè)都有大量的上游和下游數(shù)據(jù)應(yīng)用,企業(yè)的數(shù)據(jù)往往比自己所認知價值大得多,數(shù)字化數(shù)據(jù)化企業(yè)的業(yè)務(wù)并運營好數(shù)據(jù)資產(chǎn)具有重大的投資價值。

2021年4月29日至5月1日,裴健教授與論文的其他作者還將在SDM (SIAM International Conference on Data Mining ,SIAM數(shù)據(jù)挖掘國際會議)上進行演講,對論文內(nèi)容進行解讀。

參考資料:

https://www.sfu.ca/~huxiah/sdm21_tutorial.html

https://youtu.be/VNesYXw-6hQ

責任編輯:梁菲 來源: 互聯(lián)網(wǎng)
相關(guān)推薦

2021-03-19 15:23:38

深度學(xué)習編程人工智能

2017-03-11 22:19:09

深度學(xué)習

2022-06-20 09:01:23

Git插件項目

2021-04-08 07:37:39

隊列數(shù)據(jù)結(jié)構(gòu)算法

2023-11-18 09:30:42

模型AI

2017-03-13 09:50:46

Python裝飾器

2023-02-10 09:04:27

2020-02-18 16:20:03

Redis ANSI C語言日志型

2022-08-01 11:33:09

用戶分析標簽策略

2023-09-11 08:13:03

分布式跟蹤工具

2018-05-22 08:24:50

PythonPyMongoMongoDB

2023-10-17 08:15:28

API前后端分離

2024-09-23 08:00:00

消息隊列MQ分布式系統(tǒng)

2020-07-03 08:21:57

Java集合框架

2019-05-14 09:31:16

架構(gòu)整潔軟件編程范式

2022-04-07 10:39:21

反射Java安全

2022-07-06 12:07:06

Python函數(shù)式編程

2019-04-01 10:43:59

Linux問題故障

2022-05-19 08:28:19

索引數(shù)據(jù)庫

2020-10-21 14:12:02

Single Sign
點贊
收藏

51CTO技術(shù)棧公眾號