自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="svvym"></sub>

<sub id="svvym"></sub><legend id="svvym"><track id="svvym"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌：引領(lǐng)ML發(fā)展的遷移學(xué)習(xí)，究竟在遷移什么？丨NeurIPS 2020

作者：青蘋果 2020-12-22 10:23:31

新聞人工智能

近幾年來，已經(jīng)有越來越多的研究者投入到遷移學(xué)習(xí)中。每年機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的頂級會議中都有關(guān)于遷移學(xué)習(xí)的文章發(fā)表。

在機(jī)器學(xué)習(xí)領(lǐng)域大熱的分類學(xué)習(xí)任務(wù)中，為了保證訓(xùn)練得到的分類模型具有準(zhǔn)確性和高可靠性，一般會作出兩個(gè)基本假設(shè)：

　　用于學(xué)習(xí)的訓(xùn)練樣本與新的測試樣本滿足獨(dú)立同分布；

　　必須有足夠可用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)好的分類模型。

　　但實(shí)際情況很難滿足這兩個(gè)條件。

[[359244]]

　　很多 ML 技術(shù)只有在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)處于相同的特征空間中或具有相同分布的假設(shè)下才能很好地發(fā)揮作用，一旦隨著時(shí)間推移，標(biāo)簽可用性變差或標(biāo)注樣本數(shù)據(jù)缺乏，效果便不盡如人意。

　　因此，這就引起 ML 中另一個(gè)需要關(guān)注的重要問題，如何利用源領(lǐng)域（Source domian）中少量的可用標(biāo)簽訓(xùn)練樣本 / 數(shù)據(jù)訓(xùn)練出魯棒性好的模型，對具有不同數(shù)據(jù)分布的無標(biāo)簽 / 少可用標(biāo)簽的目標(biāo)領(lǐng)域（Target domain）進(jìn)行預(yù)測。

　　由此，遷移學(xué)習(xí)（Transfer Learning）應(yīng)運(yùn)而生，并引起了廣泛的關(guān)注和研究。

[[359245]]

　　近幾年來，已經(jīng)有越來越多的研究者投入到遷移學(xué)習(xí)中。每年機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的頂級會議中都有關(guān)于遷移學(xué)習(xí)的文章發(fā)表。

　　顧名思義，遷移學(xué)習(xí)就是把一個(gè)領(lǐng)域已訓(xùn)練好的模型參數(shù)遷移到另一個(gè)領(lǐng)域，使得目標(biāo)領(lǐng)域能夠取得更好的學(xué)習(xí)效果。鑒于大部分的數(shù)據(jù)具有存在相關(guān)性，遷移學(xué)習(xí)可以比較輕松地將模型已學(xué)到的知識分享給新模型，從而避免了從頭學(xué)習(xí)，這加快效率，也大大提高樣本不充足任務(wù)的分類識別結(jié)果。

　　今年的 NeurIPS 上，谷歌的一支研究團(tuán)隊(duì)發(fā)表了一篇名為 What is being transferred in transfer learning? 的論文，揭示了關(guān)于遷移學(xué)習(xí)的最新研究進(jìn)展。

　　在這篇論文中，作者便向我們提供了新的工具和分析方法，從不同的角度剖析了不同模塊的作用及影響成功遷移的因素，得到了一些有趣的結(jié)論，例如，相比高層的特征，預(yù)訓(xùn)練模型適合遷移的主要是低層的統(tǒng)計(jì)信息。

　　具體而言，通過對遷移到塊混洗圖像（block-shuffled images）的一系列分析，他們從學(xué)習(xí)低層數(shù)據(jù)統(tǒng)計(jì)中分離出了特征復(fù)用（feature reuse）的效果，并表明當(dāng)從預(yù)訓(xùn)練權(quán)重進(jìn)行初始化訓(xùn)練時(shí)，該模型位于損失函數(shù) “地圖” 的同一 “盆地”（basin）中，不同實(shí)例在特征空間中相似，并且在參數(shù)空間中接近（注：basin 一詞在該領(lǐng)域文獻(xiàn)中經(jīng)常使用，指代參數(shù)空間中損失函數(shù)相對較低值的區(qū)域）。

　　遷移學(xué)習(xí)應(yīng)用現(xiàn)狀

　　前百度首席科學(xué)家吳恩達(dá)（Andrew Ng）曾經(jīng)說過：遷移學(xué)習(xí)將會是繼監(jiān)督學(xué)習(xí)之后，下一個(gè)機(jī)器學(xué)習(xí)商業(yè)成功的驅(qū)動(dòng)力。

　　在 2016 年的 NIPS 會議上，吳恩達(dá)曾給出了一個(gè)未來 AI 方向的技術(shù)發(fā)展判斷：毋庸置疑，目前成熟度最高、成功商用的是監(jiān)督學(xué)習(xí)，緊隨其后，下一個(gè)近 5 年內(nèi)最可能走向商用的 AI 技術(shù)將會是遷移學(xué)習(xí)。

[[359247]]

　　DeepMind 首席執(zhí)行官 Demis Hassabis 也曾表示，遷移學(xué)習(xí)也是最有前途的技術(shù)之一，有朝一日可能會觸發(fā)通用人工智能的誕生（AGI）。在當(dāng)下深度學(xué)習(xí)的發(fā)展大潮中看來，遷移學(xué)習(xí)確實(shí)如此。

　　如今距離這兩位 AI 學(xué)者的 “預(yù)測” 已經(jīng)過去了近 5 年。那么，目前遷移學(xué)習(xí)應(yīng)用正呈現(xiàn)怎樣的局面？

　　在計(jì)算機(jī)視覺領(lǐng)域，遷移學(xué)習(xí)已經(jīng)有了很多成功的應(yīng)用，甚至在一些任務(wù)中，機(jī)器能以超越人類精確度的水平完成某項(xiàng)任務(wù)。

　　而在 NLP 領(lǐng)域，遷移學(xué)習(xí)也是一系列研究突破中的關(guān)鍵組成部分，尤其在跨域情感分析上展現(xiàn)了其潛力。

[[359248]]

　　與此同時(shí)，遷移學(xué)習(xí)所存在的問題也隨之暴露。研究人員發(fā)現(xiàn)，某些案例中，源域和目標(biāo)域之間在視覺形式上仍存在不小的差異。對于研究人員而言，已經(jīng)很難理解什么能夠成功進(jìn)行遷移，以及網(wǎng)絡(luò)的哪些部分對此負(fù)責(zé)。在這篇論文中，研究團(tuán)隊(duì)專注于研究視覺領(lǐng)域的遷移學(xué)習(xí)。

　　文中涉及的兩大數(shù)據(jù)集分別是：

　　CheXpert 數(shù)據(jù)集，這是在 2019 年 AAAI 上，吳恩達(dá)的斯坦福團(tuán)隊(duì)發(fā)布的大型 X 射線數(shù)據(jù)集，此數(shù)據(jù)集考慮到了不同疾病的胸部 X 射線醫(yī)學(xué)影像，它包含 65,240 位病人的 224,316 張標(biāo)注好的胸部 X 光片以及放射科醫(yī)師為每張胸片寫的病理報(bào)告；

　　DomainNet 數(shù)據(jù)集，該數(shù)據(jù)集發(fā)布在 2019 年 ICCV 上，此論文作者收集并注釋了迄今為止最大的 UDA 數(shù)據(jù)集，專門用于探究不同領(lǐng)域中的遷移學(xué)習(xí)。其中存在顯著的領(lǐng)域差異和大量的類別劃分，包含 6 個(gè)域和分布在 345 個(gè)類別中的近 60 萬幅圖像，范圍從真實(shí)圖像到草圖，剪貼畫和繪畫樣本，解決了多源 UDA 研究在數(shù)據(jù)可用性方面的差距。

　　4 種網(wǎng)絡(luò)的遷移學(xué)習(xí)

　　他們分析了四種不同情況下的網(wǎng)絡(luò)：

　　1. 預(yù)訓(xùn)練網(wǎng)絡(luò)（P, pre-trained model）；

　　2. 隨機(jī)初始化的網(wǎng)絡(luò)（RI, random initialization）；

　　3. 在源域上進(jìn)行預(yù)訓(xùn)練后在目標(biāo)域上進(jìn)行微調(diào)的網(wǎng)絡(luò)（P-T, model trained/fine-tuned on target domain starting from pre-trained weights）；

　　4. 隨機(jī)初始化對目標(biāo)域進(jìn)行普通訓(xùn)練的模型（RI-T, model trained on target domain from random initialization）。

　　首先，團(tuán)隊(duì)通過改組數(shù)據(jù)研究了特征復(fù)用。將下游任務(wù)的圖像劃分為相同大小的塊并隨機(jī)排序，數(shù)據(jù)中的塊混洗破壞了圖像的視覺特征。該分析表明了特征復(fù)用的重要性，并證明了不受像素混洗干擾的低級統(tǒng)計(jì)數(shù)據(jù)在成功傳輸中也起作用。

　　然后，需要比較經(jīng)過訓(xùn)練的模型的詳細(xì)行為。為此，他們調(diào)查了從預(yù)訓(xùn)練和從零開始訓(xùn)練的模型兩者間的異同。實(shí)驗(yàn)證明，與通過隨機(jī)初始化訓(xùn)練的模型相比，使用預(yù)訓(xùn)練的權(quán)重訓(xùn)練的模型的兩個(gè)實(shí)例在特征空間上更為相似。

　　再就是調(diào)查了預(yù)訓(xùn)練權(quán)重和隨機(jī)初始化權(quán)重訓(xùn)練的模型的損失情況，并觀察到從預(yù)訓(xùn)練權(quán)重訓(xùn)練的兩個(gè)模型實(shí)例之間沒有性能降低，這表明預(yù)訓(xùn)練權(quán)重能夠?qū)?yōu)化引導(dǎo)到損失函數(shù)的 basin。

　　接下來，我們結(jié)合文章中的實(shí)驗(yàn)和結(jié)果來詳細(xì)的分析方法論并探討 “What is being transferred?”。

　　什么被遷移了？

　　人類視覺系統(tǒng)的組成具有層次化的特征，視覺皮層中的神經(jīng)元對邊緣等低級特征做出響應(yīng)，而上層的神經(jīng)元對復(fù)雜的語義輸入進(jìn)行響應(yīng)。一般認(rèn)為，遷移學(xué)習(xí)的優(yōu)勢來自重用預(yù)先訓(xùn)練的特征層。如果下游任務(wù)因?yàn)樘』虿粔蚨鄻踊鵁o法學(xué)習(xí)良好的特征表示時(shí)，這會變得特別有用。

　　因此，很容易理解，大家認(rèn)為遷移學(xué)習(xí)有用的直覺思維就是，遷移學(xué)習(xí)通過特征復(fù)用來給樣本少的數(shù)據(jù)提供一個(gè)較好的特征先驗(yàn)。

　　然而，這種直覺卻無法解釋為什么在遷移學(xué)習(xí)的許多成功應(yīng)用中，目標(biāo)領(lǐng)域和源領(lǐng)域在視覺上差異很大的問題。

　　圖 1 。圖片出處：arXiv

　　為了更清楚地描述特征復(fù)用的作用，作者使用了圖 1 中包含自然圖像（ImageNet）的源域（預(yù)訓(xùn)練）和一些與自然圖像的視覺相似度低的目標(biāo)域（下游任務(wù)）。

　　圖 2 可以看到，real domain 具有最大的性能提升，因?yàn)樵撚虬c ImageNet 共享相似視覺特征的自然圖像。這能夠支撐團(tuán)隊(duì)成員的假設(shè) —— 特征復(fù)用在遷移學(xué)習(xí)中起著重要作用。另一方面，在數(shù)據(jù)差別特別大的時(shí)候（CheXpert 和 quickdraw），仍然可以觀察到遷移學(xué)習(xí)帶來的明顯的性能提升。

　　除最終性能外，在所有情況下，P-T 的優(yōu)化收斂速度都比 RI-T 快得多。這也暗示出預(yù)訓(xùn)練權(quán)重在遷移學(xué)習(xí)中的優(yōu)勢并非直接來自特征復(fù)用。

　　為了進(jìn)一步驗(yàn)證該假設(shè)，團(tuán)隊(duì)修改了下游任務(wù)，使其與正常視覺域的距離進(jìn)一步拉大，尤其是將下游任務(wù)的圖像劃分為相等大小的塊并隨機(jī)排序。

　　混洗擾亂了那些圖像中的高級視覺功能，模型只能抓住淺層特征，而抽象特征沒法很好地被提取。

　　其中，塊大小 224*224 的極端情況意味著不進(jìn)行混洗；在另一種極端情況下，圖像中的所有像素都將被混洗，從而使得在預(yù)訓(xùn)練中學(xué)到的任何視覺特征完全無用。

　　在本文中，團(tuán)隊(duì)成員創(chuàng)造出了一種特殊情況，每個(gè)通道的像素都可以獨(dú)立的移動(dòng)，并且可以移動(dòng)到其他通道中。

　　圖 3 。圖片出處：arXiv

　　圖 3 顯示了不同塊大小對最終性能和優(yōu)化速度的影響。我們可以觀察到以下幾點(diǎn)：

　　隨著打亂程度的加劇，RI-T 和 P-T 的最終性能都會下降，任務(wù)越發(fā)困難；

　　相對精度差異隨塊尺寸（clipart, real）的減小而減小，說明特征復(fù)用很有效果；

　　quickdraw 上情況相反是由于其數(shù)據(jù)集和預(yù)訓(xùn)練的數(shù)據(jù)集相差過大，但是即便如此，在 quickdraw 上預(yù)訓(xùn)練還是有效的，說明存在除了特征復(fù)用以外的因素；

　　P-T 的優(yōu)化速度相對穩(wěn)定，而 RI-T 的優(yōu)化速度隨著塊尺寸的減小時(shí)存在急劇的下降。這表明特征復(fù)用并不是影響 P-T 訓(xùn)練速度的主要因素。

　　由上述實(shí)驗(yàn)得出結(jié)論，特征復(fù)用在遷移學(xué)習(xí)中起著非常重要的作用，尤其是當(dāng)下游任務(wù)與預(yù)訓(xùn)練域共享相似的視覺特征時(shí)。但是仍存在其他因素，例如低級別的統(tǒng)計(jì)信息，可能會帶來遷移學(xué)習(xí)的顯著優(yōu)勢，尤其是在優(yōu)化速度方面。

　　失誤和特征相似性

　　這部分主要通過探究不同模型有哪些 common mistakes 和 uncommon mistakes 來揭示預(yù)訓(xùn)練的作用。

　　為了理解不同模型之間的差異，作者首先比較兩個(gè) P-T，一個(gè) P-T 加一個(gè) RI-T 和兩個(gè) RI-T 之間的兩類錯(cuò)誤率并發(fā)現(xiàn) P-T 和 RI-T 模型之間存在許多 uncommon mistakes，而兩個(gè) P-T 的 uncommon mistakes 則要少得多。對于 CheXpert 和 DomainNet 目標(biāo)域，都是這種情況。

　　在 DomainNet 上可視化每個(gè)模型的兩類錯(cuò)誤并觀察得到，P-T 不正確和 RI-T 正確的數(shù)據(jù)樣本主要包括模棱兩可的例子；而 P-T 是正確的數(shù)據(jù)樣本和 RI-T 是不正確的數(shù)據(jù)樣本也包括許多簡單樣本。

　　這符合假設(shè)，P-T 在簡單樣本上的成功率很高，而在比較模糊難以判斷的樣本上比較難 (而此時(shí) RI-T 往往比較好)，說明 P-T 有著很強(qiáng)的先驗(yàn)知識，因此很難適應(yīng)目標(biāo)域。

　　為了加強(qiáng)對上述想法的驗(yàn)證，團(tuán)隊(duì)成員又對特征空間中兩個(gè)網(wǎng)絡(luò)的相似性進(jìn)行了研究。

　　通過中心核對齊 (CKA, Centered Kernel Alignment) 這一指標(biāo)發(fā)現(xiàn)，P-T 的兩個(gè)實(shí)例在不同層之間非常相似，在 P-T 和 P 之間也是如此。但是 P-T 和 RI-T 實(shí)例或兩個(gè) RI-T 實(shí)例之間，相似性非常低。

　　表 2 。圖片出處：arXiv

　　也就是說，基于預(yù)訓(xùn)練的模型之間的特征相似度很高，而 RI-T 與其他模型相似度很低，哪怕是兩個(gè)相同初始化的 RI-T。這顯然在說明預(yù)訓(xùn)練模型之間往往是在重復(fù)利用相同的特征，也就強(qiáng)調(diào)了特征復(fù)用的作用。表 2 為不同模型的參數(shù)的距離，同樣能夠反映出上述結(jié)論。

　　泛化性能

　　更好度量泛化性能的常用標(biāo)準(zhǔn)，是研究在最終解決方案附近的損失函數(shù)里 basin 程度。

　　作者用Θ和Θ̃表示兩個(gè)不同檢查點(diǎn)的所有權(quán)重，通過兩個(gè)權(quán)重的線性插值{Θ휆=（1-λ）Θ+λΘ̃：λϵ[0,1]} 評估一系列模型的表現(xiàn)。

　　由于神經(jīng)網(wǎng)絡(luò)的非線性和組成結(jié)構(gòu)，兩個(gè)性能良好的模型權(quán)重的線性組合不一定能定義效果良好的模型，因此通常會沿線性插值路徑預(yù)期到性能降低。

　　但是，當(dāng)兩個(gè)解屬于損失函數(shù)的同一 basin 時(shí)，線性插值仍保留在 basin 中，此時(shí)的結(jié)果是，不存在性能障礙。此外，對來自同一 basin 的兩個(gè)隨機(jī)解進(jìn)行插值通?？梢援a(chǎn)生更接近 basin 中心的解，這可能比端點(diǎn)具有更好的泛化性能。

　　團(tuán)隊(duì)將重點(diǎn)放在凸包（convex hull）和線性插值上，以避免產(chǎn)生瑣碎的連通性結(jié)果。需要強(qiáng)調(diào)的是，要求 basin 上的大多數(shù)點(diǎn)的凸組合也都在 basin 上，這種額外的約束使得通過低損耗（非線性）路徑連接或不連接多個(gè) basin。

　　此概念的具體形式化以及將凸集設(shè)置為 basin 的三點(diǎn)要求論文中均給出了詳細(xì)說明，在此便不再贅述。

　　圖 4 中所顯示出的插值結(jié)果，左為 DomainNet real, 右為 quickdraw。圖片出處：arXiv

　　一方面，兩次隨機(jī)運(yùn)行的 P-T 解決方案之間沒有觀察到性能降低，這表明預(yù)訓(xùn)練的權(quán)重將優(yōu)化引導(dǎo)到了損失函數(shù)的 basin。另一方面，在兩個(gè) RI-T 運(yùn)行的解決方案之間清楚地觀察到了障礙?？梢婎A(yù)訓(xùn)練模型之間的損失函數(shù)是很光滑的，不同于 RI-T。

　　模塊重要度

　　如果我們將訓(xùn)練好的模型的某一層參數(shù)替換為其初始參數(shù)，然后觀察替換前后的正確率就能一定程度上判斷這個(gè)層在整個(gè)網(wǎng)絡(luò)中的重要性，那么，模塊重要度就是一個(gè)這樣的類似的指標(biāo)。

　　圖5。圖片出處：arXiv

　　圖 5 反映了不同模塊不同層的重要度。在監(jiān)督學(xué)習(xí)案例中也有類似的模式。唯一的區(qū)別可能是，“FC” 層對于 P-T 模型的重要性是可預(yù)料的。

　　接下來，作者使用擴(kuò)展定義以及原始定義來研究不同模塊的重要度。很容易可以注意到，優(yōu)化和直接路徑都為模塊的重要度提供了有趣的見解?；蛟S，與最終值相比，權(quán)重的最佳值是進(jìn)行此分析的更好的起點(diǎn)選擇。

　　而圖 6 顯示了對 “ Conv1” 模塊的分析，正如圖 5 所示，這是一個(gè)關(guān)鍵模塊。

　　圖6。圖片出處：arXiv

　　圖7。圖片出處：arXiv

　　通過初始化來自預(yù)訓(xùn)練優(yōu)化路徑上不同檢查點(diǎn)的預(yù)訓(xùn)練權(quán)重，比較遷移學(xué)習(xí)的好處。圖 7 顯示了從不同的預(yù)訓(xùn)練檢查點(diǎn)進(jìn)行微調(diào)時(shí)的最終性能和優(yōu)化速度。

　　總體而言，預(yù)訓(xùn)練的好處隨著檢查點(diǎn)指數(shù)的增加而增加，可得出以下結(jié)論：

　　在預(yù)訓(xùn)練中，在學(xué)習(xí)率下降的 epoch 30 和 epoch 60 觀察到了很大的性能提升。但是，從檢查點(diǎn) 29、30、31（和類似的 59、60、61）初始化不會顯示出明顯不同的影響。另一方面，特別是對于 real 和 clipart 的最終性能，當(dāng)從訓(xùn)練前性能一直處于平穩(wěn)狀態(tài)的檢查點(diǎn)（如檢查點(diǎn) 29 和 59）開始時(shí)，可以觀察到顯著的改進(jìn)。這表明，預(yù)訓(xùn)練性能并不總是作為預(yù)訓(xùn)練權(quán)重對遷移學(xué)習(xí)有效性的忠實(shí)指標(biāo)。

　　quickdraw 在預(yù)訓(xùn)練中發(fā)現(xiàn)最終性能的收益要小得多，并在檢查點(diǎn) 10 迅速達(dá)到平穩(wěn)狀態(tài)，而 real 和 clipart 直到檢查點(diǎn) 60 都不斷看到的性能的顯著改進(jìn)。另一方面，隨著檢查點(diǎn)索引的增加，所有三個(gè)任務(wù)在優(yōu)化速度改進(jìn)上均具有明顯的優(yōu)勢。

　　優(yōu)化速度在檢查點(diǎn) 10 處開始達(dá)到平穩(wěn)狀態(tài)，而對于 real 和 clipart，最終結(jié)果則不斷提升。在訓(xùn)練前的早期檢查點(diǎn)是在收斂模型的 basin 之外，在訓(xùn)練期間的某個(gè)點(diǎn)便進(jìn)入 basin。這也解釋了在一些檢查點(diǎn)之后性能停滯不前的原因。

　　因此，我們可以早一步地選取檢查點(diǎn)，這樣便不會損失微調(diào)模型的準(zhǔn)確性。這種現(xiàn)象的起點(diǎn)取決于預(yù)訓(xùn)練模型何時(shí)進(jìn)入其最終 basin。

　　總而言之，這項(xiàng)研究明確闡述了遷移學(xué)習(xí)中所遷移的內(nèi)容以及網(wǎng)絡(luò)的哪些部分正在發(fā)揮作用。

　　對于成功的遷移，數(shù)據(jù)的特征復(fù)用和底層統(tǒng)計(jì)都非常重要。通過對輸入塊進(jìn)行混洗來研究特征重用的作用，表明當(dāng)從預(yù)訓(xùn)練權(quán)重初始化進(jìn)行訓(xùn)練時(shí)，網(wǎng)絡(luò)停留在解決方案的同一 basin 中，特征相似并且模型在參數(shù)空間中的距離附近。

　　作者還進(jìn)一步確認(rèn)了，較低的層負(fù)責(zé)更一般的功能，較高層的模塊對參數(shù)的擾動(dòng)更敏感。通過對損失函數(shù) basin 的發(fā)現(xiàn)可用于改進(jìn)集成方法，對低級數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)的觀察提高了訓(xùn)練速度，這可能會導(dǎo)致更好的網(wǎng)絡(luò)初始化方法。利用這些發(fā)現(xiàn)來改善遷移學(xué)習(xí)，將十分具有價(jià)值。

責(zé)任編輯：張燕妮來源：新智元

機(jī)器學(xué)習(xí)人工智能谷歌

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<thead id="hmpox"></thead>}