自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

聽說(shuō)你了解深度學(xué)習(xí)最常用的學(xué)習(xí)算法：Adam優(yōu)化算法？

作者：蔣思源 2017-07-13 10:03:43

移動(dòng)開發(fā) 深度學(xué)習(xí) 算法

Adam 優(yōu)化算法是隨機(jī)梯度下降算法的擴(kuò)展式，近來(lái)其廣泛用于深度學(xué)習(xí)應(yīng)用中，尤其是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等任務(wù)。

深度學(xué)習(xí)常常需要大量的時(shí)間和機(jī)算資源進(jìn)行訓(xùn)練，這也是困擾深度學(xué)習(xí)算法開發(fā)的重大原因。雖然我們可以采用分布式并行訓(xùn)練加速模型的學(xué)習(xí)，但所需的計(jì)算資源并沒(méi)有絲毫減少。而唯有需要資源更少、令模型收斂更快的***化算法，才能從根本上加速機(jī)器的學(xué)習(xí)速度和效果，Adam 算法正為此而生！

Adam 優(yōu)化算法是隨機(jī)梯度下降算法的擴(kuò)展式，近來(lái)其廣泛用于深度學(xué)習(xí)應(yīng)用中，尤其是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等任務(wù)。本文分為兩部分，前一部分簡(jiǎn)要介紹了 Adam 優(yōu)化算法的特性和其在深度學(xué)習(xí)中的應(yīng)用，后一部分從 Adam 優(yōu)化算法的原論文出發(fā)，詳細(xì)解釋和推導(dǎo)了它的算法過(guò)程和更新規(guī)則。我們希望讀者在讀完兩部分后能了解掌握以下幾點(diǎn)：

Adam 算法是什么，它為優(yōu)化深度學(xué)習(xí)模型帶來(lái)了哪些優(yōu)勢(shì)。
Adam 算法的原理機(jī)制是怎么樣的，它與相關(guān)的 AdaGrad 和 RMSProp 方法有什么區(qū)別。
Adam 算法應(yīng)該如何調(diào)參，它常用的配置參數(shù)是怎么樣的。
Adam 的實(shí)現(xiàn)優(yōu)化的過(guò)程和權(quán)重更新規(guī)則
Adam 的初始化偏差修正的推導(dǎo)
Adam 的擴(kuò)展形式：AdaMax

什么是 Adam 優(yōu)化算法？

Adam 是一種可以替代傳統(tǒng)隨機(jī)梯度下降過(guò)程的一階優(yōu)化算法，它能基于訓(xùn)練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重。Adam 最開始是由 OpenAI 的 Diederik Kingma 和多倫多大學(xué)的 Jimmy Ba 在提交到 2015 年 ICLR 論文（Adam: A Method for Stochastic Optimization）中提出的。本文前后兩部分都基于該論文的論述和解釋。

首先該算法名為「Adam」，其并不是首字母縮寫，也不是人名。它的名稱來(lái)源于適應(yīng)性矩估計(jì)（adaptive moment estimation）。在介紹這個(gè)算法時(shí)，原論文列舉了將 Adam 優(yōu)化算法應(yīng)用在非凸優(yōu)化問(wèn)題中所獲得的優(yōu)勢(shì)：

直截了當(dāng)?shù)貙?shí)現(xiàn)
高效的計(jì)算
所需內(nèi)存少
梯度對(duì)角縮放的不變性（第二部分將給予證明）
適合解決含大規(guī)模數(shù)據(jù)和參數(shù)的優(yōu)化問(wèn)題
適用于非穩(wěn)態(tài)（non-stationary）目標(biāo)
適用于解決包含很高噪聲或稀疏梯度的問(wèn)題
超參數(shù)可以很直觀地解釋，并且基本上只需極少量的調(diào)參

Adam 優(yōu)化算法的基本機(jī)制

Adam 算法和傳統(tǒng)的隨機(jī)梯度下降不同。隨機(jī)梯度下降保持單一的學(xué)習(xí)率（即 alpha）更新所有的權(quán)重，學(xué)習(xí)率在訓(xùn)練過(guò)程中并不會(huì)改變。而 Adam 通過(guò)計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)而為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率。

Adam 算法的提出者描述其為兩種隨機(jī)梯度下降擴(kuò)展式的優(yōu)點(diǎn)集合，即：

適應(yīng)性梯度算法（AdaGrad）為每一個(gè)參數(shù)保留一個(gè)學(xué)習(xí)率以提升在稀疏梯度（即自然語(yǔ)言和計(jì)算機(jī)視覺(jué)問(wèn)題）上的性能。
均方根傳播（RMSProp）基于權(quán)重梯度最近量級(jí)的均值為每一個(gè)參數(shù)適應(yīng)性地保留學(xué)習(xí)率。這意味著算法在非穩(wěn)態(tài)和在線問(wèn)題上有很有優(yōu)秀的性能。

Adam 算法同時(shí)獲得了 AdaGrad 和 RMSProp 算法的優(yōu)點(diǎn)。Adam 不僅如 RMSProp 算法那樣基于一階矩均值計(jì)算適應(yīng)性參數(shù)學(xué)習(xí)率，它同時(shí)還充分利用了梯度的二階矩均值（即有偏方差/uncentered variance）。具體來(lái)說(shuō)，算法計(jì)算了梯度的指數(shù)移動(dòng)均值（exponential moving average），超參數(shù) beta1 和 beta2 控制了這些移動(dòng)均值的衰減率。

移動(dòng)均值的初始值和 beta1、beta2 值接近于 1（推薦值），因此矩估計(jì)的偏差接近于 0。該偏差通過(guò)首先計(jì)算帶偏差的估計(jì)而后計(jì)算偏差修正后的估計(jì)而得到提升。如果對(duì)具體的實(shí)現(xiàn)細(xì)節(jié)和推導(dǎo)過(guò)程感興趣，可以繼續(xù)閱讀該第二部分和原論文。

Adam 算法的高效性

Adam 在深度學(xué)習(xí)領(lǐng)域內(nèi)是十分流行的算法，因?yàn)樗芎芸斓貙?shí)現(xiàn)優(yōu)良的結(jié)果。經(jīng)驗(yàn)性結(jié)果證明 Adam 算法在實(shí)踐中性能優(yōu)異，相對(duì)于其他種類的隨機(jī)優(yōu)化算法具有很大的優(yōu)勢(shì)。

在原論文中，作者經(jīng)驗(yàn)性地證明了 Adam 算法的收斂性符合理論性的分析。Adam 算法可以在 MNIST 手寫字符識(shí)別和 IMDB 情感分析數(shù)據(jù)集上應(yīng)用優(yōu)化 logistic 回歸算法，也可以在 MNIST 數(shù)據(jù)集上應(yīng)用于多層感知機(jī)算法和在 CIFAR-10 圖像識(shí)別數(shù)據(jù)集上應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)。他們總結(jié)道：「在使用大型模型和數(shù)據(jù)集的情況下，我們證明了 Adam 優(yōu)化算法在解決局部深度學(xué)習(xí)問(wèn)題上的高效性?！?/p>

Adam 優(yōu)化算法和其他優(yōu)化算法在多層感知機(jī)模型中的對(duì)比

事實(shí)上，Insofar、RMSprop、Adadelta 和 Adam 算法都是比較類似的優(yōu)化算法，他們都在類似的情景下都可以執(zhí)行地非常好。但是 Adam 算法的偏差修正令其在梯度變得稀疏時(shí)要比 RMSprop 算法更快速和優(yōu)秀。Insofar 和 Adam 優(yōu)化算法基本是***的全局選擇。同樣在 CS231n 課程中，Adam 算法也推薦作為默認(rèn)的優(yōu)化算法。

雖然 Adam 算法在實(shí)踐中要比 RMSProp 更加優(yōu)秀，但同時(shí)我們也可以嘗試 SGD+Nesterov 動(dòng)量來(lái)作為 Adam 的替代。即我們通常推薦在深度學(xué)習(xí)模型中使用 Adam 算法或 SGD+Nesterov 動(dòng)量法。

Adam 的參數(shù)配置

alpha：同樣也稱為學(xué)習(xí)率或步長(zhǎng)因子，它控制了權(quán)重的更新比率（如 0.001）。較大的值（如 0.3）在學(xué)習(xí)率更新前會(huì)有更快的初始學(xué)習(xí)，而較小的值（如 1.0E-5）會(huì)令訓(xùn)練收斂到更好的性能。
beta1：一階矩估計(jì)的指數(shù)衰減率（如 0.9）。
beta2：二階矩估計(jì)的指數(shù)衰減率（如 0.999）。該超參數(shù)在稀疏梯度（如在 NLP 或計(jì)算機(jī)視覺(jué)任務(wù)中）中應(yīng)該設(shè)置為接近 1 的數(shù)。
epsilon：該參數(shù)是非常小的數(shù)，其為了防止在實(shí)現(xiàn)中除以零（如 10E-8）。

另外，學(xué)習(xí)率衰減同樣可以應(yīng)用到 Adam 中。原論文使用衰減率 alpha = alpha/sqrt(t) 在 logistic 回歸每個(gè) epoch(t) 中都得到更新。

Adam 論文建議的參數(shù)設(shè)定：

測(cè)試機(jī)器學(xué)習(xí)問(wèn)題比較好的默認(rèn)參數(shù)設(shè)定為：alpha=0.001、beta1=0.9、beta2=0.999 和 epsilon=10E−8。

我們也可以看到流行的深度學(xué)習(xí)庫(kù)都采用了該論文推薦的參數(shù)作為默認(rèn)設(shè)定。

TensorFlow：learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08.
Keras：lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0.
Blocks：learning_rate=0.002, beta1=0.9, beta2=0.999, epsilon=1e-08, decay_factor=1.
Lasagne：learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08
Caffe：learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08
MxNet：learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8
Torch：learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8

在***部分中，我們討論了 Adam 優(yōu)化算法在深度學(xué)習(xí)中的基本特性和原理：

Adam 是一種在深度學(xué)習(xí)模型中用來(lái)替代隨機(jī)梯度下降的優(yōu)化算法。
Adam 結(jié)合了 AdaGrad 和 RMSProp 算法***的性能，它還是能提供解決稀疏梯度和噪聲問(wèn)題的優(yōu)化方法。
Adam 的調(diào)參相對(duì)簡(jiǎn)單，默認(rèn)參數(shù)就可以處理絕大部分的問(wèn)題。

而接下來(lái)的第二部分我們可以從原論文出發(fā)具體展開 Adam 算法的過(guò)程和更新規(guī)則等。

論文：Adam: A Method for Stochastic Optimization

我們提出了 Adam 算法，即一種對(duì)隨機(jī)目標(biāo)函數(shù)執(zhí)行一階梯度優(yōu)化的算法，該算法基于適應(yīng)性低階矩估計(jì)。Adam 算法很容易實(shí)現(xiàn)，并且有很高的計(jì)算效率和較低的內(nèi)存需求。Adam 算法梯度的對(duì)角縮放（diagonal rescaling）具有不變性，因此很適合求解帶有大規(guī)模數(shù)據(jù)或參數(shù)的問(wèn)題。該算法同樣適用于解決大噪聲和稀疏梯度的非穩(wěn)態(tài)（non-stationary）問(wèn)題。超參數(shù)可以很直觀地解釋，并只需要少量調(diào)整。本論文還討論了 Adam 算法與其它一些相類似的算法。我們分析了 Adam 算法的理論收斂性，并提供了收斂率的區(qū)間，我們證明收斂速度在在線凸優(yōu)化框架下達(dá)到了***。經(jīng)驗(yàn)結(jié)果也展示了 Adam 算法在實(shí)踐上比得上其他隨機(jī)優(yōu)化方法。***，我們討論了 AdaMax，即一種基于無(wú)窮范數(shù)（infinity norm）的 Adam 變體。

如上算法所述，在確定了參數(shù)α、β1、β2 和隨機(jī)目標(biāo)函數(shù) f(θ) 之后，我們需要初始化參數(shù)向量、一階矩向量、二階矩向量和時(shí)間步。然后當(dāng)參數(shù)θ沒(méi)有收斂時(shí)，循環(huán)迭代地更新各個(gè)部分。即時(shí)間步 t 加 1、更新目標(biāo)函數(shù)在該時(shí)間步上對(duì)參數(shù)θ所求的梯度、更新偏差的一階矩估計(jì)和二階原始矩估計(jì)，再計(jì)算偏差修正的一階矩估計(jì)和偏差修正的二階矩估計(jì)，然后再用以上計(jì)算出來(lái)的值更新模型的參數(shù)θ。

2. 算法

上圖偽代碼為展現(xiàn)了 Adam 算法的基本步驟。假定 f(θ) 為噪聲目標(biāo)函數(shù)：即關(guān)于參數(shù)θ可微的隨機(jī)標(biāo)量函數(shù)。我們對(duì)怎樣減少該函數(shù)的期望值比較感興趣，即對(duì)于不同參數(shù)θ，f 的期望值 E[f(θ)]。其中 f1(θ), ..., , fT (θ) 表示在隨后時(shí)間步 1, ..., T 上的隨機(jī)函數(shù)值。這里的隨機(jī)性來(lái)源于隨機(jī)子樣本（小批量）上的評(píng)估和固有的函數(shù)噪聲。而表示 ft(θ) 關(guān)于θ的梯度，即在實(shí)踐步驟 t 下 ft 對(duì)θ的偏導(dǎo)數(shù)向量。

該算法更新梯度的指數(shù)移動(dòng)均值（mt）和平方梯度（vt），而參數(shù) β1、β2 ∈ [0, 1) 控制了這些移動(dòng)均值（moving average）指數(shù)衰減率。移動(dòng)均值本身使用梯度的一階矩（均值）和二階原始矩（有偏方差）進(jìn)行估計(jì)。然而因?yàn)檫@些移動(dòng)均值初始化為 0 向量，所以矩估計(jì)值會(huì)偏差向 0，特別是在初始時(shí)間步中和衰減率非常小（即β接近于 1）的情況下是這樣的。但好消息是，初始化偏差很容易抵消，因此我們可以得到偏差修正（bias-corrected）的估計(jì) mt hat 和 vt hat。

注意算法的效率可以通過(guò)改變計(jì)算順序而得到提升，例如將偽代碼***三行循環(huán)語(yǔ)句替代為以下兩個(gè)：

2.1 Adam 的更新規(guī)則

Adam 算法更新規(guī)則的一個(gè)重要特征就是它會(huì)很謹(jǐn)慎地選擇步長(zhǎng)的大小。假定ε=0，則在時(shí)間步 t 和參數(shù)空間上的有效下降步長(zhǎng)為有效下降步長(zhǎng)有兩個(gè)上確界：即在情況下，有效步長(zhǎng)的上確界滿足和其他情況下滿足 |∆t| ≤ α。***種情況只有在極其稀疏的情況下才會(huì)發(fā)生：即梯度除了當(dāng)前時(shí)間步不為零外其他都為零。而在不那么稀疏的情況下，有效步長(zhǎng)將會(huì)變得更小。當(dāng)

時(shí)，我們有，因此可以得出上確界 |∆t| < α。在更通用的場(chǎng)景中，因?yàn)?nbsp;|E[g]/ p E[g^2]| ≤ 1，我們有。每一個(gè)時(shí)間步的有效步長(zhǎng)在參數(shù)空間中的量級(jí)近似受限于步長(zhǎng)因子α，即。這個(gè)可以理解為在當(dāng)前參數(shù)值下確定一個(gè)置信域，因此其要優(yōu)于沒(méi)有提供足夠信息的當(dāng)前梯度估計(jì)。這正可以令其相對(duì)簡(jiǎn)單地提前知道α正確的范圍。

對(duì)于許多機(jī)器學(xué)習(xí)模型來(lái)說(shuō)，我們知道好的***狀態(tài)是在參數(shù)空間內(nèi)的集合域上有極高的概率。這并不罕見，例如我們可以在參數(shù)上有一個(gè)先驗(yàn)分布。因?yàn)?alpha;確定了參數(shù)空間內(nèi)有效步長(zhǎng)的量級(jí)（即上確界），我們常常可以推斷出α的正確量級(jí)，而***解也可以從θ0 開始通過(guò)一定量的迭代而達(dá)到。我們可以將稱之為信噪比（signal-to-noise ratio/SNR）。如果 SNR 值較小，那么有效步長(zhǎng)∆t 將接近于 0，目標(biāo)函數(shù)也將收斂到極值。這是非常令人滿意的屬性，因?yàn)樵叫〉?nbsp;SNR 就意味著算法對(duì)方向是否符合真實(shí)梯度方向存在著越大的不確定性。例如，SNR 值在***解附近趨向于 0，因此也會(huì)在參數(shù)空間有更小的有效步長(zhǎng)：即一種自動(dòng)退火（automatic annealing）的形式。有效步長(zhǎng)∆t 對(duì)于梯度縮放來(lái)說(shuō)仍然是不變量，我們?nèi)绻靡蜃?nbsp;c 重縮放（rescaling）梯度 g，即相當(dāng)于用因子 c 重縮放和用因子 c^2 縮放，而在計(jì)算信噪比時(shí)縮放因子會(huì)得到抵消：

3 初始化偏差修正

正如本論文第二部分算法所述，Adam 利用了初始化偏差修正項(xiàng)。本部分將由二階矩估計(jì)推導(dǎo)出這一偏差修正項(xiàng)，一階矩估計(jì)的推導(dǎo)完全是相似的。首先我們可以求得隨機(jī)目標(biāo)函數(shù) f 的梯度，然后我們希望能使用平方梯度（squared gradient）的指數(shù)移動(dòng)均值和衰減率β2 來(lái)估計(jì)它的二階原始矩（有偏方差）。令 g1, ..., gT 為時(shí)間步序列上的梯度，其中每個(gè)梯度都服從一個(gè)潛在的梯度分布 gt ∼ p(gt)?，F(xiàn)在我們初始化指數(shù)移動(dòng)均值 v0=0（零向量），而指數(shù)移動(dòng)均值在時(shí)間步 t 的更新可表示為：其中 gt^2 表示 Hadamard 積 gt⊙gt，即對(duì)應(yīng)元素之間的乘積。同樣我們可以將其改寫為在前面所有時(shí)間步上只包含梯度和衰減率的函數(shù)，即消去 v：

我們希望知道時(shí)間步 t 上指數(shù)移動(dòng)均值的期望值 E[vt] 如何與真實(shí)的二階矩相關(guān)聯(lián)，所以我們可以對(duì)這兩個(gè)量之間的偏差進(jìn)行修正。下面我們同時(shí)對(duì)表達(dá)式（1）的左邊和右邊去期望，即如下所示：

如果真實(shí)二階矩 E[g 2 i ] 是靜態(tài)的（stationary），那么ζ = 0。否則 ζ 可以保留一個(gè)很小的值，這是因?yàn)槲覀儜?yīng)該選擇指數(shù)衰減率 β1 以令指數(shù)移動(dòng)均值分配很小的權(quán)重給梯度。所以初始化均值為零向量就造成了只留下了 (1 − βt^2 ) 項(xiàng)。我們因此在算法 1 中除以了ζ項(xiàng)以修正初始化偏差。

在稀疏矩陣中，為了獲得一個(gè)可靠的二階矩估計(jì)，我們需要選擇一個(gè)很小的 β2 而在許多梯度上取均值。然而正好是這種小β2 值的情況導(dǎo)致了初始化偏差修正的缺乏，因此也就令初始化步長(zhǎng)過(guò)大。

4. 收斂性分析

本論文使用了 Zinkevich 2003 年提出的在線學(xué)習(xí)框架分析了 Adam 算法的收斂性。

5. 相關(guān)研究工作

與 Adam 算法有直接聯(lián)系的優(yōu)化方法是 RMSProp (Tieleman & Hinton, 2012; Graves, 2013) 和 AdaGrad (Duchi et al., 2011)。

6 試驗(yàn)

圖 1：在 MNIST 圖片集和有 1 萬(wàn)條詞袋（BoW）特征向量的 IMDB 電影評(píng)論數(shù)據(jù)集上訓(xùn)練帶有負(fù)對(duì)數(shù)似然函數(shù)的 Logistic 回歸。

圖 2：在 MNIST 圖片數(shù)據(jù)集上訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)。（a）圖是使用了 dropout 隨機(jī)正則化的神經(jīng)網(wǎng)絡(luò)。（b）圖是使用確定性損失函數(shù)的神經(jīng)網(wǎng)絡(luò)。

圖 3：卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練損失。左圖表示前三個(gè) epoch 的訓(xùn)練損失，右圖表示所有 45 個(gè) epoch 上的訓(xùn)練損失。

圖 4：在變分自編碼器（VAE）中帶偏差修正項(xiàng)（紅色）和沒(méi)有偏差修正項(xiàng)（綠色）的損失對(duì)比。

7 擴(kuò)展

7.1 ADAMAX

在 Adam 中，單個(gè)權(quán)重的更新規(guī)則是將其梯度與當(dāng)前和過(guò)去梯度的 L^2 范數(shù)（標(biāo)量）成反比例縮放。而我們可以將基于 L^2 范數(shù)的更新規(guī)則泛化到基于 L^p 范數(shù)的更新規(guī)則中。雖然這樣的變體會(huì)因?yàn)?nbsp;p 的值較大而在數(shù)值上變得不穩(wěn)定，但是在特例中，我們令 p → ∞會(huì)得出一個(gè)極其穩(wěn)定和簡(jiǎn)單的算法（見算法 2）?，F(xiàn)在我們將推導(dǎo)這個(gè)算法，在使用 L^p 范數(shù)情況下，時(shí)間 t 下的步長(zhǎng)和 vt^(1/p) 成反比例變化。

注意這里的衰減項(xiàng)等價(jià)地為 β2^p，而不是 β2?，F(xiàn)在令 p → ∞，并定義

然后有：

該表達(dá)式就對(duì)應(yīng)相當(dāng)于極其簡(jiǎn)單的迭代公式：

其中初始值 u0 = 0。注意這里十分便利，在該情況下我們不需要修正初始化偏差。同樣 AdaMax 參數(shù)更新的量級(jí)要比 Adam 更簡(jiǎn)單，即|∆t| ≤ α。

責(zé)任編輯：張子龍來(lái)源：機(jī)器之心

優(yōu)化算法 Adam 深度學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="c3qoy"></cite><style id="c3qoy"></style>