自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

機器學習的一般范式

作者：聞數(shù)起舞 2020-06-09 08:09:07

人工智能機器學習

在這里，我將機器學習的問題簡化為兩種統(tǒng)計學習。因為我認為無監(jiān)督學習沒有明確的定義，所以我不使用最常見的有監(jiān)督/無監(jiān)督分類。

在這里，我將機器學習的問題簡化為兩種統(tǒng)計學習。因為我認為無監(jiān)督學習沒有明確的定義，所以我不使用最常見的有監(jiān)督/無監(jiān)督分類。

1. 生成模型

訓練集是一些數(shù)據(jù){x_1，x_2，…，x_n}，目標是表示這些數(shù)據(jù)的概率分布p(x)。例如，給定許多貓的照片，我們的目標是找到這些貓的照片整體的規(guī)律，以便獲得可以生成看起來像貓的照片的生成功能。如何畫貓。同樣，我們希望使用人工制作的示例來教機器如何講話，如何寫作以及如何撰寫文章。

2. 判別模型

訓練集是一對數(shù)據(jù)和標簽{(x_1，y_1)，(x_2，y_2)，…，(x_n，y_n)}，其中x_i是數(shù)據(jù)，y_i是標簽，并且目的是在給定數(shù)據(jù)的情況下表達標簽的條件概率，即p(y | x)。例如，我們有很多照片x_i，每張照片都有一個標簽，告訴我們該照片是貓還是狗。然后，y_i有兩個可能的值，y_i = cat或y_i = dog。我們希望機器學習如何區(qū)分貓和狗，以便當我們有了新圖片x 時，機器還可以通過計算p(y = cat | x )和p(y = dog | x * )是貓還是狗。這些問題也被廣泛使用，例如圖像識別，語音識別，醫(yī)學診斷等。

盡管在某些情況下無法同時包含這兩種模型，但通常可以在進行較小的更改的情況下將它們包括在內(nèi)。在這里，我們將不討論這些次要問題。

通常，我們的目標是從某個數(shù)據(jù)集中找到一個好的函數(shù)，以表示所需的概率分布p(x)或p(y | x)。但是，許多問題仍未解決。有無數(shù)種概率分布。我們應(yīng)該選擇哪些功能? 函數(shù)空間是無限維的，應(yīng)該以哪種方式有限地表示這些函數(shù)? 對于兩個候選人的概率分布，我們?nèi)绾闻袛嗨鼈? 如何找到這些功能中最好的。這些問題將在下面一一回答。我們將解決機器學習問題的過程概括為以下幾部分。

3. 數(shù)據(jù)集

您要學習的對象。為了避免過度擬合的現(xiàn)象，對于歧視問題，通常將數(shù)據(jù)集分為訓練集(測試集)和測試集(測試集)。模型僅在訓練過程中接觸訓練集，而訓練后的測試集將用于測試模型的效果。例如，我們假設(shè)高考和模擬考試的問題相似，但并不完全相同，因此在模擬考試訓練之后，高考用于測試最終的學習水平。如果存在遺漏問題的問題，只要在不理解的情況下強行記住高考的真實問題，一個人就能在高考中取得良好的成績。過度擬合將這種現(xiàn)象描述為"死記硬背，而不是類推"。實際上，訓練集也應(yīng)該分成一個驗證集，但是為了簡化問題，我們這里不再討論。

4. 模型空間

所有可能的概率分布函數(shù)都是一個巨大的集合。在這里找到最佳功能就像在大海撈針。因此，我們經(jīng)常選擇一些候選函數(shù)并在其中搜索。這個選擇非常重要，因為如果我們選擇的這些替代功能不合適，那么即使我們在其中找到了最佳解決方案，也仍然無法很好地解決問題。模型空間的選擇幾乎決定了機器學習算法的本質(zhì)。無論是線性回歸，各種基于樹的方法還是由隱馬爾可夫模型表示的圖形模型，最大的區(qū)別之一在于模型空間的選擇。一般來說，機器學習算法是指模型空間和以下將要描述的模型表示。 VC維數(shù)理論向我們揭示了每個問題的最佳模型(空間)可以最好地解決問題。太大的模型空間很容易導致過度擬合，反之亦然。 )。當我們談?wù)撋疃葘W習時，我們將回到這個問題。

5. 模型的表示(參數(shù)化/體系結(jié)構(gòu))

這是一個相對模糊的概念，但是我個人認為，它對于解釋深度學習與傳統(tǒng)機器學習之間的差異具有重要意義。首先，即使我們將模型空間限制在相對較小的程度，我們?nèi)匀恍枰业揭环N方法來表示空間中的每個函數(shù)，或者需要為該替代函數(shù)命名。舉個例子，如果我們選擇模型空間作為所有二次函數(shù)，即S = {p(x)= a_1 x²+ b_1 x + c_1，對于任何a_1，b_1，c_1}，我們可以指向通過長度為三的向量(a_1，b_1，c_1)在每個S中使用該函數(shù)。但是，S可以寫為不同。例如，對于任何a_2，b_2，c_2，d_2}，S也可以表示為S = {p(x)=(a_2 * x + b_2)(c_2 x + d_2)，這樣，我們可以也用向量(a_2，b_2，c_2，d_2)表示每個候選函數(shù)。作為一個集合，兩個函數(shù)空間完全相同，但是作為幫助我們找到最佳函數(shù)的指南，不同的表示形式可能會有很大的不同。還有一類非參數(shù)模型(非參數(shù))無法簡化為這種情況，例如kNN(k最近鄰)，但它們不是本文的重點。

6. 目標函數(shù)(object / loss function)

為了判斷哪種函數(shù)是好的，我們需要引入一個可量化的標準，通常稱為目標函數(shù)(object function)，也通常稱為損失函數(shù)(loss function)。，因此表示為L。對于每個候選函數(shù)p(x)，L將給出評估L(p)，L(p)越小意味著p(x)越好。通常，L與訓練集有關(guān)，因為L應(yīng)該反映p(x)是否包含訓練集中包含的信息。對于判別問題，最簡單的選擇之一可以是訓練集上p(y | x)的準確性。精度越高，訓練集中包含的信息p(y | x)就越多。但是這里也存在過度擬合的危險，因為訓練集的高精度不一定意味著測試集的高精度，所以p(y | x)可能只是記錄了樣本中的大多數(shù)示例。訓練集(記憶)，僅此而已。除了限制模型空間外，我們還可以向目標函數(shù)添加正則化以限制這種情況的發(fā)生。簡單來說，常規(guī)術(shù)語代表我們對不同模型的偏好。對于具有相似性能的兩個不同模型，我們將根據(jù)正則項的大小進行選擇。例如，根據(jù)奧卡姆(Occam)的剃刀原則，我們可以設(shè)計一個常規(guī)術(shù)語，以便在某種意義上可以選擇一個盡可能簡單的模型。最后，除了準確性外，常見的目標函數(shù)還包括均方估計(L2)，均值絕對估計(L1)，鉸鏈損失，負對數(shù)似然和交叉熵。其中，交叉熵通?？梢詮腒L散度導出。

7. 優(yōu)化算法

在準備的前四個步驟之后，我們可以嚴格地將機器學習問題定義為優(yōu)化問題，即找到最大值/最小值的問題。給定數(shù)據(jù)集，選擇與數(shù)據(jù)集相關(guān)的目標函數(shù)L，定義模型空間S，并通過一些參數(shù)化將其表示為S = {p_w：對于T中的任何w}，其中T通常是多維歐幾里得的子集空間，即w是滿足某些條件的向量。那么，我們需要解決的優(yōu)化問題是min_ {w in T} L(p_w)，即找到T中的w以使L(p_w)的值最小。

對于不同的機器學習問題，此優(yōu)化問題可能具有非常不同的屬性，最合適的優(yōu)化算法自然也有所不同。許多機器學習模型都有特定的優(yōu)化算法，例如支持向量機(support vector machine)SMO算法和混合模型(mixture model)EM算法。另外，影響優(yōu)化結(jié)果的因素是初始化。許多優(yōu)化算法可以看作是在定義域中沿著特定路徑進行的一系列搜索。對于復雜的優(yōu)化問題，搜索的起點通常非常重要。初始選擇方法可以看作是優(yōu)化算法的一部分。優(yōu)化算法本身也是一個很好的研究方向。稍后，我們將繼續(xù)討論有關(guān)優(yōu)化算法和深度學習之間的相互作用的主題。

以上五個步驟基本上總結(jié)了解決機器學習問題或應(yīng)用機器學習算法的整個過程。其中，通過優(yōu)化算法求解的過程就是所謂的訓練過程(training)。訓練的時間取決于數(shù)據(jù)集和模型的大小。在筆記本上，此過程可能需要幾秒鐘，而在計算群集上，則可能需要幾天。

責任編輯：趙寧寧來源：今日頭條

機器學習統(tǒng)計學習無監(jiān)督學習

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營