自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

站在香農與玻爾茲曼肩上,看深度學習的術與道

發(fā)布于 2024-7-26 13:07
瀏覽
0收藏

在《迷人的數(shù)據(jù)與香農的視角》一文中,我介紹了自己的“頓悟”:事物由不同層次的隨機變量展現(xiàn)出來的信息來表達,不同層次上的隨機變量攜帶不同的信息,共同組合影響上一層的隨機變量的信息表達,而隨機變量對外表達的信息則取決于該隨機變量的條件概率分布。不少朋友贊同,同行更認為與深度學習相通。

如果真正理解了這句話的涵義,你其實已經理解了深度學習的精髓。例如識別一個人,體形、膚色、臉型、眼睛、鼻梁、嘴角等等,都是表征這個人的隨機變量,用機器學習的術語叫特征,有顯式有隱式。不同輪廓,不同血型,不同氣質,不同性格,不同的IQ、EQ...,  不同層次的信息綜合地表達了這個人。這種層級化的表達,大可以描述宇宙系統(tǒng),小可以描述雨滴、微生物。

香農基于概率分布定義的信息熵,是對觀測到的事物隨機變量不確定度的描述,熵增加,不確定度增加;熵減小,不確定度減小。例如人臉,臉型有不同的取值可能性,眼睛大小、位置,睫毛長短,以及相互位置都有不同的取值范圍與可能性。當這些不同特征的可能取值被一 一觀測到之后,我們也就逐步認清了這張臉。也就是如果通過觀測發(fā)現(xiàn),某個東西走路像鴨子,叫起來像鴨子,看起來像鴨子,ok,  我們就認為它是鴨子。

這里提到了觀測,這是獲取事物信息,從而認識事物的唯一途徑。人們需要盡可能多的了解這個事物不同層次的特征,盡量詳盡,詳盡到可以把他/她/它從與他/她/它極其相似的事物中區(qū)別出來,也就是窮盡這些隨機變量的可能性之后,他仍然有別于其他。說起來很拗口 :D.  這些信息被記錄成數(shù)據(jù),也某種程度上解釋了為什么大數(shù)據(jù)如此火熱,大其實是足夠,足夠詳盡,足夠深層次,足夠及時,去識別一個事物。大數(shù)據(jù)公司常用的套路是忽悠做360度客戶畫像,我們需要想想什么是360度,你的親朋好友多少度了解你,你自己360度了解自己嗎? 能畫出3.6度嗎?

觀測是有誤差的,而且很多情況下沒法直接進行,比如計算湖泊中魚的平均長度,但不同體長的魚在湖水中的分布不清楚,如何撈出來量量呢? 馬爾科夫說這好辦,你構造一個概率分布遷移的鏈,從初始分布 P0, 經過 n 次 轉移概率為P 的轉移之后,肯定收斂于穩(wěn)態(tài)分布 Pn。沒明白? Gibbs懂了,發(fā)明了Gibbs采樣方法。不過這里的轉移矩陣是需要滿足細致平穩(wěn)條件的,也就是互相轉移的概率相等,否則就不穩(wěn)定了(敲黑板),記住“平穩(wěn)”這個前提。 

幾位哈佛物理學家在最近的論文中《Why does deep and cheap learning work so well?》,對上文的分層隨機表達方式做了理論梳理,在我看來,簡直就是神總結,讓你不得不佩服哈佛大學物理學者的功力之深厚。不少計算機科學家嘚吧嘚的多少層花式神經網絡架構,隨機梯度優(yōu)化求解,說不清的無厘頭正則化,都是“術”,在這里找到了作為其理論基礎的“道”。論文作者用下圖來概括深度學習領域的三類最典型問題,無監(jiān)督學習(Unsupervided learning),有監(jiān)督學習的分類(Classification)與預測(Prediction), 論文中看似有typo , AI 可能認不出來 :D。這三類問題歸根結底都是用神經網絡來近似概率分布:想象一個(x,y)的聯(lián)合概率分布,或y發(fā)生條件下,x的條件概率分布,或互換,訓練的過程就是找到這個近似概率分布函數(shù)的過程。

站在香農與玻爾茲曼肩上,看深度學習的術與道-AI.x社區(qū)

流行的深度學習算法怎么求解這些概率分布的呢? 我們先把這些隨機變量的觀測數(shù)據(jù)(訓練數(shù)據(jù))所包含的香農信息熵算一下,并且認定這是系統(tǒng)最大可能的信息展現(xiàn)(最大似然),然后最小化剩余的部分,就是求極大極小值,而且是用數(shù)值的方法,這里有不少的假設,比如凸函數(shù),比如李普希茲連續(xù)(也可以理解成某種意義上的平穩(wěn)假設),不少的算“術”,比如拉格朗日乘子,比如隨機梯度下降,都是“賞心悅目”的微積分。通過對這個香農熵的方式適當約束,你能得到熟悉的最小二乘法,大學物理實驗的時候擬合直線你肯定用過。

通過訓練尋找這些概率分布函數(shù),其中隱含著一個基本假設,就是系統(tǒng)是處于相對穩(wěn)定狀態(tài)的,一個急速演進中的開放系統(tǒng),概率的方法應該是不適合的。例如機器翻譯,對于相對穩(wěn)定的事物的語言描述,AI翻譯應該能夠勝任,對于新的網絡流形語,或小眾的新生事物,前幾年例如甄嬛傳,基于統(tǒng)計的AI翻譯或許就沒那么得心應手了。周鴻祎在360營銷盛典上總結AI 在直播中的表現(xiàn)的時候說,''計算機就把所有的錐子臉都定義成美女"。

又比如玻爾茲曼機,基于哈密爾頓自由能的分布其實都是有隱含的系統(tǒng)相對穩(wěn)定假設的(玻爾茲曼分布是“平衡態(tài)”氣體分子的能量分布律)。對于非穩(wěn)定系統(tǒng),就得求助于普利高津了。所以,當我們?yōu)锳I的不斷進步的“智能”歡呼的時候,一定要冷靜的認識到它可能不適用的情境,請相信沒有放之四海而皆準的真理,除了這句話本身。只有我在懷疑這件事不能懷疑之外,其他都是值得懷疑的 :D

另外我還有個忠告,不管AI有多牛,請盡量審慎地相信基于統(tǒng)計的預測(prediction), 看看這個農夫諺語,你就理解了: 我只想知道將來我會死在什么地方,這樣我就不去那兒了。

本文轉載自 ??清熙??,作者:王慶法

收藏
回復
舉報
回復
相關推薦