【機器學(xué)習(xí)】圖解線性回歸 原創(chuàng)
線性回歸可謂是機器學(xué)習(xí)界的hello world,在現(xiàn)實中也有廣泛應(yīng)用,今天我們以圖表為主,用可視化方法重新審視下這個模型。
先來個整體視角:
再逐步分解開來:
???????????? ???????????? ????????????????????
如果自變量只有一個,我們稱為簡單線性回歸,雖然簡單,但很強大,能用來發(fā)現(xiàn)數(shù)據(jù)中潛在的變化趨勢。
?????? ???????? ???? ?????????
線性回歸的目標(biāo)是擬合一條直線,這條直線最能體現(xiàn)自變量和因變量之間的線性依賴關(guān)系。
?????? ???? ???? ???????????? ?????? ???????? ???????
那如何找到這個最佳的擬合直線呢?讓因變量的觀測值和模型的預(yù)測值之間的誤差最小。
?????? ???? ???? ???????????? ???? ?????????????????????????????
在機器學(xué)習(xí)中,我們通常使用損失函數(shù)來找到最優(yōu)的參數(shù)。
在線性回歸中,損失函數(shù)就是均方誤差,參數(shù)就是斜率A和截距B。
為了找到我們的最優(yōu)解,我們使用了梯度下降法。
這是優(yōu)化算法之一,用于優(yōu)化成本函數(shù)。
為了獲得最優(yōu)解,我們需要減少所有數(shù)據(jù)點的均方誤差(MSE)。
通過迭代,我們逐漸接近最優(yōu)解。
????????????????????
“訓(xùn)練完成后,如何才能衡量模型的性能呢?在訓(xùn)練集上表現(xiàn)的好,不見得在未見過的數(shù)據(jù)上表現(xiàn)也好,我們希望模型具有較強的泛化能力,所以我們需要在測試集上評估模型的性能,來避免模型過擬合?!边@句話描述準(zhǔn)確嗎?
?????????????????????? ???? ?????????? ????
線性回歸模型也是基于一些假設(shè)的,比如線性關(guān)系假設(shè)(Linearity),正態(tài)性假設(shè)(Normality of errors),獨立性假設(shè)(Independence)等等。
如果假設(shè)與實際不符就會導(dǎo)致模型不準(zhǔn)確,例如,如果自變量和因變量之間是非線性關(guān)系,那么線性回歸模型可能無法很好地擬合數(shù)據(jù)。
這就需要使用通用線性模型或者神經(jīng)網(wǎng)絡(luò)了。
本文轉(zhuǎn)載自公眾號人工智能大講堂
原文鏈接:??https://mp.weixin.qq.com/s/OySYGcNUnT8oAFwI9xSyyQ???
