自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="17sp6"></legend>

<center id="17sp6"></center>

<style id="17sp6"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

什么時候Mahalanobis距離比歐式距離更合適？原創(chuàng)

發(fā)布于 2024-10-23 10:27

瀏覽

0收藏

我們常說機器學習三大件：模型、損失函數(shù)、優(yōu)化算法。

模型：線性回歸、邏輯回歸、SVM、CNN、RNN、LSTM、Transformer等等。

損失函數(shù)：均方誤差、交叉熵、對比損失。

優(yōu)化算法：梯度下降、Adam、RMSProp、牛頓法等等。

其中損失函數(shù)通過衡量模型預測值和真實值之間的距離來評估模型的好壞，并將結果反饋給優(yōu)化算法來調整模型參數(shù)，以此來最小化損失函數(shù)。

常見的距離衡量包括：歐氏距離、曼哈頓距離、余弦相似度、KL散度等。

均方誤差基于歐式距離、交叉熵基于KL散度、對比損失基于余弦相似度。

歐式距離在ML中是比較常用的，但它有個特點，就是假設所有特征之間是相互獨立的，也就是它不會考慮特征之間相關性信息。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

因此，如果特征是相關的，歐幾里得距離將產生誤導性的結果。例如，考慮下面的這個虛擬數(shù)據(jù)集：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

很明顯，特征之間是相關的，這里，考慮其中三個數(shù)據(jù)點P1，P2，P3。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

根據(jù)數(shù)據(jù)分布，P2更接近P1，因為P1，P2都在分布內，而P3在分布外。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

然而，如果根據(jù)歐式距離計算公式可得P2，P3與P1之間的距離是相等的。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

馬哈拉諾比斯距離（Mahalanobis distance）克服了這個缺點，它計算距離時考慮了數(shù)據(jù)分布信息。

前面的數(shù)據(jù)集，如果應用Mahalanobis distance，P2比P3距離P1更近。

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

它是如何工作的？

概括一下就是：它的目標是構建一個新的坐標系，新坐標系的各個軸之間是相互獨立的，也就是相互正交。

具體步驟如下：

● 步驟 1：將列轉換為不相關的變量。

● 步驟 2：對新變量進行縮放，使其方差等于 1。

● 步驟 3：在這個新的坐標系中找到歐幾里得距離。

其中步驟1是通過對數(shù)據(jù)的協(xié)方差矩陣進行變換，使得新的變量之間沒有線性相關性，類似于主成分分析（PCA）的思想，詳細過程見附錄。

雖然最終還是用到了歐式距離，但步驟1的變換已經(jīng)使數(shù)據(jù)滿足了歐式距離的假設。

Mahalanobis distance最重要的應用就是異常檢測，例如，前面例子中的P3。

因為P1是分布的重心，如果歐式距離，P2，P3都不是異常值，用Mahalanobis distance結果就很明顯了。

這在高維空間，沒辦法數(shù)據(jù)可視化式尤為有用。

附錄：PCA主成分分析

假設我們有一個簡單的二維數(shù)據(jù)集，其中包含兩個特征X1 和X2，并且這兩個特征之間存在一定的線性相關性。

假設我們有以下樣本：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

從這些數(shù)據(jù)中，我們可以看到X1和X2之間的數(shù)值是線性相關的，且大約滿足X2≈2×X1?1。

計算協(xié)方差矩陣并進行變換

1.計算均值

我們先計算每個特征的均值：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

2.構建協(xié)方差矩陣

協(xié)方差矩陣衡量的是每對特征之間的線性相關性。假設我們得到以下協(xié)方差矩陣：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

其中，矩陣中的每個元素代表對應的特征之間的協(xié)方差，非對角線元素表示X1和X2之間的相關性。

3.特征值分解

接下來我們對協(xié)方差矩陣進行特征值分解（Eigenvalue Decomposition），得到特征值和特征向量。假設我們得到以下特征向量和特征值：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

4.轉換變量
使用特征向量，我們可以將原始數(shù)據(jù)X1,X2 轉換為新的變量Z1,Z2，這些新變量之間不再相關。轉換的方式是通過特征向量進行線性變換：

什么時候Mahalanobis距離比歐式距離更合適？-AI.x社區(qū)

這里，V是特征向量矩陣。

在上面的例子中，X經(jīng)過特征向量矩陣變換后維度沒有變化，而在實際應用中，通常選擇前k個特征值對應的特征向量，然后X投影到新的基上，這樣新的特征不僅正交，而且還起到了降維的作用。

本文轉載自公眾號人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/1tH5Qws_mvwo49espx5zpw??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

我們距離GPT-4V真的很近了嗎？

zhangyannni ? 2844瀏覽 ? 0回復
大模型“分區(qū)”部署在云和邊緣更合適？

51CTO技術棧 ? 2301瀏覽 ? 0回復
RAG生成任務：Base LLM竟然比Instruct LLM高出20%

PaperAgent ? 2660瀏覽 ? 0回復
大模型應用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 4353瀏覽 ? 0回復
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 2376瀏覽 ? 0回復
大模型的泡沫什么時候破滅？

51CTO技術棧 ? 1861瀏覽 ? 0回復
什么時候需要訓練和微調屬于自己的大模型——小微企業(yè)必須要明白的問題

AI探索時代 ? 2012瀏覽 ? 0回復
比GraphRAG還好的LightRAG到底是何方神圣？

大語言模型論文跟蹤 ? 2275瀏覽 ? 0回復
ChunkRAG：比CRAG提升10個點準確率

大語言模型論文跟蹤 ? 2038瀏覽 ? 0回復
最大限度提高人工智能訓練效率：選擇合適的模型

51CTO內容精選 ? 2320瀏覽 ? 0回復
是時候接受真實世界的檢驗啦！UCLA&谷歌提出首個評估生成視頻物理常識數(shù)據(jù)集VideoPhy

angel ? 2367瀏覽 ? 0回復
谷歌AI發(fā)布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 5613瀏覽 ? 0回復
選擇合適的AI框架：生成式AI與智能代理AI的對比

Halo咯咯 ? 2268瀏覽 ? 0回復
NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

arnoldzhw ? 1871瀏覽 ? 0回復
VLLM 與 Ollama：如何選擇合適的輕量級 LLM 框架？

AI論文解讀 ? 2.0w瀏覽 ? 0回復
【人人都會做智能體】Agent是什么,簡單中等復雜商用的智能體又是什么?

九歌AI大模型 ? 1330瀏覽 ? 0回復
一文選出最合適Agent大模型

石映飛云 ? 1217瀏覽 ? 0回復
比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價格僅1/30！

AI博物院 ? 1615瀏覽 ? 0回復
麥肯錫：什么是AI代理？

chengganfei ? 590瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

訓練大模型時，顯存都哪去了？ 2024-11-19 12:41:34發(fā)布
生產環(huán)境測試模型的四種方法 2024-11-15 11:22:05發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：對連續(xù)概率分布的一個常見誤解

下一篇：線性回歸中，為什么使用均方誤差損失函數(shù)？

社區(qū)精華內容

目錄

<style id="kl6k1"></style><sup id="kl6k1"></sup>

<blockquote id="kl6k1"></blockquote><sub id="kl6k1"></sub>