自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="ajnah"><sup id="ajnah"><ins id="ajnah"></ins></sup></tr>

<sub id="ajnah"></sub>

<blockquote id="ajnah"><tbody id="ajnah"></tbody></blockquote>

<u id="ajnah"></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

什么？詞向量不能隨意做算術(shù)運(yùn)算！

原創(chuàng) 精選

作者：汪昊 2024-10-09 08:00:00

2013 年是自然語言處理領(lǐng)域發(fā)生巨變的一年。這一年，詞向量算法 word2vec 誕生了。這一算法將文字符號(hào)轉(zhuǎn)換為了數(shù)字向量，從而給自然語言算法帶來了更多的可能。

作者 | 汪昊

審校 | 重樓

2013 年是自然語言處理領(lǐng)域發(fā)生巨變的一年。這一年，詞向量算法 word2vec 誕生了。這一算法將文字符號(hào)轉(zhuǎn)換為了數(shù)字向量，從而給自然語言算法帶來了更多的可能。在隨后的 2014 年，詞向量算法 GloVe 誕生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 發(fā)明之后才慢慢終結(jié)。隨著 BERT 及其變體的發(fā)展，詞向量從 2018 年開始又經(jīng)歷了新一輪的技術(shù)革新。

詞向量的算術(shù)運(yùn)算被廣泛應(yīng)用在各種自然語言任務(wù)中，比如文本分類和聚類、新聞推薦、聊天機(jī)器人等等。一個(gè)非常著名的例子就是 king - man + woman = queen。這個(gè)例子說明了詞向量的奇特性質(zhì)。然而在 2024 年國際學(xué)術(shù)會(huì)議 ICNLP 2024 上發(fā)表的一篇論文 Human Language is Non-Manifold 上，有學(xué)者證明詞向量的分布不是流形，因此有可能存在空洞等結(jié)構(gòu)，所以詞向量不能隨意做算術(shù)運(yùn)算，因?yàn)樗阈g(shù)運(yùn)算的結(jié)果有可能不在定義域內(nèi)。

首先，我們介紹一下 Poincare-Hopf 定理：在一個(gè)緊致、有向的流形上定義的向量場(chǎng)的奇點(diǎn)的度等于流形的歐拉示性數(shù)。

下面我們來構(gòu)造一個(gè)向量場(chǎng)：根據(jù)詞向量的相似矩陣 sim(i,j) ，利用降維算法將詞向量降維至二維平面。在平面上的每一個(gè)數(shù)據(jù)點(diǎn) i 上定義 N-1 個(gè)向量 (sim(i,j)-C, sim(i,j)-C) ，其中 j 為剩余詞向量集合中的某個(gè)向量，而 C 是一個(gè)常數(shù)值。可以看到，這個(gè)向量場(chǎng)都分布在與 y = x 平行的直線上，因而可以很容易將奇點(diǎn)構(gòu)造成鞍點(diǎn)。所以如果這個(gè)向量場(chǎng)的定義域是緊湊、有向的流形的話，這個(gè)向量場(chǎng)中零點(diǎn)的個(gè)數(shù)就是定義域流形的歐拉示性數(shù)。這里的 C 可以是 sim(‘apple’, ‘pear’) ，也可以是 sim(‘woman’, ‘man’) 。因此，如果詞向量的定義域是緊湊、有向的流形的話，那么相似性等于sim(‘apple’, ‘pear’) 的詞向量對(duì)的數(shù)量等于 sim(‘woman’, ‘man’)……，這顯然是不成立的。

根據(jù)剛才的問題構(gòu)造，很顯然，詞向量分布的定義域不是緊致、有向的流形。因此，我們?cè)谧鲈~向量的算術(shù)運(yùn)算的時(shí)候要格外小心了，因?yàn)檫\(yùn)算結(jié)果可能不在定義域內(nèi)。我們目前對(duì)詞向量的定義域究竟是什么形狀還了解不多，我們只能說，萬一定義域內(nèi)存在孔洞等復(fù)雜結(jié)構(gòu)，算術(shù)運(yùn)算在某些區(qū)域內(nèi)將不成立。

ICNLP 2024 的這篇 Human Language is Non-Manifold 論文涉及到了整個(gè)自然語言處理的理論基礎(chǔ)。詞向量不能隨便做算術(shù)運(yùn)算，相當(dāng)于給詞向量的許多應(yīng)用判了死刑。這個(gè)結(jié)論告訴我們，做研究要夯實(shí)理論基礎(chǔ)，而不能只顧著在應(yīng)用理論做微創(chuàng)新來快速奔跑。

作者簡(jiǎn)介

汪昊，前達(dá)評(píng)奇智董事長兼創(chuàng)始人。前 Funplus 人工智能實(shí)驗(yàn)室負(fù)責(zé)人。在 ThoughtWorks、豆瓣、百度、新浪、網(wǎng)易等公司有超過 13 年的技術(shù)和技術(shù)管理經(jīng)驗(yàn)。精通推薦系統(tǒng)、風(fēng)控反欺詐、聊天機(jī)器人和爬蟲等領(lǐng)域。在國際學(xué)術(shù)會(huì)議和期刊發(fā)表論文 44 篇。5 次獲得最佳論文獎(jiǎng)/最佳論文報(bào)告獎(jiǎng)。2006 年 ACM/ICPC 北美落基山區(qū)域賽金牌。

責(zé)任編輯：華軒來源： 51CTO

自然語言詞向量算術(shù)運(yùn)算

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營