自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么?詞向量不能隨意做算術(shù)運(yùn)算!

原創(chuàng) 精選
人工智能
2013 年是自然語言處理領(lǐng)域發(fā)生巨變的一年。這一年,詞向量算法 word2vec 誕生了。這一算法將文字符號(hào)轉(zhuǎn)換為了數(shù)字向量,從而給自然語言算法帶來了更多的可能。

作者 | 汪昊

審校 | 重樓

2013 年是自然語言處理領(lǐng)域發(fā)生巨變的一年。這一年,詞向量算法 word2vec 誕生了。這一算法將文字符號(hào)轉(zhuǎn)換為了數(shù)字向量,從而給自然語言算法帶來了更多的可能。在隨后的 2014 年,詞向量算法 GloVe 誕生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 發(fā)明之后才慢慢終結(jié)。隨著 BERT 及其變體的發(fā)展,詞向量從 2018 年開始又經(jīng)歷了新一輪的技術(shù)革新。

詞向量的算術(shù)運(yùn)算被廣泛應(yīng)用在各種自然語言任務(wù)中,比如文本分類和聚類、新聞推薦、聊天機(jī)器人等等。一個(gè)非常著名的例子就是 king - man + woman = queen。這個(gè)例子說明了詞向量的奇特性質(zhì)。然而在 2024 年國際學(xué)術(shù)會(huì)議 ICNLP 2024 上發(fā)表的一篇論文 Human Language is Non-Manifold 上,有學(xué)者證明詞向量的分布不是流形,因此有可能存在空洞等結(jié)構(gòu),所以詞向量不能隨意做算術(shù)運(yùn)算,因?yàn)樗阈g(shù)運(yùn)算的結(jié)果有可能不在定義域內(nèi)。

首先,我們介紹一下 Poincare-Hopf 定理:在一個(gè)緊致、有向的流形上定義的向量場(chǎng)的奇點(diǎn)的度等于流形的歐拉示性數(shù)。

下面我們來構(gòu)造一個(gè)向量場(chǎng):根據(jù)詞向量的相似矩陣 sim(i,j) ,利用降維算法將詞向量降維至二維平面。在平面上的每一個(gè)數(shù)據(jù)點(diǎn) i 上定義 N-1 個(gè)向量 (sim(i,j)-C, sim(i,j)-C) ,其中 j 為剩余詞向量集合中的某個(gè)向量,而 C 是一個(gè)常數(shù)值。可以看到,這個(gè)向量場(chǎng)都分布在與 y = x 平行的直線上,因而可以很容易將奇點(diǎn)構(gòu)造成鞍點(diǎn)。所以如果這個(gè)向量場(chǎng)的定義域是緊湊、有向的流形的話,這個(gè)向量場(chǎng)中零點(diǎn)的個(gè)數(shù)就是定義域流形的歐拉示性數(shù)。這里的 C 可以是 sim(apple, pear) ,也可以是 sim(woman, man) 。因此,如果詞向量的定義域是緊湊、有向的流形的話,那么相似性等于sim(apple, pear) 的詞向量對(duì)的數(shù)量等于 sim(woman, man)……,這顯然是不成立的。

根據(jù)剛才的問題構(gòu)造,很顯然,詞向量分布的定義域不是緊致、有向的流形。因此,我們?cè)谧鲈~向量的算術(shù)運(yùn)算的時(shí)候要格外小心了,因?yàn)檫\(yùn)算結(jié)果可能不在定義域內(nèi)。我們目前對(duì)詞向量的定義域究竟是什么形狀還了解不多,我們只能說,萬一定義域內(nèi)存在孔洞等復(fù)雜結(jié)構(gòu),算術(shù)運(yùn)算在某些區(qū)域內(nèi)將不成立。

ICNLP 2024 的這篇 Human Language is Non-Manifold 論文涉及到了整個(gè)自然語言處理的理論基礎(chǔ)。詞向量不能隨便做算術(shù)運(yùn)算,相當(dāng)于給詞向量的許多應(yīng)用判了死刑。這個(gè)結(jié)論告訴我們,做研究要夯實(shí)理論基礎(chǔ),而不能只顧著在應(yīng)用理論做微創(chuàng)新來快速奔跑。

作者簡(jiǎn)介

汪昊,達(dá)評(píng)奇智董事長兼創(chuàng)始人。前 Funplus 人工智能實(shí)驗(yàn)室負(fù)責(zé)人。在 ThoughtWorks、豆瓣、百度、新浪、網(wǎng)易等公司有超過 13 年的技術(shù)和技術(shù)管理經(jīng)驗(yàn)。精通推薦系統(tǒng)、風(fēng)控反欺詐、聊天機(jī)器人和爬蟲等領(lǐng)域。在國際學(xué)術(shù)會(huì)議和期刊發(fā)表論文 44 篇。5 次獲得最佳論文獎(jiǎng)/最佳論文報(bào)告獎(jiǎng)。2006 年 ACM/ICPC 北美落基山區(qū)域賽金牌。

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2010-03-09 11:15:28

Python語言教程

2009-08-11 15:51:08

C#運(yùn)算符算術(shù)運(yùn)算符

2024-06-26 09:13:03

2023-07-17 14:29:01

Bash算術(shù)運(yùn)算

2020-09-10 06:46:33

Python

2018-06-04 15:17:10

編程語言中文編程

2024-04-10 12:14:36

C++指針算術(shù)運(yùn)算

2011-05-24 11:04:00

2021-11-05 06:02:23

App信息應(yīng)用商店

2021-10-20 14:03:06

C++運(yùn)算符類型

2019-01-21 10:34:13

Linux運(yùn)算命令

2024-10-22 15:41:47

NumPyPython

2017-07-19 10:22:07

2016-02-19 16:11:54

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)大數(shù)據(jù)

2024-07-01 10:16:55

搜索向量數(shù)據(jù)類型

2024-01-30 14:23:06

2020-09-08 09:04:26

uuidMySQL主鍵

2018-07-04 20:00:58

區(qū)塊鏈數(shù)字審計(jì)數(shù)據(jù)完整性

2022-12-13 10:13:09

智能駕駛

2010-01-26 17:42:14

Android浮點(diǎn)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)