作者 | 汪昊
審校 | 重樓
2013 年是自然語言處理領(lǐng)域發(fā)生巨變的一年。這一年,詞向量算法 word2vec 誕生了。這一算法將文字符號(hào)轉(zhuǎn)換為了數(shù)字向量,從而給自然語言算法帶來了更多的可能。在隨后的 2014 年,詞向量算法 GloVe 誕生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 發(fā)明之后才慢慢終結(jié)。隨著 BERT 及其變體的發(fā)展,詞向量從 2018 年開始又經(jīng)歷了新一輪的技術(shù)革新。
詞向量的算術(shù)運(yùn)算被廣泛應(yīng)用在各種自然語言任務(wù)中,比如文本分類和聚類、新聞推薦、聊天機(jī)器人等等。一個(gè)非常著名的例子就是 king - man + woman = queen。這個(gè)例子說明了詞向量的奇特性質(zhì)。然而在 2024 年國際學(xué)術(shù)會(huì)議 ICNLP 2024 上發(fā)表的一篇論文 Human Language is Non-Manifold 上,有學(xué)者證明詞向量的分布不是流形,因此有可能存在空洞等結(jié)構(gòu),所以詞向量不能隨意做算術(shù)運(yùn)算,因?yàn)樗阈g(shù)運(yùn)算的結(jié)果有可能不在定義域內(nèi)。
首先,我們介紹一下 Poincare-Hopf 定理:在一個(gè)緊致、有向的流形上定義的向量場(chǎng)的奇點(diǎn)的度等于流形的歐拉示性數(shù)。
下面我們來構(gòu)造一個(gè)向量場(chǎng):根據(jù)詞向量的相似矩陣 sim(i,j) ,利用降維算法將詞向量降維至二維平面。在平面上的每一個(gè)數(shù)據(jù)點(diǎn) i 上定義 N-1 個(gè)向量 (sim(i,j)-C, sim(i,j)-C) ,其中 j 為剩余詞向量集合中的某個(gè)向量,而 C 是一個(gè)常數(shù)值。可以看到,這個(gè)向量場(chǎng)都分布在與 y = x 平行的直線上,因而可以很容易將奇點(diǎn)構(gòu)造成鞍點(diǎn)。所以如果這個(gè)向量場(chǎng)的定義域是緊湊、有向的流形的話,這個(gè)向量場(chǎng)中零點(diǎn)的個(gè)數(shù)就是定義域流形的歐拉示性數(shù)。這里的 C 可以是 sim(‘apple’, ‘pear’) ,也可以是 sim(‘woman’, ‘man’) 。因此,如果詞向量的定義域是緊湊、有向的流形的話,那么相似性等于sim(‘apple’, ‘pear’) 的詞向量對(duì)的數(shù)量等于 sim(‘woman’, ‘man’)……,這顯然是不成立的。
根據(jù)剛才的問題構(gòu)造,很顯然,詞向量分布的定義域不是緊致、有向的流形。因此,我們?cè)谧鲈~向量的算術(shù)運(yùn)算的時(shí)候要格外小心了,因?yàn)檫\(yùn)算結(jié)果可能不在定義域內(nèi)。我們目前對(duì)詞向量的定義域究竟是什么形狀還了解不多,我們只能說,萬一定義域內(nèi)存在孔洞等復(fù)雜結(jié)構(gòu),算術(shù)運(yùn)算在某些區(qū)域內(nèi)將不成立。
ICNLP 2024 的這篇 Human Language is Non-Manifold 論文涉及到了整個(gè)自然語言處理的理論基礎(chǔ)。詞向量不能隨便做算術(shù)運(yùn)算,相當(dāng)于給詞向量的許多應(yīng)用判了死刑。這個(gè)結(jié)論告訴我們,做研究要夯實(shí)理論基礎(chǔ),而不能只顧著在應(yīng)用理論做微創(chuàng)新來快速奔跑。
作者簡(jiǎn)介
汪昊,前達(dá)評(píng)奇智董事長兼創(chuàng)始人。前 Funplus 人工智能實(shí)驗(yàn)室負(fù)責(zé)人。在 ThoughtWorks、豆瓣、百度、新浪、網(wǎng)易等公司有超過 13 年的技術(shù)和技術(shù)管理經(jīng)驗(yàn)。精通推薦系統(tǒng)、風(fēng)控反欺詐、聊天機(jī)器人和爬蟲等領(lǐng)域。在國際學(xué)術(shù)會(huì)議和期刊發(fā)表論文 44 篇。5 次獲得最佳論文獎(jiǎng)/最佳論文報(bào)告獎(jiǎng)。2006 年 ACM/ICPC 北美落基山區(qū)域賽金牌。