計算器對于數(shù)學(xué)的處理方式來說是一次重大的改變,那么 LLMs 對于語言來說呢? 原創(chuàng) 精華
編者按:當(dāng)前,大語言模型已經(jīng)成為自然語言處理領(lǐng)域的熱點。LLMs 是否真的“智能”?它們又為我們帶來了哪些啟發(fā)?針對這些問題,Darveen Vijayan 為我們帶來了這篇引人深思的文章。
作者主要闡釋了兩個觀點:第一,LLMs應(yīng)被視為一種文字計算器,它通過預(yù)測下一個詞來工作,當(dāng)前階段還不應(yīng)被歸為“智能”。第二,盡管LLMs 目前存在局限,但它們?yōu)槲覀兲峁┝朔此既祟愔悄鼙举|(zhì)的契機。我們應(yīng)保持開放的思維,不斷追逐新的知識和對知識的新理解,積極與他人交流溝通,從而拓展我們的認知邊界。
LLMs是否智能,恐怕仍存在爭議。但有一點確定無疑,它們?yōu)樽匀徽Z言處理領(lǐng)域帶來了革新,也為人類智能的本質(zhì)提供了新的思考維度。這篇文章值得每一位大模型工具使用者和 AI 從業(yè)者細細品讀、反復(fù)咀嚼。
作者 | Darveen Vijayan
編譯 | 岳揚
17 世紀初,一位名叫埃德蒙·岡特的數(shù)學(xué)家和天文學(xué)家面臨了一個前所未有的天文挑戰(zhàn)——要計算行星的復(fù)雜運動軌跡并預(yù)測日食,天文學(xué)家不僅需要依靠直覺,還需要掌握復(fù)雜的對數(shù)運算和三角方程。因此,像其他優(yōu)秀的創(chuàng)新者一樣,岡特決定發(fā)明一種模擬計算裝置!他創(chuàng)建的這種裝置,最終成為了我們熟知的計算尺[1]。
計算尺是一個長30厘米的長方形木塊,由固定框架和滑動部分兩部分組成。固定框架中裝有固定的對數(shù)刻度,而滑動部分則裝有可移動的刻度。要使用計算尺,需要理解對數(shù)的基本原理,以及如何對準(zhǔn)刻度進行乘法、除法和其他數(shù)學(xué)運算。需要滑動可移動部分,使數(shù)字對齊,讀出結(jié)果,并注意小數(shù)點的位置。哎呀,真的太復(fù)雜啦!
計算尺
大約在 300 年后,貝爾龐克公司(Bell Punch Company)于 1961 年推出了第一臺臺式電子計算器 "ANITA Mk VII"。在隨后的幾十年里,電子計算器變得越來越復(fù)雜,功能也越來越多。以前需要大量人工計算的工作所花費的時間越來越少,使員工能夠?qū)W⒂诟叻治鲂院蛣?chuàng)造性的工作。因此,現(xiàn)代電子計算器不僅使工作更加高效,還使人們能夠更好地解決問題。
計算器對于數(shù)學(xué)的處理方式來說是一次重大的改變,那么對于語言呢?
想想你是如何構(gòu)造句子的。首先,你需要有一個想法(這句話要表達什么意思)。接下來,你需要掌握一堆詞匯(擁有足夠的詞匯量)。然后,你需要能夠正確地將這些詞匯組成句子(需要掌握語法)。哎呀,還是那么復(fù)雜!
早在 5 萬年前,也就是現(xiàn)代智人第一次創(chuàng)造語言的時候,我們產(chǎn)生語言詞匯的方式就基本保持不變了。
可以說,在構(gòu)造句子這方面,我們?nèi)匀幌駥厥褂糜嬎愠咭粯樱?/p>
It’s fair to say we’re still in Gunther’s era of using a slide rule when it comes to generating sentences!
仔細思考一下,使用恰當(dāng)?shù)脑~匯和正確的語法就是在遵守語言規(guī)則。
這與數(shù)學(xué)類似,數(shù)學(xué)充滿了規(guī)則,因此我才能確定1+1=2以及計算器的工作原理!
我們需要一種用于文字的計算器!
What we need is a calculator but for words!
是的,不同的語言需要遵循不同的規(guī)則,但只有遵守語言規(guī)則,語言才能被人理解。語言和數(shù)學(xué)的一個明顯區(qū)別是,數(shù)學(xué)有固定且確定的答案,而適合放入句子中的合理單詞可能很多。
試著填充下面這個句子:I ate a _________.(我吃了一個 _________。)想象一下接下來可能出現(xiàn)的單詞。英語中大約有 100 萬個單詞。很多單詞可以在這里使用,但肯定不是全部。
回答“黑洞(black hole)”相當(dāng)于說 2+2=5。此外,回答“apple”也不準(zhǔn)確。為什么呢?因為語法的限制!
在過去的幾個月里,大語言模型(LLM)[2]風(fēng)靡全球。有人將其稱為自然語言處理領(lǐng)域的重大突破,也有人將其視為人工智能(AI)新時代的曙光。
事實證明,LLM 非常善于生成類人文本(human-like text),這提高了基于語言的人工智能應(yīng)用的標(biāo)準(zhǔn)。憑借龐大的知識庫和優(yōu)秀的語境理解能力,LLM 可以應(yīng)用于各個領(lǐng)域,從語言翻譯和內(nèi)容生成到虛擬助理和用于客戶支持的chatbots。
我們現(xiàn)在是否正處于與上世紀60年代的電子計算器類似的轉(zhuǎn)折點?
在回答這個問題之前,讓我們先了解一下 LLM 是如何工作的?LLM 基于 Transformer 神經(jīng)網(wǎng)絡(luò),用于計算和預(yù)測句子中下一個最合適的單詞。要構(gòu)建一個強大的 Transformer 神經(jīng)網(wǎng)絡(luò),需要在大量文本數(shù)據(jù)的基礎(chǔ)上進行訓(xùn)練。這就是為什么“預(yù)測下一個單詞或token”的方法效果如此好:因為有大量容易獲得的訓(xùn)練數(shù)據(jù)。LLM 將整個單詞序列(sequence of words)作為輸入,并預(yù)測下一個最有可能出現(xiàn)的單詞。為了學(xué)習(xí)最有可能出現(xiàn)的下一個詞,他們先吞下所有維基百科數(shù)據(jù)作為熱身,然后再吞下成堆的書籍,最后吞下整個互聯(lián)網(wǎng)。
我們在前面已經(jīng)確定,語言包含各種規(guī)則和模式。模型會通過所有這些句子來隱式地學(xué)習(xí)這些規(guī)則,用來完成預(yù)測下一個單詞的任務(wù)。
深度神經(jīng)網(wǎng)絡(luò)
在單數(shù)名詞之后,下一個詞出現(xiàn)以 "s "結(jié)尾的動詞的概率就會增加。同樣,在閱讀莎士比亞的作品時,出現(xiàn) "doth "和 "wherefore "等詞的概率也會增加。
在訓(xùn)練過程中,模型會學(xué)習(xí)這些語言模式,最終成為一位語言專家!
但這就夠了嗎?僅僅學(xué)習(xí)語言規(guī)則就足夠了嗎?
But is that enough? Is learning linguistic rules enough?
語言是復(fù)雜的,根據(jù)語境,一個詞可能有多重含義。
因此,需要自注意力(self-attention)。簡單來說,自注意力是語言學(xué)習(xí)者用來理解句子或文章中不同單詞之間關(guān)系的一種技巧。就像你會關(guān)注故事的不同部分來理解故事一樣,自注意力可以讓 LLM 在處理信息時更加重視句子中的某些單詞。 這樣,模型就能更好地理解文本的整體含義和上下文,而不是僅僅根據(jù)語言規(guī)則盲目地預(yù)測下一個單詞。
在這里插入圖片描述
自注意力機制
如果將大語言模型視為一種單詞的計算器,只會單純地預(yù)測下一個單詞,那么它如何能回答我所有的問題呢?
If LLMs are calculators for words, just predicting the next word, how can it answer all my questions?
當(dāng)你讓大語言模型處理一些需要思考的任務(wù)時,而它也能夠成功完成,這很可能是因為你給它的任務(wù)它已經(jīng)在成千上萬個例子中見過了。即使你提出了一些非常獨特的需求,比如:
“寫一首關(guān)于虎鯨吃雞的詩”
Write me a poem about an orca eating a chicken
大語言模型也能夠成功完成你交待的任務(wù):
Amidst the waves, a sight unseen, An orca hunts, swift and keen, In ocean’s realm, the dance begins, As a chicken’s fate, the orca wins.
With mighty jaws, it strikes the prey, Feathers float, adrift away, In nature’s way, a tale is spun, Where life and death become as one.
~ ChatGPT
很不錯,對吧?這多虧了它的自注意力機制,使其能夠有效地融合和匹配相關(guān)信息,從而構(gòu)建出一個合理而連貫的回答。
在訓(xùn)練過程中,大語言模型(LLM)學(xué)會了識別數(shù)據(jù)中單詞(and 短語)之間的模式、關(guān)聯(lián)和關(guān)系。經(jīng)過大量的訓(xùn)練和微調(diào),LLM 可以表現(xiàn)出一些新的特性,例如進行語言翻譯、摘要生成、問題解答,甚至是創(chuàng)意寫作。盡管模型沒有直接接受某些任務(wù)或技能的教授,但通過對大量數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練,模型可以展現(xiàn)出超出預(yù)期的能力,并且表現(xiàn)得非常出色
那么,大語言模型是否具備智能(intelligent)呢?
Are Large Language Models intelligent?
電子計算器(electronic calculator)已經(jīng)存在了六十多年。這種工具在技術(shù)上取得了“飛躍式”的進步,但從來沒有被認為是智能的。為什么呢?
圖靈測試(Turing Test)是一種判斷機器是否具有人的智能(human intelligence)的簡單方法:如果一臺機器能以讓人類無法區(qū)分的方式與人類進行對話,那么它被認為具有人的智能。
計算器從未經(jīng)歷過圖靈測試[3],因為它不使用與人類相同的語言進行交流,只能使用數(shù)學(xué)語言。然而,大語言模型生成的是人類語言。它的整個訓(xùn)練過程都圍繞著模仿人類語言展開。因此,它能夠“以讓人類無法區(qū)分的方式與人類進行對話”并不令人意外。
因此,用“智能(intelligent)”一詞來描述大語言模型有些棘手,因為對于智能的真正定義并沒有明確的共識。判斷某物是否智能的一種方式是,它是否能夠做出有趣、有用且有一定程度的復(fù)雜性或創(chuàng)造性的事情。大語言模型確實符合這個定義。不過,我并不完全同意這種解釋。
我將智能定義為拓展知識邊界的能力。
I define intelligence as the ability to expand the frontiers of knowledge.
截至本文撰寫之時,通過預(yù)測下一個token/單詞方式進行工作的機器仍然無法拓展知識的邊界。
不過,它可以根據(jù)已有的數(shù)據(jù)進行推斷和填補。它既無法明確理解詞語背后的邏輯,也無法理解現(xiàn)有的知識體系。它無法產(chǎn)生創(chuàng)新的想法或深入的洞察力。它只能提供相對一般的回答,而無法產(chǎn)生突破性的想法。
在這里插入圖片描述
在面對機器無法產(chǎn)生創(chuàng)新思維和深入洞察力的情況下,對于我們?nèi)祟悂碚f有什么影響或啟示呢?
So, what does this mean for us humans?
我們應(yīng)該將大語言模型(LLMs)更多地視為一種對詞語的計算器。 不應(yīng)該讓我們的思考過程完全依賴于大模型,而應(yīng)將其視為我們思考和表達的輔助工具而非替代品。
同時,隨著這些大模型的參數(shù)量呈指數(shù)級增長,我們可能會感到越來越不知所措和力不從心。對此,我的建議是始終保持對看似不相關(guān)的想法的好奇心。有時候我們會遇到一些看似不相關(guān)的或矛盾的想法,但通過我們的觀察、感知、經(jīng)驗、學(xué)習(xí)和與他人的交流,我們可以發(fā)現(xiàn)這些想法之間可能存在某種聯(lián)系,或這些想法可能是合理的。(譯者注:這種聯(lián)系可能來自于我們對事物的觀察、理解和解釋,或者是通過將不同領(lǐng)域的知識和概念相互關(guān)聯(lián)而得出的新的想法。我們應(yīng)該保持開放的思維,不僅僅局限于表面上的直覺,而是觀察、感知、經(jīng)驗、學(xué)習(xí)和與他人的交流,來發(fā)現(xiàn)更深層次的意義和聯(lián)系。)我們不應(yīng)滿足于僅停留在已知領(lǐng)域,而是應(yīng)該積極探索新的領(lǐng)域,不斷擴展我們的認知邊界。 我們也應(yīng)該不斷追求新的知識或?qū)σ颜莆罩R的新理解,并將它們與已有的知識相結(jié)合,去創(chuàng)造新的見解和想法。
如果你能夠以前文所描述的思維方式和行為方式行動,那么,無論是計算器還是大語言模型,所有形式的技術(shù)都將成為你可以利用的工具,而不是你需要擔(dān)心的生存威脅。
END
參考資料
[3]??https://en.wikipedia.org/wiki/Turing_test??
本文經(jīng)原作者授權(quán),由Baihai IDP編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。
原文鏈接:
??https://medium.com/the-modern-scientist/large-language-models-a-calculator-for-words-7ab4099d0cc9??
