自然語(yǔ)言處理(NLP)的歷史及其發(fā)展方向
自然語(yǔ)言處理的歷史是一個(gè)充滿曲折的故事。它從徒勞的研究開始,經(jīng)過(guò)多年卓有成效的工作,最后結(jié)束于一個(gè)我們?nèi)栽谠噲D找出該領(lǐng)域極限的時(shí)代。今天,讓我們來(lái)一起探索這一AI科學(xué)分支的發(fā)展。
自然語(yǔ)言處理 (NLP) 的起源——這個(gè)想法是如何誕生的?
自然語(yǔ)言處理起源于 1940 年代后期,當(dāng)時(shí)構(gòu)建了第一個(gè) AI 系統(tǒng)。他們必須處理自然語(yǔ)言并識(shí)別單詞才能理解人類命令。 1950 年,艾倫·圖靈發(fā)表了一篇論文,描述了第一個(gè)機(jī)器翻譯算法。算法過(guò)程側(cè)重于編程語(yǔ)言的形態(tài)學(xué)、句法和語(yǔ)義。論文的題目是“計(jì)算機(jī)與智能”。圖靈寫了更多關(guān)于自然語(yǔ)言的研究論文,但他在這方面的工作并沒有繼續(xù)。
1959年,他寫了一篇論文《論可計(jì)算數(shù)》。引入了人工智能的思想來(lái)解決人類無(wú)法自己解決的問(wèn)題。該算法處理信息并執(zhí)行超出人類能力或時(shí)間限制的任務(wù),例如以閃電般的速度下棋。
自然語(yǔ)言處理 (NLP) 的誕生——誰(shuí)讓它成為可能?
1956 年,John McCarthy 發(fā)表了一份報(bào)告,描述了如何使用自然語(yǔ)言與 AI 系統(tǒng)進(jìn)行通信。 1957年,他創(chuàng)造了“人工智能”一詞。 1958 年,他發(fā)表了一篇論文,描述了 SOLO 自然語(yǔ)言句子處理程序。
1959 年,F(xiàn)rank Rosenblatt 創(chuàng)建了第一個(gè)感知器(神經(jīng)網(wǎng)絡(luò))。這些網(wǎng)絡(luò)旨在處理信息并解決模式識(shí)別或分類任務(wù)中的問(wèn)題。 1962 年,在 Marvin Minsky 和Seymour Papert 寫了他們成功的書“感知器”之后,這些人工神經(jīng)元被廣泛使用。
1966 年,一家名為 General Automation Incorporated 的人工智能公司成立,專注于自然語(yǔ)言處理和模式識(shí)別。
自然語(yǔ)言處理 (NLP) 的演變 - 發(fā)生了哪些變化?
隨著時(shí)間的推移,不同的分析方法逐漸發(fā)展起來(lái)。愛丁堡大學(xué)和康奈爾大學(xué)的科學(xué)家于 1964 年創(chuàng)建了一個(gè)計(jì)算模型。 第一個(gè)可以與人交談的計(jì)算機(jī)程序是 ELIZA,它由麻省理工學(xué)院的 Joseph Weizenbaum 于 1966 年創(chuàng)建。
1966年,召開了第一屆計(jì)算機(jī)語(yǔ)音和語(yǔ)言處理專業(yè)會(huì)議。 1967 年,一個(gè)俄語(yǔ)機(jī)器翻譯程序可供使用英語(yǔ)的科學(xué)家閱讀蘇聯(lián)科學(xué)發(fā)現(xiàn)。
自然語(yǔ)言處理 (NLP) 的發(fā)展 - 它是如何演變的?
直到 1979 年才又邁出了一大步,正是在這一年,第一個(gè)簡(jiǎn)單的英語(yǔ)“聊天機(jī)器人”誕生了。
1984 年,IBM 的新產(chǎn)品“chatterbox”可以用自然語(yǔ)言與人交談,它使用早期版本的對(duì)話管理系統(tǒng)為用戶過(guò)濾掉無(wú)趣的對(duì)話。
之后,在 1987 年,羅伯特·尚克(Robert Schank)創(chuàng)建的一個(gè)名為 PARRY 的程序能夠與精神科醫(yī)生進(jìn)行對(duì)話,但無(wú)法回答有關(guān)自己生活的問(wèn)題。
1990 年,ELIZA 和 Parry 被認(rèn)為是人工智能的“微不足道”例子,因?yàn)樗麄兪褂昧藷o(wú)法像人類那樣真正思考或理解自然語(yǔ)言的簡(jiǎn)單模式匹配技術(shù)。我們?nèi)匀粺o(wú)法創(chuàng)建一個(gè)能夠令人信服地通過(guò)圖靈測(cè)試的聊天機(jī)器人。
1994 年,統(tǒng)計(jì)機(jī)器翻譯在自然語(yǔ)言處理方面取得了重大突破,它使機(jī)器的閱讀速度比人類快 400 倍,但仍然不如人類翻譯。
幾年后,1997 年自然語(yǔ)言處理取得重大突破,引入了一種解析和理解語(yǔ)音的算法,該算法被稱為人工智能領(lǐng)域的頂級(jí)成就之一。
2006 年,谷歌推出了無(wú)需人工干預(yù)的翻譯功能,該功能使用統(tǒng)計(jì)機(jī)器學(xué)習(xí),通過(guò)閱讀數(shù)百萬(wàn)文本,將 60 多種語(yǔ)言的單詞翻譯成其他語(yǔ)言。接下來(lái)的幾年,算法得到改進(jìn),現(xiàn)在谷歌翻譯可以翻譯 100 多種語(yǔ)言。
2010 年,IBM 宣布開發(fā)了一個(gè)名為 Watson 的系統(tǒng),該系統(tǒng)能夠理解自然語(yǔ)言中的問(wèn)題,然后使用人工智能根據(jù)維基百科提供的信息給出答案。它還擊敗了危險(xiǎn)的兩個(gè)人類冠軍!
之后在 2013 年,微軟推出了一款名為 Tay 的聊天機(jī)器人。它的創(chuàng)建是為了從 Twitter 和其他平臺(tái)上與人類的互動(dòng)中學(xué)習(xí),以便讓人們?cè)诰€參與,但沒過(guò)多久,該機(jī)器人就開始發(fā)布令人反感的內(nèi)容,導(dǎo)致其在存在 16 小時(shí)后關(guān)閉。
現(xiàn)在,在2021 年,機(jī)器學(xué)習(xí)的炒作達(dá)到了頂峰。
自然語(yǔ)言處理 (NLP) 的局限性是什么?
其中之一是改進(jìn)交互式對(duì)話系統(tǒng)中的自然語(yǔ)言處理,其中包括基于知識(shí)的對(duì)話和對(duì)話代理,例如 Siri 或 Alexa——我們每天使用的這些助手。然而,在它們能夠像人類一樣做出反應(yīng)之前,還有很長(zhǎng)的路要走。
另一個(gè)限制是,大多數(shù)機(jī)器學(xué)習(xí)算法并不打算用于聊天機(jī)器人等實(shí)時(shí)情況,而是用于離線處理具有大量輸入變量和訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)集——這意味著仍然沒有辦法預(yù)測(cè)未來(lái)事件或每種可能的情況。
我們想通過(guò)自然語(yǔ)言處理 (NLP) 實(shí)現(xiàn)什么?
科學(xué)家們希望創(chuàng)建能夠理解句子的含義和意圖的算法,并且盡可能少地使用單詞。他們打算創(chuàng)建一套算法,能夠掌握句子的含義和意圖,以便從中提取信息。這就是為什么我們想要通過(guò)自然語(yǔ)言處理實(shí)現(xiàn)的目標(biāo)仍然沒有限制,只要它支持人類日常生活中的活動(dòng)。他們說(shuō),開發(fā) NLP(自然語(yǔ)言處理)對(duì)日常生活中的人類有很大幫助。 NLP 的發(fā)展背后有一些威脅,但也有很多機(jī)會(huì)。
自然語(yǔ)言處理幫助人們?cè)谌粘I钪懈骼卣f(shuō)話和閱讀,并讓他們打字的速度比在鍵盤上寫句子的速度更快。但主要威脅之一是,一些專家表示,開發(fā)自然語(yǔ)言處理將使人類失業(yè),因?yàn)樗麄儗⒈粰C(jī)器取代。
然而,也有人說(shuō)自然語(yǔ)言處理會(huì)給人類帶來(lái)前所未有的新工作和機(jī)會(huì),因?yàn)樗珡?fù)雜了。這意味著只要 NLP 的發(fā)展支持人類日常生活中的活動(dòng),那么我們可能就可以通過(guò)這項(xiàng)技術(shù)找到限制與自由之間的邊界。