譯者 | 朱先忠
審校 | 重樓
摘要:機器會思考嗎?本文旨在深入研究這個問題,將對照圖靈測試制定的嚴格標準來檢驗ChatGPT的性能。
引言
人工智能(AI)一直是眾多技術(shù)進步背后的驅(qū)動力,推動我們走向曾經(jīng)是科幻小說領(lǐng)域的未來。這些進步的核心引出這樣一個深刻的問題:機器能思考嗎?這一問題由英國數(shù)學(xué)家和計算機科學(xué)家艾倫·圖靈(Alan Turing)提出,成為業(yè)界評估人工智能進步的基準。
人工智能領(lǐng)域的最新加入者之一是由OpenAI公司開發(fā)的高級語言模型ChatGPT,它可以說是突破了當今計算機所能做的事情的界限。ChatGPT作為一個數(shù)字對話者,能夠根據(jù)收到的輸入信息生成類似人類的文本。它可以起草電子郵件、編寫代碼、創(chuàng)作詩歌,甚至能夠提供針對各種科目的輔導(dǎo)。
因此,ChatGPT的迷人功能自然引發(fā)了這樣一個問題:ChatGPT通過圖靈測試了嗎?它能讓人類對話者相信它實際上是人類嗎?本文旨在深入研究這個問題,并將對照圖靈測試制定的嚴格標準來檢驗ChatGPT的性能。
圖靈測試:機器智能的一種度量
圖靈測試以其提出者圖靈的名字命名,已經(jīng)成為機器智能程度的試金石,用于衡量機器所表現(xiàn)出的與人類無法區(qū)分的智能行為的能力。英國數(shù)學(xué)家和邏輯學(xué)家艾倫·圖靈在1950年的開創(chuàng)性論文《計算機器與智能》(Computing Machinery and Intelligence)中首次引入了這一想法,他在論文中提出了“模仿游戲”——一種涉及人類評估者、人類應(yīng)答者和試圖模仿人類應(yīng)答者的機器的游戲。
圖靈建議,如果一臺機器能夠在這個游戲中讓評估者相信它的人類身份,那么它就可以被認為是智能的。這一概念徹底改變了人工智能領(lǐng)域,將重點從在機器中復(fù)制人類思維過程轉(zhuǎn)移到產(chǎn)生類似人類的輸出。測試不關(guān)心機器是如何做出反應(yīng)的,而是反應(yīng)本身——它們與人類的反應(yīng)無法區(qū)分嗎?
盡管圖靈測試很簡單,但它探究了智能意味著什么的核心問題。這不僅僅是處理信息或執(zhí)行命令,而是以反映人類認知的方式理解、適應(yīng)和創(chuàng)造。因此,圖靈測試仍然是人工智能的基準,挑戰(zhàn)我們創(chuàng)造出能夠以與人類思維無法區(qū)分的方式真正“思考”的機器。
ChatGPT:語言模型的革命
ChatGPT代表了語言模型發(fā)展的一個重大飛躍。它由OpenAI開發(fā),由一種名為GPT(生成預(yù)訓(xùn)練轉(zhuǎn)換器:Generative Pretrained Transformer)的基于轉(zhuǎn)換器的機器學(xué)習模型(特別是它的第三代模型GPT-3)提供動力。經(jīng)過各種互聯(lián)網(wǎng)文本的訓(xùn)練,ChatGPT展示了令人印象深刻的理解和生成類人文本的能力。
這種非凡能力背后的過程根植于機器學(xué)習。在訓(xùn)練過程中,ChatGPT能夠?qū)W習預(yù)測句子中的下一個單詞。它在數(shù)百GB的文本上進行訓(xùn)練,使它能夠?qū)W習大量的語言模式、結(jié)構(gòu)和上下文線索。因此,當給出用戶提示時,ChatGPT可以通過預(yù)測最有可能遵循的單詞序列來生成相關(guān)且連貫的響應(yīng)。
值得注意的是,ChatGPT的功能不僅僅局限于文本生成。它還可以理解上下文,保持對話,甚至顯示出一定程度的創(chuàng)造力。它的應(yīng)用范圍涵蓋從起草電子郵件和編寫代碼到創(chuàng)作詩歌和輔導(dǎo)各種知識科目。ChatGPT也被用于人工智能聊天機器人領(lǐng)域,旨在自動化和改善客戶服務(wù)。
ChatGPT的歷程,從對語言和上下文的基本理解到對語言的細致入微的推理和控制,證明了我們在人工智能方面取得的進步??傊?,此模型展示了機器學(xué)習的力量,讓我們得以一窺人工智能在未來的潛力。
ChatGPT通過圖靈測試
當將圖靈測試的原理應(yīng)用于ChatGPT時,我們深入探討了人工智能模仿人類智能的能力。目前的問題是,ChatGPT生成的文本是否足夠令人信服,足以被認為是不可區(qū)分的人類。
毫無疑問,ChatGPT的深度學(xué)習能力令人印象深刻。它可以生成通??雌饋矸浅O袢祟惖奈谋?。該模型能夠理解上下文、提供相關(guān)回應(yīng)并具備創(chuàng)造性地創(chuàng)作出令人滿意的敘事的能力,這往往導(dǎo)致其輸出被錯誤地歸因于人類作者。
在某些情況下,ChatGPT已經(jīng)證明其熟練程度可能會欺騙人類對話者,至少在短期內(nèi)是這樣。然而,值得注意的是,圖靈測試的一個關(guān)鍵部分是持續(xù)的交互。機器的性能是隨著時間的推移而評估的,而不僅僅是基于一次交換。
在這方面,ChatGPT的表現(xiàn)更加微妙。雖然它可以產(chǎn)生非常類似人類的反應(yīng),但它的輸出并非完美無瑕。隨著我們對其相互作用的深入研究,某些局限性已經(jīng)逐漸暴露出來,這可以揭示其作為機器的性質(zhì)。
首先,ChatGPT有時會產(chǎn)生毫無意義或與輸入無關(guān)的輸出,這表明其缺乏真正的理解。例如,用戶可能會詢問哲學(xué)或物理學(xué)中的一個細致入微的主題,而ChatGPT可能會提供一個答案,盡管語法正確且看似復(fù)雜,但無法準確解決問題或誤解主題的基本原則。這反映出其缺乏人類在交流中自然擁有和使用的基本世界模型。
其次,該模型的反應(yīng)缺乏一致性。在一個例子中,它可能聲稱自己喜歡巧克力冰淇淋;但是,在另一個例子里,它可能會說自己從未品嘗過。所有這些不一致源于這樣一個事實,即與人類不同,ChatGPT沒有個人經(jīng)歷或信仰,而是根據(jù)提供的提示及其訓(xùn)練數(shù)據(jù)生成每一個反應(yīng),而不參考過去的互動。
第三,ChatGPT容易冗長,有時會過度使用某些短語。人類通常使用各種各樣的表達方式,并在語言使用中表現(xiàn)出靈活性,這是由一生不同的語言經(jīng)歷形成的。另一方面,ChatGPT傾向于過度依賴它在訓(xùn)練中學(xué)習的某些短語和模式,這可能會暴露出它的人工性質(zhì)。
最后,雖然ChatGPT可以以令人印象深刻的準確性回答事實問題,但它也可以自信地提供不正確或誤導(dǎo)性的信息。與人類不同,人類可以懷疑、質(zhì)疑和批判性地評估自己的知識,ChatGPT根據(jù)訓(xùn)練數(shù)據(jù)中的模式生成響應(yīng),而沒有能力驗證其輸出的事實準確性。
雖然這些限制可以揭示ChatGPT的機器性質(zhì),但它們也突出了未來需要改進的領(lǐng)域。隨著人工智能研究的進展,我們可能會看到這些局限性逐漸得到解決,使我們越來越接近圖靈測試中的愿景。
結(jié)論:人工智能的未來與圖靈測試
以ChatGPT為例,人工智能的歷程令人敬畏。從簡單的基于規(guī)則的系統(tǒng)到能夠生成類人文本的高級機器學(xué)習模型,我們在機器中模擬類人智能方面取得了重大進展。然而,圖靈測試提出的最終目標——創(chuàng)造一種能夠始終如一、令人信服地模仿人類交流的機器——仍然是一個挑戰(zhàn)。
圖靈測試提醒我們?nèi)祟愔腔鄣膹?fù)雜性和微妙性。雖然ChatGPT可以模仿類人文本生成,但它目前缺乏理解的深度、身份的連貫性,以及準確評估和表示人類認知特征的現(xiàn)實的能力。然而,這些限制并沒有削弱ChatGPT的成就,而是突出了需要進一步探索和改進的領(lǐng)域。
人工智能研究是一個快速發(fā)展的領(lǐng)域,每一個新的發(fā)展都讓我們更接近圖靈所描繪的愿景。隨著我們不斷完善我們的模型,改進它們的訓(xùn)練,擴大它們的能力,我們很可能會看到人工智能能夠更好地理解世界,并以一種與人類認知越來越難以區(qū)分的方式與世界互動。
總結(jié)來看,ChatGPT在圖靈測試中的表現(xiàn)并不是終點,而是人工智能旅程中的一個重要里程碑。它為未來提供了一個誘人的前景,人工智能有可能通過圖靈測試,更重要的是,以前所未有的方式增強人類能力。隨著我們對人工智能研究的不斷推進,圖靈測試將繼續(xù)成為一盞指路明燈,一種激勵我們創(chuàng)造機器的基準——這些機器不僅能夠模仿人類的智能,而且還能夠真正理解和模仿人類的智慧。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:Is ChatGPT Outsmarting Us? An Exploration Through the Lens of the Turing Test,作者: Yifei Wang