生成式人工智能的指數(shù)增長將帶來那些機(jī)遇與挑戰(zhàn)
譯文譯者 | 李睿
審校 | 重樓
本文將探索生成式人工智能的指數(shù)級(jí)增長帶來的機(jī)遇和挑戰(zhàn),以及充分發(fā)揮其潛力必須克服的挑戰(zhàn)。
雖然生成式人工智能提供了巨大的機(jī)遇,但也存在重大挑戰(zhàn),例如開發(fā)或維護(hù)大型語言模型(LLM)的難度和成本,以及它們潛在的不準(zhǔn)確性。
人工智能現(xiàn)在成為了各行業(yè)領(lǐng)域討論的一個(gè)熱門的話題。生成式人工智能也越來越受歡迎。當(dāng)然,生成式人工智能技術(shù)并不是憑空產(chǎn)生的,特別是ChatGPT。早在2020年,一些專家就已經(jīng)預(yù)測(cè),生成式人工智能將成為下一代人工智能的重要支柱。
人工智能所有領(lǐng)域的最新工作都在為生成式人工智能加速發(fā)展提供幫助。新一代大型語言模型(LLM)已經(jīng)在初創(chuàng)企業(yè)、科技巨頭和人工智能研究團(tuán)隊(duì)中得到開發(fā)。
1、可以生成自己訓(xùn)練數(shù)據(jù)的模型
人工智能研究的一個(gè)新途徑是探索大型語言模型(LLM)如何生成它們自己的訓(xùn)練數(shù)據(jù)來提高表現(xiàn)。這個(gè)想法是從人們思考一個(gè)話題時(shí)自己學(xué)習(xí)的方式中汲取的靈感。谷歌公司已經(jīng)建立了一個(gè)大型語言模型(LLM),可以回答問題,生成答案,過濾高質(zhì)量的結(jié)果,并優(yōu)化選定的答案。
事實(shí)上,谷歌公司和伊利諾伊大學(xué)香檳分校 (UIUC)的研究人員已經(jīng)引入了一種被稱為語言模型自我改進(jìn)(LMSI)的方法,這種方法是關(guān)于使用模型本身創(chuàng)建的數(shù)據(jù)集對(duì)大型語言模型(LLM)進(jìn)行微調(diào)。
大型語言模型(LLM)可以通過生成自己的自然語言指令并適應(yīng)這些指令來提高性能。谷歌公司和卡內(nèi)基梅隆大學(xué)的研究還表明,如果大型語言模型(LLM)在回答問題之前先背誦他們所知道的內(nèi)容,就像人類在分享觀點(diǎn)之前思考的方式一樣,大型語言模型(LLM)可以提供更準(zhǔn)確的答案。
語言建模方面的最新進(jìn)展表明,使用大型語言模型(LLM)可以顯著提高自然語言處理(NLP)應(yīng)用程序的性能。然而,這可能是一個(gè)挑戰(zhàn),因?yàn)檫@個(gè)模型的尺寸很大,可能需要大量的內(nèi)存和CPU進(jìn)行訓(xùn)練。
為了釋放語言建模的真正潛力,英偉達(dá)公司和微軟公司正在開發(fā)一種自動(dòng)的自然語言處理(NLP)模型,其名稱為Megatron Turing自然語言生成(MT-NLG)。它由5300億個(gè)參數(shù)組成,比Open AI開發(fā)的GPT-3 NLP模型大出兩倍多。
雖然這個(gè)模型似乎克服了自動(dòng)化自然語言處理(NLP)的一些障礙,但它仍然需要改進(jìn)。英偉達(dá)公司和微軟公司指出,雖然這些大型語言模型(LLM)代表了語言生成的巨大飛躍,但它們?nèi)匀淮嬖谌毕莺推?。研究人員的研究表明,該模型可以延續(xù)訓(xùn)練數(shù)據(jù)中存在的刻板印象和偏見,這促進(jìn)數(shù)據(jù)收集、分析、建模和監(jiān)督訓(xùn)練領(lǐng)域的發(fā)展。
2、能夠自行驗(yàn)證事實(shí)的模型
生成式人工智能模型使用來自互聯(lián)網(wǎng)的數(shù)據(jù)來訓(xùn)練模型,以根據(jù)用戶請(qǐng)求做出預(yù)測(cè)。然而,并不能保證預(yù)測(cè)是100%準(zhǔn)確或公正的。此外,很難知道提供系統(tǒng)響應(yīng)的信息來自哪里。
生成式人工智能的使用引發(fā)了道德、法律和倫理問題,這對(duì)業(yè)務(wù)有潛在的影響。人們擔(dān)心的是內(nèi)容的所有權(quán),或者僅僅是產(chǎn)生“虛構(gòu)”答案的風(fēng)險(xiǎn)。因此,在短期內(nèi)謹(jǐn)慎對(duì)待如何使用生成式人工智能產(chǎn)生的信息是明智的。
當(dāng)前的大型語言模型(LLM)或?qū)υ拺?yīng)用程序語言模型 (LaMDA)可能產(chǎn)生不準(zhǔn)確或錯(cuò)誤的信息。以下是Google Bard關(guān)于韋伯望遠(yuǎn)鏡問答的一個(gè)廣為人知的的錯(cuò)誤論斷。
1.我能告訴我九歲的孩子詹姆斯·韋伯太空望遠(yuǎn)鏡的哪些新發(fā)現(xiàn)?
2.Google Bard提供了韋伯太空望遠(yuǎn)鏡拍攝的太陽系外行星的第一張照片,但這是其他的太空望遠(yuǎn)鏡拍攝的。
因此,谷歌公司正在開發(fā)新的功能來解決這個(gè)問題。它包括大型語言模型(LLM)從外部來源提取信息并為其提供的信息提供參考的能力。例如,OpenAI WebGPT通過網(wǎng)頁瀏覽提高了語言模型的事實(shí)準(zhǔn)確性。
微軟公司研究院和哥倫比亞大學(xué)聯(lián)合發(fā)布的《檢查事實(shí)并再次嘗試:利用外部知識(shí)和自動(dòng)反饋改進(jìn)大型語言模型》研究報(bào)告提出了一個(gè)名為LLM-AUGMENTER的系統(tǒng)。它有助于在任務(wù)關(guān)鍵型應(yīng)用程序中使用大型語言模型。
該系統(tǒng)通過整合來自特定任務(wù)數(shù)據(jù)庫的外部知識(shí),提高了大型語言模型生成響應(yīng)的準(zhǔn)確性。迭代快速修正可用于提高反應(yīng)的準(zhǔn)確性和可靠性。該系統(tǒng)已經(jīng)在對(duì)話和問答場(chǎng)景中進(jìn)行了測(cè)試,在不影響回答質(zhì)量的情況下,它似乎可以減少虛假信息。
近年來,大型語言模型(LLM)的規(guī)模被認(rèn)為以每年增加10倍的速度增長。好消息是,隨著這些模型的復(fù)雜性和規(guī)模的增長,它們的能力也在增長。然而,大型語言模型(LLM)的開發(fā)和維護(hù)既困難又成本昂貴。因此,如果要充分發(fā)揮其潛力,其成本和準(zhǔn)確性是必須解決的主要挑戰(zhàn)。
3、結(jié)語
生成式人工智能專注于創(chuàng)造能夠生成自己內(nèi)容的人工智能,這是一個(gè)快速發(fā)展的領(lǐng)域。人工智能所有領(lǐng)域的最新進(jìn)展正在為生成式人工智能帶來有利的加速,包括能夠生成自己的訓(xùn)練數(shù)據(jù)以提高其性能的模型的開發(fā),以及能夠?qū)κ聦?shí)進(jìn)行自我驗(yàn)證的模型。
大型語言模型(LLM)的開發(fā)和維護(hù)是復(fù)雜的,其成本和不準(zhǔn)確性仍然是主要的挑戰(zhàn)。但毫無疑問,主要技術(shù)和研究參與者的努力將導(dǎo)致這些系統(tǒng)能力的提高,并將迅速發(fā)揮其潛力。
文章標(biāo)題:The Exponential Growth of Generative AI: Opportunities and Challenges,作者:Frederic Jacquet
鏈接:https://dzone.com/articles/the-exponential-growth-of-generative-ai-opportunit