自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用檢索增強(qiáng)生成技術(shù)解決人工智能幻覺(jué)問(wèn)題

譯文 精選
人工智能 自然語(yǔ)言處理
大型語(yǔ)言模型的幻覺(jué)主要是數(shù)據(jù)集和訓(xùn)練不足造成的,這些缺陷可以通過(guò)檢索增強(qiáng)生成和實(shí)時(shí)數(shù)據(jù)得到緩解。

作者| Rahul Pradhan

來(lái)源| https://www.infoworld.com/article/3708254/addressing-ai-hallucinations-with-retrieval-augmented-generation.html

人工智能有望成為當(dāng)代最具影響力的技術(shù)。最近在transformer技術(shù)和生成式人工智能方面取得的進(jìn)展已經(jīng)展示了其大規(guī)模釋放創(chuàng)新和獨(dú)創(chuàng)性的潛力。

然而,生成式人工智能并非沒(méi)有挑戰(zhàn)——這些挑戰(zhàn)甚至可能會(huì)嚴(yán)重阻礙這一變革性技術(shù)的應(yīng)用和價(jià)值創(chuàng)造。隨著生成式人工智能模型的復(fù)雜性和能力不斷提高,它們也帶來(lái)了獨(dú)特的挑戰(zhàn),包括生成不基于輸入數(shù)據(jù)的輸出。

這些所謂的 "幻覺(jué) "是指模型產(chǎn)生的輸出結(jié)果雖然連貫,但可能脫離了事實(shí)或輸入背景。本文將簡(jiǎn)要介紹生成式人工智能的變革性影響,審視該技術(shù)的不足和挑戰(zhàn),并討論可用于緩解幻覺(jué)的技術(shù)。

生成式人工智能的變革效應(yīng)

生成式人工智能模型使用一種被稱(chēng)為深度學(xué)習(xí)的復(fù)雜計(jì)算過(guò)程來(lái)識(shí)別大量數(shù)據(jù)集中的模式,然后利用這些信息創(chuàng)建新的、令人信服的輸出。這些模型通過(guò)結(jié)合稱(chēng)為神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)這一目標(biāo),神經(jīng)網(wǎng)絡(luò)的靈感來(lái)源于人腦處理和解釋信息的方式,然后隨著時(shí)間的推移從中學(xué)習(xí)。

OpenAI 的 GPT-4 和谷歌的 PaLM 2 等生成式人工智能模型有望加速自動(dòng)化、數(shù)據(jù)分析和用戶(hù)體驗(yàn)方面的創(chuàng)新。這些模型可以編寫(xiě)代碼、總結(jié)文章,甚至幫助診斷疾病。然而,這些模型的可行性和最終價(jià)值取決于它們的準(zhǔn)確性和可靠性。在醫(yī)療保健、金融或法律服務(wù)等關(guān)鍵領(lǐng)域,可靠的準(zhǔn)確性至關(guān)重要。但對(duì)于所有用戶(hù)來(lái)說(shuō),要釋放生成式人工智能的全部潛力,就必須解決這些挑戰(zhàn)。

大型語(yǔ)言模型的缺點(diǎn)

LLM 從根本上說(shuō)是概率性和非確定性的。它們根據(jù)下一個(gè)特定詞序出現(xiàn)的可能性生成文本。LLM 沒(méi)有知識(shí)概念,完全依賴(lài)于通過(guò)訓(xùn)練有素的數(shù)據(jù)語(yǔ)料庫(kù)作為推薦引擎進(jìn)行導(dǎo)航。它們生成的文本一般遵循語(yǔ)法和語(yǔ)義規(guī)則,但完全以滿(mǎn)足與提示的統(tǒng)計(jì)一致性為基礎(chǔ)。

LLM 的這種概率性質(zhì)既是優(yōu)點(diǎn)也是缺點(diǎn)。如果目標(biāo)是得出正確答案或根據(jù)答案做出關(guān)鍵決定,那么幻覺(jué)就是不好的,甚至?xí)斐蓳p害。然而,如果目標(biāo)是創(chuàng)造性的努力,那么可以利用 LLM 培養(yǎng)藝術(shù)創(chuàng)造力,從而相對(duì)較快地創(chuàng)作出藝術(shù)作品、故事情節(jié)和劇本。

然而,無(wú)論目標(biāo)如何,無(wú)法信任 LLM 模型的輸出都會(huì)造成嚴(yán)重后果。這不僅會(huì)削弱人們對(duì)這些系統(tǒng)能力的信任,還會(huì)大大降低人工智能對(duì)加速人類(lèi)生產(chǎn)力和創(chuàng)新的影響。

最終,人工智能的好壞取決于它所訓(xùn)練的數(shù)據(jù)。LLM 的幻覺(jué)主要是數(shù)據(jù)集和訓(xùn)練的缺陷造成的,包括以下方面

  • 過(guò)度擬合: 當(dāng)模型對(duì)訓(xùn)練數(shù)據(jù)(包括噪聲和異常值)的學(xué)習(xí)效果太好時(shí),就會(huì)出現(xiàn)過(guò)度擬合。模型的復(fù)雜性、訓(xùn)練數(shù)據(jù)的噪聲或訓(xùn)練數(shù)據(jù)的不足都會(huì)導(dǎo)致過(guò)度擬合。這會(huì)導(dǎo)致低質(zhì)量的模式識(shí)別,使模型無(wú)法很好地泛化到新數(shù)據(jù)中,從而導(dǎo)致分類(lèi)和預(yù)測(cè)錯(cuò)誤、與事實(shí)不符的輸出、信噪比低的輸出或完全的幻覺(jué)。
  • 數(shù)據(jù)質(zhì)量: 用于訓(xùn)練的數(shù)據(jù)的錯(cuò)誤標(biāo)記和錯(cuò)誤分類(lèi)可能在幻覺(jué)中起重要作用。有偏差的數(shù)據(jù)或缺乏相關(guān)數(shù)據(jù)實(shí)際上會(huì)導(dǎo)致模型輸出結(jié)果看似準(zhǔn)確,但可能被證明是有害的,這取決于模型建議的決策范圍。
  • 數(shù)據(jù)稀缺: 數(shù)據(jù)稀缺或?qū)π迈r或相關(guān)數(shù)據(jù)的需求是導(dǎo)致幻覺(jué)并阻礙企業(yè)采用生成式人工智能的重要問(wèn)題之一。使用最新內(nèi)容和上下文數(shù)據(jù)刷新數(shù)據(jù)有助于減少幻覺(jué)和偏見(jiàn)。
解決大型語(yǔ)言模型中的幻覺(jué)

有幾種方法可以解決 LLM 中的幻覺(jué)問(wèn)題,包括微調(diào)、提示工程和檢索增強(qiáng)生成 (RAG) 等技術(shù)。

  • 微調(diào)是指使用特定領(lǐng)域的數(shù)據(jù)集重新訓(xùn)練模型,以便更準(zhǔn)確地生成與該領(lǐng)域相關(guān)的內(nèi)容。然而,重新訓(xùn)練或微調(diào)模型需要較長(zhǎng)的時(shí)間,此外,如果不持續(xù)訓(xùn)練,數(shù)據(jù)很快就會(huì)過(guò)時(shí)。此外,重新訓(xùn)練模型也會(huì)帶來(lái)巨大的成本負(fù)擔(dān)。
  • 提示工程旨在通過(guò)在輸入中提供更多描述性和說(shuō)明性特征作為提示,幫助 LLM 得出高質(zhì)量的結(jié)果。為模型提供額外的上下文并使其立足于事實(shí),這樣就能降低模型產(chǎn)生幻覺(jué)的可能性。
  • 檢索增強(qiáng)生成(RAG)是一種側(cè)重于用最準(zhǔn)確、最新的信息為 LLM 提供基礎(chǔ)的框架。通過(guò)實(shí)時(shí)向模型提供來(lái)自外部知識(shí)庫(kù)的事實(shí),可以改善 LLM 的響應(yīng)。
檢索增強(qiáng)生成和實(shí)時(shí)數(shù)據(jù)

檢索增強(qiáng)生成是提高大型語(yǔ)言模型準(zhǔn)確性的最有前途的技術(shù)之一。事實(shí)證明,RAG 與實(shí)時(shí)數(shù)據(jù)相結(jié)合可大大減輕幻覺(jué)。

RAG 使企業(yè)能夠利用最新的專(zhuān)有數(shù)據(jù)和上下文數(shù)據(jù)利用 LLM。除了減少幻覺(jué)之外,RAG 還能利用特定語(yǔ)境信息豐富輸入內(nèi)容,從而幫助語(yǔ)言模型生成更準(zhǔn)確、與語(yǔ)境更相關(guān)的響應(yīng)。在企業(yè)環(huán)境中,微調(diào)往往是不切實(shí)際的,但 RAG 提供了一種低成本、高收益的替代方案,可用于提供個(gè)性化、信息靈通的用戶(hù)體驗(yàn)。

為了提高 RAG 模型的效率,有必要將 RAG 與可操作的數(shù)據(jù)存儲(chǔ)結(jié)合起來(lái),該數(shù)據(jù)存儲(chǔ)能夠以 LLMs 的母語(yǔ)存儲(chǔ)數(shù)據(jù),即被稱(chēng)為嵌入的高維數(shù)學(xué)向量,用于編碼文本的含義。當(dāng)用戶(hù)提出查詢(xún)時(shí),數(shù)據(jù)庫(kù)會(huì)將其轉(zhuǎn)換為數(shù)字向量。這樣,無(wú)論是否包含相同的術(shù)語(yǔ),都可以通過(guò)向量數(shù)據(jù)庫(kù)查詢(xún)相關(guān)文本。

高可用性、高性能、能夠使用語(yǔ)義搜索存儲(chǔ)和查詢(xún)海量非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)是 RAG 流程的關(guān)鍵組成部分。

責(zé)任編輯:劉芯 來(lái)源: InforWorld
相關(guān)推薦

2024-06-18 15:36:50

2025-02-11 08:00:00

大語(yǔ)言模型檢索增強(qiáng)生成CAG

2023-11-08 16:18:32

人工智能矢量數(shù)據(jù)庫(kù)

2025-04-29 08:20:51

2023-10-14 17:46:17

RAG提示工程GPT-3

2024-01-10 07:42:59

人工智能模型RAG

2024-05-20 08:31:33

檢索增強(qiáng)生成LLM大型語(yǔ)言模型

2023-10-30 11:37:12

2024-12-23 11:31:05

大模型檢索人工智能

2024-09-05 08:24:09

2025-04-01 09:25:09

2025-01-23 16:23:30

2023-09-11 09:00:00

檢索增強(qiáng)生成大數(shù)據(jù)模型自然語(yǔ)言處理

2024-05-28 09:24:32

2024-07-09 09:00:00

2024-02-18 09:00:00

RAG工具LlamaIndexChatGPT

2024-10-12 08:03:25

2023-03-27 11:33:37

人工智能物聯(lián)網(wǎng)

2023-08-30 16:04:13

人工智能AI

2024-01-03 09:47:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)