自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)驅(qū)動(dòng)與 LLM 微調(diào):打造 E2E 任務(wù)型對(duì)話 Agent

人工智能 系統(tǒng)
本文提出了一種利用蒙卡方法和 LLM 生成訓(xùn)練數(shù)據(jù)集,并將其與 LLaMA Factory 框架相結(jié)合,高效微調(diào)多種語(yǔ)言模型,構(gòu)建任務(wù)型對(duì)話 Agent 的新穎方案。

作者 | Thought Agent 社區(qū)

在對(duì)話系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)中,傳統(tǒng)的基于 Rasa-like 框架的方法往往需要依賴于多個(gè)模塊的緊密協(xié)作,例如我們?cè)谥暗奈恼轮刑岬降幕诖竽P停↙LM)構(gòu)建的任務(wù)型對(duì)話 Agent,Thought Agent,其由自然語(yǔ)言理解(NLU)、對(duì)話管理(DM)和對(duì)話策略(DP)等模塊共同協(xié)作組成。這種模塊化的設(shè)計(jì)雖然在理論上具有靈活性,但在實(shí)踐中卻帶來(lái)了諸多挑戰(zhàn),尤其是在系統(tǒng)集成、錯(cuò)誤傳播、維護(hù)更新以及開(kāi)發(fā)門(mén)檻等方面。

為了克服這些挑戰(zhàn),構(gòu)建一個(gè)端到端(E2E)的模型顯得尤為關(guān)鍵。E2E 的模型通過(guò)將對(duì)話的各個(gè)階段集成到一個(gè)統(tǒng)一的框架中,極大地簡(jiǎn)化了系統(tǒng)架構(gòu),提高了處理效率,并減少了錯(cuò)誤傳遞的可能性。此外,由于其簡(jiǎn)化的架構(gòu),也更易于維護(hù)和更新,從而降低了開(kāi)發(fā)和維護(hù)的成本。

在我們看來(lái),端到端的對(duì)話 Agent 不僅在技術(shù)上更具優(yōu)勢(shì),而且在實(shí)際應(yīng)用中也展現(xiàn)了其獨(dú)特的價(jià)值和潛力,例如能夠快速構(gòu)建幫助用戶查詢信息、調(diào)度技能的 Agent。

本文將指導(dǎo)讀者如何采用蒙特卡洛方法(Monte Carlo)模擬用戶行為并結(jié)合 LLM 的方法來(lái)構(gòu)建訓(xùn)練數(shù)據(jù)集;使用 LLaMA Factory 對(duì)多種 LLM 進(jìn)行高效微調(diào)構(gòu)建任務(wù)型對(duì)話 Agent。該方案允許用戶快速創(chuàng)建出能夠精準(zhǔn)調(diào)用外部工具的 Agent。

挑戰(zhàn)

任務(wù)型對(duì)話系統(tǒng)的核心需求包括意圖識(shí)別、槽位填充、狀態(tài)管理和策略決策。我們識(shí)別了以下幾個(gè)關(guān)鍵挑戰(zhàn):

  • 微調(diào)后的 LLM 需要從用戶的問(wèn)題中識(shí)別到用戶意圖和關(guān)鍵信息(槽位)
  • 微調(diào)后的 LLM 需要對(duì)用戶的問(wèn)題有判斷邊界的能力,容易混淆的內(nèi)容將觸發(fā)意圖確認(rèn),完全無(wú)關(guān)的內(nèi)容將觸發(fā)兜底話術(shù)
  • 微調(diào)后的 LLM 需要根據(jù)槽位填充狀態(tài)判斷合適的觸發(fā)功能調(diào)用(Function calling)的時(shí)機(jī)
  • 微調(diào)后的 LLM 需要對(duì)根據(jù)上下文正確的識(shí)別到需要用于調(diào)用功能的關(guān)鍵信息

構(gòu)造數(shù)據(jù)集

為了應(yīng)對(duì)上述挑戰(zhàn),首先我們需要構(gòu)造能夠覆蓋大部分場(chǎng)景的對(duì)話數(shù)據(jù)集,我們面臨的核心難點(diǎn)是如何模擬真實(shí)世界中用戶的多樣化行為和對(duì)話系統(tǒng)的有效響應(yīng)。但是對(duì)于任務(wù)型對(duì)話 Agent 來(lái)說(shuō),用戶和 Agent 之間的對(duì)話域是有限的,因?yàn)?Agent 只需要處理業(yè)務(wù)范圍內(nèi)的用戶意圖,超出處理范圍的內(nèi)容,只需要返回一些固定的兜底話術(shù)即可。

因此我們可以采用了狀態(tài)圖對(duì)對(duì)話的過(guò)程進(jìn)行建模,使用蒙特卡洛方法對(duì)真實(shí)的對(duì)話過(guò)程進(jìn)行模擬,接著使用 LLM 的生成能力來(lái)創(chuàng)建符合狀態(tài)、角色定義的對(duì)話內(nèi)容從而達(dá)到構(gòu)建數(shù)據(jù)集的目的。

1.基于圖的對(duì)話流程圖的建模

我們使用有向圖(Directed Graph)的數(shù)據(jù)結(jié)構(gòu)來(lái)對(duì)通用的任務(wù)型對(duì)話流程進(jìn)行建模,這比傳統(tǒng)的有限狀態(tài)機(jī)更加靈活和通用。在構(gòu)建對(duì)話流程圖時(shí),我們首先定義了一組節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表了對(duì)話中的一個(gè)關(guān)鍵狀態(tài)。例如,一個(gè)理想的對(duì)話過(guò)程至少包含以下節(jié)點(diǎn):

  • Start: 對(duì)話開(kāi)始
  • IntentAcquire: Agent 詢問(wèn)用戶意圖
  • UserInquiry: 用戶發(fā)起新的提問(wèn)
  • IntentConfirm: Agent 向用戶確認(rèn)意圖 (用戶意圖不明確時(shí))
  • UserConfirm: 用戶確認(rèn)意圖
  • UserDeny: 用戶否認(rèn)意圖
  • AskSlot: 追問(wèn)用戶關(guān)于該意圖的關(guān)鍵信息(槽位)
  • ProvideSlot: 用戶提供或更新關(guān)鍵信息
  • FunctionCalling: 調(diào)用功能,傳遞槽位信息
  • Chitchat: 用戶閑聊
  • End: 對(duì)話結(jié)束

在定義了節(jié)點(diǎn)之后,我們使用邊將可以進(jìn)行狀態(tài)轉(zhuǎn)移的節(jié)點(diǎn)連接起來(lái),從而構(gòu)建一個(gè)有向圖用來(lái)表征對(duì)話過(guò)程中所有可能的轉(zhuǎn)移關(guān)系,如下圖。在這個(gè)圖中,主要的變量是用戶對(duì)話內(nèi)容,Agent 的回復(fù)內(nèi)容是隨著用戶的對(duì)話意圖和槽位狀態(tài)發(fā)生的變化而變化。對(duì)于每個(gè)原子對(duì)話來(lái)說(shuō),我們認(rèn)為在用戶提供了清晰的意圖以及提供了全部的必填槽位信息之后,這個(gè)原子對(duì)話就算結(jié)束了,即可以觸發(fā) Function Calling 的指令。

圖 1. 對(duì)話流程轉(zhuǎn)移圖示例(可能沒(méi)有覆蓋全部場(chǎng)景)

2.初始狀態(tài)隨機(jī)生成

在對(duì)話系統(tǒng)的開(kāi)始階段,用戶的首次提問(wèn)可能包含從零到全部所需槽位的不同信息量。為了模擬這種多樣性,我們可以使用蒙特卡洛方法來(lái)隨機(jī)決定哪些槽位在用戶的首次提問(wèn)中被提及。具體來(lái)說(shuō),對(duì)于一個(gè)意圖中的所有槽位,我們可以生成一個(gè)由 0 或 1 組成的隨機(jī)數(shù)組,其中 0 表示該槽位不能再首次提問(wèn)中提及,而 1 表示需要被提及。

例如,考慮一個(gè)酒店預(yù)訂任務(wù),可能的關(guān)鍵信息包括「入住日期」、「退房日期」 和 「房間類型」。利用上述的方法,我們可以為每個(gè)槽位生成一個(gè)對(duì)應(yīng)的隨機(jī)值,從而決定用戶的首次提問(wèn)中需要包含哪些信息。這不僅增加了對(duì)話樣本的多樣性,也使得訓(xùn)練數(shù)據(jù)集更加貼近真實(shí)世界的對(duì)話情況。

3.隨機(jī)游走模擬用戶行為

初始狀態(tài)生成了之后,我們需要生成生成多樣化的對(duì)話路徑,這里采用蒙特卡洛方法使得當(dāng)前的對(duì)話狀態(tài)在建立好的對(duì)話轉(zhuǎn)移狀態(tài)圖中隨機(jī)游走。在每個(gè)狀態(tài)完成之后,將隨機(jī)選擇下一個(gè)狀態(tài),各狀態(tài)的轉(zhuǎn)移概率可以根據(jù)經(jīng)驗(yàn)進(jìn)行定義,從而模擬用戶可能采取的不同行動(dòng)。例如,用戶在首問(wèn)中沒(méi)有提供全部的必填槽位, Agent 將發(fā)起槽位的追問(wèn),對(duì)于 Agent 的追問(wèn),用戶可能認(rèn)真的回答槽位信息,也有可能發(fā)起閑聊,還有可能改變了主意,問(wèn)了一個(gè)新的問(wèn)題,不同的轉(zhuǎn)移路徑我們可以設(shè)置不同的概率,例如上面的轉(zhuǎn)移路徑我們根據(jù)經(jīng)驗(yàn)分為設(shè)置概率為 [0.8, 0.1, 0.1]。

通過(guò)這種隨機(jī)游走的方式,可以生成不同的對(duì)話狀態(tài)路徑,每條路徑都代表了一種可能的用戶行為和 Agent 響應(yīng)。這些路徑為我們提供了豐富的訓(xùn)練數(shù)據(jù),幫助對(duì)話系統(tǒng)學(xué)習(xí)如何處理各種情況。

4.對(duì)上下文理解能力的增強(qiáng)

在實(shí)際對(duì)話中,用戶通常不會(huì)在每個(gè)回合都重復(fù)提供所有相關(guān)信息。相反,他們會(huì)根據(jù)上下文,利用代詞、省略或簡(jiǎn)化的表述來(lái)替代之前已經(jīng)提及過(guò)的內(nèi)容。為了讓對(duì)話系統(tǒng)能夠正確理解這種上下文依賴的表達(dá)方式,我們需要在訓(xùn)練數(shù)據(jù)中模擬這種用戶行為模式。

具體來(lái)說(shuō),我們將對(duì)話分為多個(gè)階段,每個(gè)階段對(duì)應(yīng)不同的任務(wù)意圖。在后續(xù)階段生成語(yǔ)料時(shí),我們會(huì)考慮之前階段已經(jīng)提供的槽位信息。如果用戶的新問(wèn)題與之前的問(wèn)題存在槽位重疊,且該槽位已在先前回合中提供過(guò),那么在生成新問(wèn)題時(shí),我們將有意識(shí)地省略這部分信息,只保留用戶需要補(bǔ)充的新信息。

例如,假設(shè)用戶之前已經(jīng)詢問(wèn)過(guò)「成都市內(nèi)哪家火鍋好吃」,這句話中包含了用戶想要了解的位置和餐廳類型兩個(gè)槽位信息。在后續(xù)對(duì)話中,如果用戶想詢問(wèn)這些餐館的價(jià)格區(qū)間,可能會(huì)使用「它們的價(jià)格大概是多少?」這樣的省略式表述,而非重復(fù)提供完整的問(wèn)句。通過(guò)模擬這種情況,我們可以增強(qiáng)模型對(duì)于上下文依賴的理解能力。

5.基于 LLM 的對(duì)話內(nèi)容生成

LLM 在這一過(guò)程中扮演了至關(guān)重要的角色。我們利用 LLM 的強(qiáng)大生成能力來(lái)模擬用戶的提問(wèn)和系統(tǒng)的追問(wèn),生成接近真實(shí)對(duì)話的數(shù)據(jù)。例如,以推薦餐廳這個(gè)意圖為例, 用于生成首問(wèn)的 Prompt 可以這樣寫(xiě):

你是一個(gè)用戶,你現(xiàn)在想要「根據(jù)自己的位置、興趣和預(yù)算,讓智能客服推薦當(dāng)?shù)氐牟蛷d」,請(qǐng)向智能客服尋求幫助。

你的問(wèn)題需要滿足以下幾個(gè)條件:

  • 1在問(wèn)題中需要提到具體的用戶當(dāng)前的區(qū)域或希望探索的區(qū)域。
  • 在問(wèn)題中一定不要提到具體的用戶感興趣的餐廳類型,中餐,日料,西餐等。
  • 在問(wèn)題中一定不要提到具體的用戶的最大預(yù)算。

請(qǐng)生成一句滿足當(dāng)前的場(chǎng)景和設(shè)定的問(wèn)題。

LLM 廣闊的知識(shí)面為我們提供了豐富的語(yǔ)言資源,支持我們模擬各種場(chǎng)景的對(duì)話。此外,LLM 還能夠根據(jù)上下文生成連貫且邏輯性強(qiáng)的回復(fù),進(jìn)一步提高了數(shù)據(jù)集的質(zhì)量。

為了增強(qiáng)任務(wù)型對(duì)話 Agent 對(duì)領(lǐng)域信息的理解以及提高對(duì)話的多樣性, RAG 技術(shù)將被用于為對(duì)話內(nèi)容注入領(lǐng)域相關(guān)的知識(shí)。特別是在處理涉及特定領(lǐng)域業(yè)務(wù)的時(shí)候,領(lǐng)域知識(shí)在這一過(guò)程中至關(guān)重要。為了在實(shí)現(xiàn)領(lǐng)域信息的注入,以辦理業(yè)務(wù)這個(gè)意圖為例,可以采取以下實(shí)施步驟:

  • 首先,提前準(zhǔn)備好所有可以辦理的業(yè)務(wù)列表以及每個(gè)業(yè)務(wù)對(duì)應(yīng)的描述信息作為我們的候選信息源。
  • 接著,在每次需要再對(duì)話中提及具體的業(yè)務(wù)功能的時(shí)候從這個(gè)槽位列表中隨機(jī)選擇一個(gè)或多個(gè)功能。例如,我們可以構(gòu)建這樣的 Prompt 「請(qǐng)生成一個(gè)用戶想要辦理 A 業(yè)務(wù)的話術(shù),A 業(yè)務(wù)是一個(gè) xxx 的功能」來(lái)生成不同的用戶問(wèn)題,一方面注入了我們想要 Agent 學(xué)習(xí)的領(lǐng)域知識(shí),另一方面保證了對(duì)話語(yǔ)料的多樣性。

通過(guò)這種方法,任務(wù)型對(duì)話代理可以更好地理解和響應(yīng)用戶需求,提供更精準(zhǔn)和個(gè)性化的服務(wù)。

6.易擴(kuò)展的意圖配置

對(duì)于任務(wù)型 Agent 來(lái)說(shuō),對(duì)話的目標(biāo)是一致,即收集足夠的信息幫助用戶執(zhí)行任務(wù)。我們可以通過(guò)一個(gè) YAML 文件來(lái)對(duì)任務(wù)的詳細(xì)內(nèi)容和槽位信息進(jìn)行描述,用戶意圖增加和減少都可以通過(guò)編輯一系列 YAML 配置文件來(lái)實(shí)現(xiàn),而無(wú)需對(duì)有狀態(tài)轉(zhuǎn)移圖或生成流程進(jìn)行復(fù)雜的更改。這種設(shè)計(jì)提高了本文方案的可擴(kuò)展性。例如想生成一個(gè)根據(jù)地點(diǎn),餐廳類型,最大預(yù)算推薦餐廳任務(wù)相關(guān)的數(shù)據(jù)集,只需要編寫(xiě)如下配置文件即可:

name: recommend_restaurant 
description: 根據(jù)自己的位置、興趣和預(yù)算,讓智能客服推薦當(dāng)?shù)氐牟蛷d
parameters:
  - name: destination
    description: 用戶當(dāng)前的區(qū)域或希望探索的區(qū)域。
    type: text 
    required: True
  - name: cuisine_type
    description: 用戶感興趣的餐廳類型,中餐,日料,西餐等 
    type: text 
    required: True
  - name: budget
    description: 用戶的最大預(yù)算
    type: float 
    required: False

目標(biāo)為任務(wù)型對(duì)話 Agent 的 LLM 微調(diào)

我們選擇 LLaMA Factory 作為我們的微調(diào)工具,這是一個(gè)開(kāi)源的高效微調(diào)框架,專為 LLMs 設(shè)計(jì),能夠適應(yīng)各種下游任務(wù),并且兼容大部分主流模型,同時(shí)提供一個(gè)圖形界面 LLaMA Board 幫助用戶更友好的執(zhí)行和管理微調(diào)任務(wù)。

對(duì)于本文的任務(wù),對(duì) LLM 按照任務(wù)型 Agent 方向進(jìn)行微調(diào),因?yàn)樾枰獙W(xué)習(xí)的知識(shí)較少,并且不會(huì)對(duì)模型整體的回答能力進(jìn)行大的變化,這里我們采用 LoRA 微調(diào)技術(shù)對(duì)模型進(jìn)行 SFT。在基礎(chǔ)模型的選擇上,沒(méi)有經(jīng)過(guò)指令微調(diào)的 Base 模型和有過(guò)指令微調(diào)后的 Chat 模型(e.g., Qwen 1.5 和 ChatGLM3)都會(huì)被納入選擇范圍。

圖 2. 面向 LLM 微調(diào)的 LLaMA Board 系統(tǒng)

LLaMA Factory 支持 Alpaca 和 ShareGPT 兩種數(shù)據(jù)集的格式,這里我們將上面使用蒙卡 + LLM 生成的數(shù)據(jù)集處理為 ShareGPT 格式。下面就是個(gè) ShareGPT 格式包含功能調(diào)用內(nèi)容的數(shù)據(jù)例子,其中 conversations 中是對(duì)話歷史,tools 是當(dāng)前對(duì)話中所有可用的工具。

為了保證不同的意圖和槽位能被相對(duì)準(zhǔn)確的識(shí)別到,根據(jù)實(shí)踐經(jīng)驗(yàn)我們認(rèn)為訓(xùn)練數(shù)據(jù)量需要滿足意圖數(shù) x 槽位數(shù) x 500 的規(guī)模。這里我們構(gòu)造了 5 個(gè)任務(wù),分別是根據(jù)實(shí)時(shí)匯率轉(zhuǎn)換貨幣金額,了解某個(gè)地區(qū)的習(xí)俗和文化特點(diǎn),根據(jù)用戶的位置或興趣,推薦附近的博物館,根據(jù)自己的位置、興趣和預(yù)算,推薦當(dāng)?shù)氐牟蛷d以及查詢?nèi)ツ硞€(gè)目的地的交通方式。每個(gè)意圖包含 2 至 3 個(gè)槽位,共生成了 6000 條左右的數(shù)據(jù),覆蓋了 5 個(gè)任務(wù)大部分用戶狀態(tài)變化路徑,接下來(lái)將對(duì)微調(diào)訓(xùn)練的部分進(jìn)行詳細(xì)的介紹。

實(shí)驗(yàn)配置及結(jié)果

本文選擇在 A6000 顯卡上進(jìn)行微調(diào),微調(diào)精度選擇 fp16,LoRA Rank 設(shè)置為 4,訓(xùn)練 3 個(gè) Epoch。在不使用 flash attention 加速時(shí)整個(gè)訓(xùn)練過(guò)程耗時(shí) 1.5h 左右,對(duì)于 6B - 7B 的模型,顯存占用在 20 - 22G 左右。實(shí)驗(yàn)對(duì)象包括目前市面上主流的開(kāi)源模型,ChatGLM3 6B,Qwen 1.5 7B,Yi 6B 系列的 Chat 模型和 Base 模型。在額外構(gòu)造了 100 個(gè)驗(yàn)證對(duì)話集對(duì)模型進(jìn)行評(píng)估之后,這里將微調(diào)前的 Qwen 1.5 Chat 模型作為基線對(duì)比了不同模型微調(diào)后的表現(xiàn),

表 1. 不同基模型的微調(diào)結(jié)果對(duì)比

從對(duì)比結(jié)果可以發(fā)現(xiàn),經(jīng)過(guò)我們微調(diào)后的 Qwen 1.5 Chat 模型在整體性能上表現(xiàn)最佳,相對(duì)于 Baseline(微調(diào)前的 Qwen 1.5 Chat 模型),除了微調(diào)不成功的 ChatGLM3 之外,性能上都有比較顯著的提升。Qwen 1.5 的意圖召回率略高于 Qwen 1.5 Chat 的原因是 Qwen 1.5 出現(xiàn)幻覺(jué)的概率較高,在給出 Tools 之后,沒(méi)有明顯調(diào)用工具的提問(wèn)也較容易觸發(fā)工具調(diào)用。

對(duì)比一下 Qwen 1.5 Chat 微調(diào)前和微調(diào)后的表現(xiàn),下圖 3 為 Qwen 1.5 Chat 微調(diào)前的對(duì)話表現(xiàn),圖 4 為 Qwen 1.5 Chat 經(jīng)過(guò)微調(diào)后的對(duì)話表現(xiàn)??梢悦黠@發(fā)現(xiàn)微調(diào)后的模型對(duì)于槽位的識(shí)別方面提升很大,并且還附加了槽位追問(wèn)的能力。

圖 3. Qwen 1.5 Chat 微調(diào)前的對(duì)話表現(xiàn)

圖 4. Qwen 1.5 Chat 微調(diào)后的對(duì)話表現(xiàn)

此外,Agent 對(duì)于用戶在對(duì)話中省略主語(yǔ)時(shí)也能正確的識(shí)別槽位信息,如下圖所示,用戶在說(shuō)「5000 人民幣可以在當(dāng)?shù)剡€多少錢(qián)呢」的時(shí)候,模型能夠智能的將「當(dāng)?shù)亍购蜕衔闹刑岬降摹妇┒肌孤?lián)系起來(lái),在上下文結(jié)合和理解上的表現(xiàn)上比傳統(tǒng)的 Rasa-like 對(duì)話 Agent 表現(xiàn)的更加智能和靈活,達(dá)到了我們的預(yù)期水平。

圖 5. 本文微調(diào)的 Agent 模型超越普通 Rasa-like 對(duì)話 Agent 的能力

對(duì)比經(jīng)過(guò)指令微調(diào)的 Chat 模型和沒(méi)有指令微調(diào)過(guò)的 Base 模型我們還發(fā)現(xiàn),經(jīng)過(guò)指令微調(diào)的 Chat 模型得到的微調(diào)反饋?zhàn)罴眩貏e是經(jīng)過(guò) Agent 相關(guān)指令微調(diào)的 Chat 模型,這主要是這類模型已經(jīng)使用了大量包括 Function Calling 的語(yǔ)料進(jìn)行了訓(xùn)練,我們?cè)诖嘶A(chǔ)上進(jìn)行微調(diào)實(shí)際上屬于同方向的增量學(xué)習(xí),需要 Agent 額外的學(xué)習(xí)成本更小。

結(jié)論

本文提出了一種利用蒙卡方法和 LLM 生成訓(xùn)練數(shù)據(jù)集,并將其與 LLaMA Factory 框架相結(jié)合,高效微調(diào)多種語(yǔ)言模型,構(gòu)建任務(wù)型對(duì)話 Agent 的新穎方案。該方案不僅保留了大語(yǔ)言模型強(qiáng)大的理解和生成能力,而且顯著提高了微調(diào)后模型在意圖識(shí)別、槽位填充等關(guān)鍵任務(wù)上的性能表現(xiàn)。

與傳統(tǒng)的模塊化對(duì)話系統(tǒng)相比,本文方法構(gòu)建的端到端 Agent 架構(gòu)更加簡(jiǎn)潔高效,易于部署和維護(hù)。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)微調(diào)的語(yǔ)言模型不僅能夠準(zhǔn)確識(shí)別用戶意圖和關(guān)鍵信息,還能根據(jù)上下文理解用戶的省略表達(dá),并在必要時(shí)主動(dòng)追問(wèn)槽位信息,相較于微調(diào)前的模型,展現(xiàn)出更強(qiáng)的理解和交互能力,相較于傳統(tǒng)的模型,展現(xiàn)出了更多的智能性。

盡管如此,該方案仍然存在一定的不足,首先在數(shù)據(jù)集的構(gòu)建方面,靠人腦整理的行為狀態(tài)圖很難考慮到所有可能的用戶路徑,建模的過(guò)程十分耗時(shí)。在 Agent 微調(diào)方面,準(zhǔn)確率還有待進(jìn)一步提高,因?yàn)槭?E2E 的系統(tǒng),整體的可控性和可解釋性相對(duì)較差。

未來(lái)我們的工作重點(diǎn)將包括:

  • 優(yōu)化數(shù)據(jù)集生成方法,例如結(jié)合蒙特卡羅樹(shù)搜索(MCTS)和評(píng)分模型的方案對(duì)對(duì)話狀態(tài)空間進(jìn)行探索和篩選。
  • 進(jìn)一步優(yōu)化微調(diào)方法、探索提高模型可解釋性的技術(shù)路線等,以期在保持語(yǔ)言模型強(qiáng)大能力的同時(shí),進(jìn)一步增強(qiáng)任務(wù)型對(duì)話 Agent 的性能和可靠性。
責(zé)任編輯:趙寧寧 來(lái)源: Thoughtworks洞見(jiàn)
相關(guān)推薦

2013-06-14 09:41:07

網(wǎng)絡(luò)規(guī)劃工程外包華為

2020-12-09 14:13:37

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-08-02 12:04:39

測(cè)試測(cè)試框架Cypress

2024-05-21 10:35:34

2020-06-22 07:00:00

BI工具AI大數(shù)據(jù)

2024-06-06 08:25:30

2010-02-18 02:10:32

Intel至強(qiáng)

2025-02-14 08:18:33

2013-06-21 10:15:31

iCoremail企業(yè)郵箱

2011-10-19 09:49:53

管理E本移動(dòng)辦公

2025-01-08 15:15:16

2022-03-29 14:28:03

架構(gòu)安全設(shè)計(jì)

2022-03-22 09:36:12

汽車電子系統(tǒng)網(wǎng)絡(luò)安全

2011-09-29 15:16:25

ThinkPad筆記本

2024-06-24 10:53:23

2012-06-04 17:02:48

華為CDMA商用終端

2011-05-06 14:41:30

揚(yáng)天E6800I聯(lián)想

2013-03-01 10:42:01

Haswell-EIvy Bridge-英特爾

2014-02-26 15:05:16

無(wú)紙化辦公E人E本
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)