聊天機(jī)器人測試:更深入地了解框架、工具和技術(shù)
譯文【51CTO.com快譯】
多年來,商業(yè)營銷和實(shí)施技術(shù)以推動更好的客戶體驗(yàn)的動態(tài)發(fā)生了顯著變化,聊天機(jī)器人就是這樣一個很好的例子。
現(xiàn)在,你訪問的幾乎每個網(wǎng)站都為你提供聊天機(jī)器人的虛擬幫助。更重要的是,聊天機(jī)器人幫助企業(yè)主管理和擴(kuò)展他們的業(yè)務(wù)服務(wù)以及 CRM 實(shí)踐。
聊天機(jī)器人的未來優(yōu)勢吸引了許多全球組織的注意,這些組織實(shí)際上正試圖挖掘這項(xiàng)技術(shù)的全部潛力,來實(shí)現(xiàn)其業(yè)務(wù)目標(biāo)。此外,如聊天機(jī)器人還可以幫助您增強(qiáng)營銷計(jì)劃,同時,如果實(shí)施方式正確的話,還能夠帶來廣泛的組織利益。
然而,不僅以正確的方式部署聊天機(jī)器人有助于實(shí)現(xiàn)您的業(yè)務(wù)目標(biāo)。完美的 聊天機(jī)器人測試策略還可以幫助您推動營銷議程。
無論您是聊天機(jī)器人測試的新手,還是已經(jīng)熟悉其基本概念,本指南都將幫助您深入了解從測試技術(shù) 到框架、工具等的方方面面。
讓我們開始。
了解測試框架
當(dāng)我們談?wù)摿奶鞕C(jī)器人測試程序時,大多數(shù)時候,它們是一些標(biāo)準(zhǔn)化點(diǎn)。由于實(shí)現(xiàn)與通信相關(guān)的目標(biāo)可能具有挑戰(zhàn)性,因此在 測試用例上花費(fèi)時間可以幫助您更快地啟動聊天機(jī)器人。此測試策略的目標(biāo)是在預(yù)期的測試實(shí)踐中完成。因此,聊天機(jī)器人的測試框架大致分為三個主要部分:
- 預(yù)期場景
- 可能的場景
- 幾乎不可能的場景
通常,這些測試用例被繪制為 sigma 距離圖,其中完成幾乎不可能的用例的測試,以實(shí)現(xiàn) 3 sigma 距離或聊天機(jī)器人性能的99%置信區(qū)間。 在此階段之后執(zhí)行的任何測試程序通常都涉及非常高的投資,并且通常是為了獲得一些無限的語言可能性。
對聊天機(jī)器人測試的各個領(lǐng)域的簡要了解
當(dāng)我們開始進(jìn)行聊天機(jī)器人測試時,通常涉及 以下類型的測試領(lǐng)域:
- 接聽
- 會話流程
- 錯誤管理
- 智力
- 情報(bào)入職
- 自然語言處理模型
- 導(dǎo)航
- 個性
- 響應(yīng)時間
- 速度
- 安全
- 理解力
然而,從這些測試領(lǐng)域獲得最好的結(jié)果需要正確應(yīng)用測試技術(shù),這涉及敏捷和開發(fā)人員測試實(shí)踐。讓我們簡要介紹一下:
敏捷和定期測試
聊天機(jī)器人的主要技術(shù)是敏捷,因因?yàn)樾枰_保在每個循環(huán)之后獲得所需的可行性。詞此技術(shù)可以幫助實(shí)現(xiàn)錯誤處理功能,并通過快速迭代防止錯誤。初始階段通常涉及手動測試程序,這些程序通常用于處理業(yè)務(wù)工作流,而最后階段通常是自動化的,以防止任何時間浪費(fèi)和快速上市。
開發(fā)者測試
這是一種更直接的測試方式,旨在通過提前定義用戶查詢的答案來驗(yàn)證測試。這種類型的測試很簡單,通過檢查聊天機(jī)器人給出的問題給出的答案的準(zhǔn)確性來解決任何隨機(jī)問題。
聊天機(jī)器人測試框架
定義聊天機(jī)器人的操作并非易事,因此需要分析能力來克服該功能的任何不確定性。聊天機(jī)器人測試有許多框架可供使用, 但在使用前 ,測試人員有必要了解可用測試技術(shù)或者框架目的和好處,以便其與定義的目標(biāo)保持一致:
- 高級自動化框架:測試端到端的對話流,以確定在理解自然語言的同事自我改進(jìn)
- 特定于領(lǐng)域的測試: 評估所選服務(wù)的業(yè)務(wù)效益,以及滿足最終用戶目標(biāo),檢查可能的用例
- KPI 分析和實(shí)時監(jiān)控:通過測量不同的KPI(如完成率、AI和ML的學(xué)習(xí)率、回退率和自助服務(wù)率)來測試聊天機(jī)器人的性能
- 高級安全機(jī)制:評估端到端加密、合規(guī)性驗(yàn)證、身份驗(yàn)證超時、用戶身份驗(yàn)證、意圖授權(quán)、通道身份驗(yàn)證和自毀消息的安全機(jī)制
聊天機(jī)器人測試工具
由于聊天機(jī)器人測試需要為訪問網(wǎng)站的任何人提供令人愉悅的用戶體驗(yàn),因此在各種領(lǐng)域和實(shí)踐中工作需要使用正確的工具。以下是一些您可以考慮用于聊天機(jī)器人測試項(xiàng)目的好工具:
Botanalytics
Botanalytics 是一個支持 AI 的工具,可在捕獲參與度的同時進(jìn)行對話分析。該工具旨在增強(qiáng) A/B 測試的能力,通過情緒分析引導(dǎo)交互等。
Chatbottes
Chatbottes t 是一個免費(fèi)使用的工具,帶有 120 個問題來評估聊天機(jī)器人的體驗(yàn)。該工具在上述所有定義的聊天機(jī)器人測試領(lǐng)域都能很好地工作。
Dimon
Dimon,可用于測試聊天機(jī)器人的對話流程以及用戶體驗(yàn)的工具。此外,該工具還可用于將聊天機(jī)器人與 Facebook、Messenger 等社交媒體平臺集成。
聊天機(jī)器人測試技術(shù)
盡管可以選擇不同的測試技術(shù)來測試聊天機(jī)器人,但每種技術(shù)的選擇取決于使用的工具。測試技術(shù)分為兩大類:
行業(yè)標(biāo)準(zhǔn)交叉驗(yàn)證
基于 MI 的模型通常使用統(tǒng)計(jì)方法進(jìn)行測試,稱為交叉驗(yàn)證。這種測試技術(shù)的工作原理是評估模型預(yù)測與訓(xùn)練所用數(shù)據(jù)不同的新數(shù)據(jù)的能力。在交互式人工智能系統(tǒng)中進(jìn)行此類測試時,使用示例訓(xùn)練查詢測試機(jī)器人的范圍。
最基本的做法包括 LOOCV 和 K-fold 方法,該方法旨在將數(shù)據(jù)分為 k 組,其中一部分用于測試模型,另一部分或 K-1 用于訓(xùn)練目的。簡言之,對于每次拆分都進(jìn)行K次迭代的迭代,實(shí)踐在迭代中起作用。
另一方面,LOOCV 方法是一種更廣泛的技術(shù),它適用于原始測試數(shù)據(jù)的可能組合以進(jìn)行訓(xùn)練和測試。該技術(shù)涉及較少的計(jì)算測試, 并且可以針對較小的數(shù)據(jù)集實(shí)施。這種測試最好在盲測之前使用。
盲測
盲測技術(shù)通常用于用戶可能用來獲得所需答案的問題。大多數(shù)情況下,這些查詢是通過定義的模型通過批量測試執(zhí)行的,因?yàn)樗兄跇?biāo)記所有查詢并確保所有預(yù)測正確與否。
盡管如此,對于使測試人員獲得特定結(jié)果的操作步驟,必須檢測使用的任何方法。通常,通過數(shù)據(jù)可視化來理解不同模型之間的異同。
NLP 訓(xùn)練器也可以實(shí)施混淆矩陣來檢測模式并重新訓(xùn)練最終目標(biāo),但并非所有項(xiàng)目都需要通過這兩種技術(shù)進(jìn)行驗(yàn)證。此外,技術(shù)的選擇取決于測試服務(wù)提供商公司可用的知識、經(jīng)驗(yàn)和資源。
如何在沒有當(dāng)前數(shù)據(jù)的情況下創(chuàng)建完美的測試集?
交互式 AI 的測試和實(shí)施完全取決于所使用的數(shù)據(jù)集。因此,開發(fā)測試用例的人可以遵循某些規(guī)則以確保獲得最佳結(jié)果:
- 基于場景的測試集反映了使用該網(wǎng)站的任何人可能遇到的可能場景。這通常涉及基于意圖的問題。
- 詳細(xì)的描述為用戶與機(jī)器人交互提供了解決方案,同時結(jié)合了用戶類型、查詢表達(dá)式和難度。
- 以系統(tǒng)的順序排列問題和解釋。
- 為相應(yīng)的查詢提供措辭良好且有價值的解決方案。
- 有最好的數(shù)據(jù)源實(shí)時回答用戶提出的問題。
避免的常見錯誤
為了避免測試 數(shù)據(jù),盡量減少期望值。以下是一些必須避免的常見錯誤:
- 在測試會話人工智能時,對導(dǎo)致任意問題的場景準(zhǔn)備不當(dāng)
- 導(dǎo)致沖突或問題的類似表達(dá)的意圖差異
- 僅包括最一般的場景
- 數(shù)據(jù)集缺乏清晰性,包含大量不需要的內(nèi)容
必須考慮的常見聊天機(jī)器人測試場景
- 聊天機(jī)器人應(yīng)該加載需要實(shí)現(xiàn)它的網(wǎng)站。
- 當(dāng)用戶登陸網(wǎng)站時,聊天機(jī)器人應(yīng)該可以通過彈出窗口或聲音進(jìn)行加載。
- 聊天機(jī)器人應(yīng)根據(jù)用戶的時區(qū)問候用戶。
- 如果已注冊的用戶 訪問該網(wǎng)站,聊天機(jī)器人應(yīng)按姓名呼叫他們。
- 聊天機(jī)器人應(yīng)在聊天之間使用用戶的姓名回答查詢。
- 如果需要,聊天機(jī)器人應(yīng)詢問用戶的聯(lián)系方式。
- 更夠準(zhǔn)確地識別男性和女性用戶。
- 聊天機(jī)器人應(yīng)識別可能的拼寫錯誤。
- 聊天機(jī)器人應(yīng)該了解貨幣和數(shù)字。
- 聊天機(jī)器人應(yīng)驗(yàn)證編程格式的聯(lián)系人、日期和時間。
- 聊天機(jī)器人應(yīng)該能夠處理由于復(fù)雜性而引起的混亂。
- 聊天機(jī)器人應(yīng)該能很好地響應(yīng)粘貼 的基于文本的查詢。
- 如果經(jīng)過培訓(xùn),聊天機(jī)器人應(yīng)存儲對話歷史記錄并將其轉(zhuǎn)發(fā)到存儲庫。
- 對于同時從不同用戶提出的查詢,聊天機(jī)器人應(yīng)該表現(xiàn)良好。
總結(jié)
總之,這一切都?xì)w結(jié)為測試會話人工智能所需的功能,可以通過一致的努力和正確使用技術(shù)來增強(qiáng)這些功能。 更重要的是,聊天機(jī)器人測試涉及聊天機(jī)器人生命周期的一些關(guān)鍵特征,這些特征只能通過使用正確的工具和其他最佳實(shí)踐來實(shí)現(xiàn)上述聊天機(jī)器人測試技術(shù)和框架的示例性實(shí)現(xiàn),以防止錯誤并確保正確運(yùn)行。
簡而言之,聊天機(jī)器人的設(shè)計(jì)必須能夠在特定領(lǐng)域的測試中提供最大的交互性,這一點(diǎn)非常重要,這些測試是通過對每分鐘測試結(jié)果的分析來運(yùn)行的。 這種做法不僅可以幫助您很好地處理用戶查詢,還可以創(chuàng)建足夠智能的機(jī)器人來為您帶來業(yè)務(wù)轉(zhuǎn)化。
因此,無論您是進(jìn)行手動檢查還是使用一些高級自動化測試工具來評估您的機(jī)器人,創(chuàng)建一個可以處理閑聊、理解匹配意圖并為具有明確定義的回退的用戶提供精確導(dǎo)航的機(jī)器人都可以成為您的營銷、銷售和客戶服務(wù)策略的關(guān)鍵所在。
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】