人工智能師之相似問的編寫
什么是相似問,為什么要編寫相似問?
相似問是為了完善機器人教育的一種手段,相似問同原始語料一樣,都是機器人學(xué)習(xí)的對象,是提供模型訓(xùn)練的材料。
相似問是在用戶日志、行業(yè)數(shù)據(jù)復(fù)用、網(wǎng)上爬取相關(guān)問句等都不足以完成機器人訓(xùn)練時,我們才會用到的一種最基本也是最強硬的手段。
也就是說,當(dāng)我們完成了原始語料的歸檔后,這個時候我們能夠得到對應(yīng)場景下分類的客戶原始問法以及對應(yīng)的應(yīng)答內(nèi)容。但在實際的訓(xùn)練過程當(dāng)中,我們會發(fā)現(xiàn)某一類場景,并沒有原始語料能夠覆蓋,這個時候就需要根據(jù)自己以往的服務(wù)經(jīng)驗,結(jié)合業(yè)務(wù)場景去補充這些缺失場景下面的語料問答對。
在進行缺失場景語料問答對的補充時,應(yīng)該注意以下原則:
- 必須要結(jié)合實際業(yè)務(wù)場景;
- 必須要遵循用戶思維進行補充。
不能僅僅只是進行業(yè)務(wù)場景的概括。例如:退貨場景缺失語聊,需要用“如何進行退貨?”/“怎么進行退貨?”/“我想要退貨,怎么處理?”這樣具備用戶思維問法的方式編寫,而不是“退貨處理”。
機器人正確的運轉(zhuǎn)邏輯是將千奇百種客戶的問法匹配到一個具有概括性的標(biāo)準(zhǔn)問上面去。所以針對歸檔后的語料進行標(biāo)準(zhǔn)化,本質(zhì)上是將客戶的原始語料轉(zhuǎn)化成標(biāo)準(zhǔn)問的一個過程。
相似問編寫的優(yōu)點如下:
- 易操作,只需要在產(chǎn)品系統(tǒng)編輯添加后提交或者用EXCEL批量操作后導(dǎo)入即可。
- 見效快,人工編寫相似問來教育長尾的FAQ問題可以快速的幫助機器人達到一個全面教育的水平。
當(dāng)然,相似問編寫也存在以下缺點:
- 工作量大,一般上線的業(yè)務(wù)往往會有幾百上千個FAQ,其中長尾問題占大多數(shù),如果全部通過人為添加相似問來教育,工作量很大。
- 局限性,相似問的編寫因人而異,同一個FAQ不同人想到的相似問都會有差異,一般情況下,人工編寫相似問是沒辦法覆蓋到無窮的用戶真實問句。
因此,為了更好的編寫相似問,提高效率,相似問編寫可以遵循以下的原則和規(guī)范:
1. 根據(jù)問答對的語義模擬客戶對此知識點進行咨詢,用該知識點能解答相似問句中問到的問題。
如:公司的薪酬水平如何?
模擬用戶提問題,可以是“你們公司的薪資是多少?”“你們公司待遇怎樣呢?”
2. 盡量口語化,不要用固定模版套用。
如:公司的薪酬水平如何?
口語話提問,可以是“我看到你們在招聘,你們這里工資高不高?”
3. 關(guān)鍵詞需要多變化不同問法(一般來說,句子中實詞意義大于虛詞,n,v >> adj >> adv >> 語氣詞),變化問法的同時需要變換句式。
如:公司的薪酬水平如何?
此問答對的關(guān)鍵詞為:薪酬、水平如何。重點詞變化可以為“你們公司的待遇怎樣?”,“我想了解下你們的薪水情況”。
4. 對于語義相近的兩個問答對,添加相似問句時應(yīng)注意強調(diào)區(qū)別特征詞。
示例:如何使用手機銀行進行轉(zhuǎn)賬?VS 如何在官網(wǎng)進行轉(zhuǎn)賬?
“手機銀行”和“官網(wǎng)”就是這兩個問答對的語義區(qū)別特征,編寫數(shù)據(jù)時應(yīng)進行強調(diào)。
5. 可以根據(jù)答案輔助理解知識點,提出不同的相似問法,但不能只根據(jù)答案編寫,偏離標(biāo)準(zhǔn)問句的語義。
如: 舉報電話是?答案:舉報電話專線:XXXXX。另外,您也可以撥打我司客服電話955XX反饋
根據(jù)答案提問可以為“010-58289XXX是你們的舉報電話嗎?”
另外還需要注意的是,相似問的補充不是把客戶的同樣一句話換一個說法然后翻來覆去的講,而是要結(jié)合著客戶實際會說的場景來進行補充。
如:
- 異地取款手續(xù)費多少?
- 異地取款手續(xù)費是多少?
- 異地取款的手續(xù)費?
- 異地取款收費收取?
而是:
- 我人在外地,取款手續(xù)費多少?
- 我在外地取款收取多少手續(xù)費?
- 我在外地取錢手續(xù)費多少?
這才是正確的相似問補充方式。
異地取款中,異地=外地;取款=取錢,如果以客服的視角,我們通常為了保證說法的一致性和標(biāo)準(zhǔn)性,我們通常都會說:“異地”和“取款”,但客戶往往都會常說的是“外地”和“取錢”。針對這種情況,要進行相似問補充,不僅僅要對句子相似問補充,還應(yīng)該對這個句子中的關(guān)鍵詞進行同義詞、相似詞的補充;具體的補充方式需要根據(jù)各個客服中心機器人后臺設(shè)置要求來進行,例如有的機器人是將同義詞相似詞補充單獨放在業(yè)務(wù)場景梳理中,即針對業(yè)務(wù)場景錄入,要求訓(xùn)練師補充同義詞的訓(xùn)練場景用詞,有的機器人是單獨作為一個詞典的獨立存在,讓關(guān)鍵詞進行獨立存在的補充。
在進行相似問的補充時,可能會遇到以下的問題:
- 相似問補充工作量巨大;
- 相似問補充因人而異如果只讓固定人進行相似問補充,很容易形成思維定勢,導(dǎo)致最后的相似問可用性差;
- 同一個問題對相似問是無窮無盡,難以完全覆蓋用戶的真實問法相似問。
幾個建議:
解決方法一:閱讀大量客戶原始日志,進行相似問撰寫
要求訓(xùn)練師在進行相似問編寫之前,大量閱讀客戶原始日志,將自己的思維帶入到客戶的思維去模擬客戶問題的方式,這樣用以保證撰寫出來的相似問是最符合客戶問法的相似問。
解決方法二:客服中心人工客服機器人提問知識競賽(限制范圍)
發(fā)動客服中心,大量人工客服舉行相似問知識競賽,讓大量人工客服參與到相似問的編寫過程中來,在編寫之前需要明確相似問編寫原則和規(guī)范,并提供出錯誤相似問編寫示例。
解決方法三:規(guī)則語言囊括相似問
使用編程中的規(guī)則對相似問進行正則表達式編寫,如:我想查詢天氣情況。使用正則編寫其相似問為:[請問|查下|告訴我]${date}${city}[的]天氣[預(yù)報|情況|狀況][如何|怎么樣|好不好]。
解決方法四:研發(fā)相似問自動生成系統(tǒng)
以上的相似問編寫的方法都是依靠訓(xùn)練師人工進行操作,那能否讓機器人幫我們進行相似問的編寫呢?答案是肯定的,但要考慮成本。