自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用TAG和RAG實(shí)現(xiàn)摘要和標(biāo)簽的自動(dòng)化來(lái)簡(jiǎn)化客戶反饋分析

譯文 精選
人工智能
本文將深入研究TAG和RAG的工作原理、它們對(duì)數(shù)據(jù)標(biāo)記和Text-to-SQL生成的含義,以及它們?cè)谡鎸?shí)場(chǎng)景中的實(shí)際應(yīng)用。通過(guò)提供具體的示例,說(shuō)明了這些技術(shù)如何增強(qiáng)數(shù)據(jù)分析和促進(jìn)明智的決策,從而滿足經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家和新入行者的需求。

譯者 | 李睿

審校 | 重樓

使用TAG和RAG可以簡(jiǎn)化客戶反饋分析,從大型數(shù)據(jù)集中高效地提取見(jiàn)解,以增強(qiáng)決策并提高客戶參與度。

在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的環(huán)境中,企業(yè)通過(guò)評(píng)論、調(diào)查和社交媒體互動(dòng)獲得了大量的客戶反饋。雖然這些信息可以產(chǎn)生寶貴的見(jiàn)解,但也提出了一個(gè)重大挑戰(zhàn):如何從大量的信息中提取有意義的數(shù)據(jù)。先進(jìn)的分析技術(shù)正在徹底改變?nèi)藗兝斫饪蛻羟榫w的方法。其中最具創(chuàng)新性的是表格增強(qiáng)生成(TAG)和檢索增強(qiáng)生成(RAG),它們使企業(yè)能夠同時(shí)使用自然語(yǔ)言處理(NLP)從數(shù)千條評(píng)論中獲得復(fù)雜的見(jiàn)解。

本文將深入研究TAG和RAG的工作原理、它們對(duì)數(shù)據(jù)標(biāo)記和Text-to-SQL生成的含義,以及它們?cè)谡鎸?shí)場(chǎng)景中的實(shí)際應(yīng)用。通過(guò)提供具體的示例,說(shuō)明了這些技術(shù)如何增強(qiáng)數(shù)據(jù)分析和促進(jìn)明智的決策,從而滿足經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家和新入行者的需求。

利用RAG獲得高級(jí)數(shù)據(jù)洞察

RAG代表了企業(yè)如何提取和解釋大量數(shù)據(jù)的革命性飛躍。通過(guò)將檢索機(jī)制與語(yǔ)言模型的強(qiáng)大功能相結(jié)合,RAG允許用戶提出自然語(yǔ)言問(wèn)題,并從龐大的數(shù)據(jù)集(如客戶評(píng)論或產(chǎn)品反饋)中獲得高度相關(guān)的實(shí)時(shí)答案。

本節(jié)將分解RAG的核心組件,每個(gè)步驟都通過(guò)可視化的方式來(lái)說(shuō)明該過(guò)程的工作原理。

查詢輸入和向量化

RAG過(guò)程的第一步是查詢輸入和向量化。當(dāng)用戶輸入一個(gè)查詢時(shí),例如“哪里有最好的家庭友好型酒店?”,RAG會(huì)將這個(gè)問(wèn)題轉(zhuǎn)換成一種稱為向量的數(shù)字格式。這個(gè)向量表示問(wèn)題的含義,并為下一步做準(zhǔn)備:檢索相關(guān)數(shù)據(jù)。

圖1查詢輸入和向量化示意圖

圖1描述了用戶鍵入查詢以及隨后將查詢轉(zhuǎn)換為向量格式的過(guò)程。它強(qiáng)調(diào)了問(wèn)題如何被編碼成機(jī)器可以處理的數(shù)字。

從向量數(shù)據(jù)庫(kù)中檢索場(chǎng)景

一旦查詢被向量化,RAG就會(huì)搜索包含數(shù)百萬(wàn)條預(yù)處理信息(例如客戶評(píng)論、產(chǎn)品描述等)的預(yù)先存在的向量數(shù)據(jù)庫(kù)。RAG系統(tǒng)基于語(yǔ)義相似性識(shí)別與查詢最相關(guān)的數(shù)據(jù)。例如,如果有人詢問(wèn)適合家庭入住的酒店,RAG會(huì)提取包含與家庭、兒童設(shè)施和家庭服務(wù)相關(guān)術(shù)語(yǔ)的評(píng)論。

圖2從向量數(shù)據(jù)庫(kù)中檢索場(chǎng)景的示意圖

該圖展示了RAG如何從龐大的向量化數(shù)據(jù)庫(kù)中檢索相關(guān)評(píng)論或數(shù)據(jù),將看到向量化查詢?nèi)绾闻c系統(tǒng)中存儲(chǔ)的相應(yīng)相關(guān)數(shù)據(jù)點(diǎn)相匹配。

自然語(yǔ)言答案生成

在檢索完相關(guān)數(shù)據(jù)之后,RAG的最后一步是生成自然語(yǔ)言答案。然后,檢索到的評(píng)論通過(guò)語(yǔ)言模型進(jìn)行傳遞,該模型將數(shù)據(jù)合成為連貫的、易于閱讀的回復(fù)。用戶的查詢采用自然語(yǔ)言回答,并通過(guò)檢索數(shù)據(jù)提供的豐富場(chǎng)景而更加具體。

圖3自然語(yǔ)言答案生成示意圖

圖3說(shuō)明了將檢索到的數(shù)據(jù)如何轉(zhuǎn)換為可讀的自然語(yǔ)言響應(yīng)。它演示了RAG如何從其處理的大量數(shù)據(jù)中合成有意義的答案,使非技術(shù)用戶可以訪問(wèn)復(fù)雜的數(shù)據(jù)集。

理解TAG及其作用

TAG通過(guò)系統(tǒng)的三步過(guò)程在語(yǔ)言模型和數(shù)據(jù)庫(kù)之間創(chuàng)建結(jié)構(gòu)化連接,從而增強(qiáng)了傳統(tǒng)的Text-to-SQL方法:

(1)數(shù)據(jù)相關(guān)性和查詢合成:TAG標(biāo)識(shí)相關(guān)數(shù)據(jù)以處理用戶查詢,并生成與底層數(shù)據(jù)庫(kù)結(jié)構(gòu)一致的優(yōu)化SQL查詢。

(2)數(shù)據(jù)庫(kù)執(zhí)行:對(duì)數(shù)據(jù)集執(zhí)行生成的SQL查詢,有效地過(guò)濾和檢索相關(guān)的見(jiàn)解。

(3)自然語(yǔ)言答案生成:TAG將處理過(guò)的數(shù)據(jù)轉(zhuǎn)換成連貫的、場(chǎng)景豐富的響應(yīng),簡(jiǎn)化了用戶解釋。

圖4 TAG系統(tǒng)的三步過(guò)程

數(shù)據(jù)標(biāo)注的重要性

數(shù)據(jù)標(biāo)記對(duì)于組織和分類信息至關(guān)重要,特別是在包含非結(jié)構(gòu)化文本的數(shù)據(jù)集中。這個(gè)過(guò)程允許系統(tǒng)識(shí)別模式和場(chǎng)景,顯著提高TAG的有效性。

通過(guò)利用數(shù)據(jù)標(biāo)簽系統(tǒng)地對(duì)大量信息進(jìn)行分類,特別是來(lái)自非結(jié)構(gòu)化文本源的信息,工程團(tuán)隊(duì)可以分配有意義的標(biāo)簽來(lái)訓(xùn)練識(shí)別模式和理解場(chǎng)景的系統(tǒng),從而改進(jìn)搜索和推薦系統(tǒng)等功能。

例如,當(dāng)用戶在搜索引擎中輸入查詢時(shí),數(shù)據(jù)標(biāo)記使系統(tǒng)能夠通過(guò)解釋用戶輸入背后的意圖來(lái)提供最相關(guān)的結(jié)果。同樣,在社交媒體和電子商務(wù)平臺(tái)上,標(biāo)簽數(shù)據(jù)可以根據(jù)用戶偏好對(duì)內(nèi)容進(jìn)行分類,從而實(shí)現(xiàn)個(gè)性化體驗(yàn)。因此,數(shù)據(jù)標(biāo)簽構(gòu)成了技術(shù)提供商提供更智能、更高效服務(wù)的支柱。

數(shù)據(jù)標(biāo)簽的主要好處

  • 提高準(zhǔn)確性:標(biāo)記數(shù)據(jù)有助于機(jī)器學(xué)習(xí)模型更好地理解用戶意圖,從而生成更精確的SQL查詢。
  • 增強(qiáng)查詢相關(guān)性:清晰的標(biāo)識(shí)符允許系統(tǒng)對(duì)結(jié)果進(jìn)行優(yōu)先級(jí)排序,從而提高相關(guān)性。
  • 促進(jìn)用戶理解:標(biāo)簽提供場(chǎng)景,幫助用戶更輕松地解釋數(shù)據(jù)。

旅游評(píng)論中的數(shù)據(jù)標(biāo)簽示例

  • 家庭友好型:確定酒店有適合家庭的設(shè)施,例如兒童俱樂(lè)部和保姆服務(wù)。
  • 寵物友好型:確定酒店可以允許客戶帶寵物,提供寵物床和寵物區(qū)等相關(guān)服務(wù)。
  • 奢華:指提供優(yōu)質(zhì)服務(wù)和專屬設(shè)施的高端酒店。
  • 物有所值:強(qiáng)調(diào)提供優(yōu)質(zhì)服務(wù)的實(shí)惠選擇。

描述性標(biāo)簽使組織能夠簡(jiǎn)化檢索過(guò)程,確保用戶及時(shí)獲得相關(guān)見(jiàn)解。

利用TAG與旅游評(píng)論數(shù)據(jù)

考慮一個(gè)旅游評(píng)論數(shù)據(jù)集,其中包含reviewerID、hotelID、reviewerName、reviewText、摘要和總體評(píng)分等字段。這些結(jié)構(gòu)化數(shù)據(jù)構(gòu)成了生成針對(duì)各種用戶需求的可操作見(jiàn)解的基礎(chǔ)。

循序漸進(jìn)的過(guò)程

步驟1:數(shù)據(jù)導(dǎo)入和準(zhǔn)備

這個(gè)過(guò)程首先是導(dǎo)入捕捉客戶情緒的數(shù)據(jù)集,包括總體評(píng)級(jí)和反饋。這個(gè)初始階段通常包括:

(1)數(shù)據(jù)清理:

  • 刪除重復(fù)評(píng)論:根據(jù)reviewerID和hotelID識(shí)別和刪除重復(fù)評(píng)論,以確保唯一性。
  • 糾錯(cuò):發(fā)現(xiàn)并糾正錯(cuò)誤,例如拼寫(xiě)錯(cuò)誤或評(píng)分量表不一致(例如,使用1-5分與0-10分)。
  • 處理缺失值:評(píng)估如有用的投票數(shù)和reviewText字段的缺失條目,并決定采用適當(dāng)?shù)牟逖a(bǔ)或刪除策略。

(2)預(yù)處理:

  • 文本規(guī)范化:通過(guò)將文本轉(zhuǎn)換為小寫(xiě)、刪除特殊字符和確保格式一致來(lái)規(guī)范文本。
  • 標(biāo)記化:將reviewText分解為單個(gè)標(biāo)記(單詞或短語(yǔ)),以便于分析。
  • 刪除停用詞:過(guò)濾掉對(duì)分析沒(méi)有意義的常見(jiàn)詞。
  • 詞源化/詞干化:將單詞還原為其基本形式,以統(tǒng)一各種變體。

(3)NLP技巧:

  • 情感分析:為評(píng)論分配情感分?jǐn)?shù),以評(píng)估整體客戶滿意度。
  • 關(guān)鍵字提?。?/strong>使用TF-IDF或主題建模(如LDA)等技術(shù)識(shí)別評(píng)論中的關(guān)鍵主題。

(4)可擴(kuò)展性和性能

處理較大的數(shù)據(jù)集:

  • 分布式計(jì)算:TAG可以利用Apache Spark或Dask等框架跨多個(gè)節(jié)點(diǎn)處理數(shù)據(jù),增強(qiáng)對(duì)大型數(shù)據(jù)集的處理能力。
  • 數(shù)據(jù)庫(kù)優(yōu)化:對(duì)頻繁查詢的字段進(jìn)行索引,以提高搜索性能。

權(quán)衡:

  • 速度與準(zhǔn)確性:性能優(yōu)化可能會(huì)加快查詢執(zhí)行,但可能會(huì)影響從復(fù)雜分析中獲得的見(jiàn)解的深度。
  • 資源利用率:增加可擴(kuò)展性通常需要更多的計(jì)算資源,從而影響成本。平衡成本和性能是至關(guān)重要的。

步驟2:查詢合成

這個(gè)階段使用Text-to-SQL方法將自然語(yǔ)言查詢轉(zhuǎn)換為可執(zhí)行的SQL語(yǔ)句。

(1)自然語(yǔ)言處理(NLP):

  • 意圖分析:分析用戶的查詢,以確定潛在的意圖(例如,尋找適合家庭入住的酒店的信息)。
  • 實(shí)體識(shí)別:識(shí)別查詢中的關(guān)鍵實(shí)體,重點(diǎn)關(guān)注與酒店特征相關(guān)的關(guān)鍵字。

(2)查詢映射:TAG將用戶的意圖映射到相關(guān)的數(shù)據(jù)庫(kù)表和字段。例如,如果用戶查詢家庭友好型的酒店,TAG會(huì)識(shí)別與家庭設(shè)施相關(guān)的關(guān)鍵字。

(3)SQL生成:TAG根據(jù)映射構(gòu)造SQL查詢。對(duì)于用戶查詢“兒童友好型酒店的亮點(diǎn)是什么?”生成的SQL可能是:

SQL

1 SELECT hotelID, reviewerName, reviewText, summary, overall
2 FROM reviews
3 WHERE reviewText LIKE '%kid-friendly%' OR reviewText ILIKE '%family%'
4 ORDER BY overall DESC;
5

這個(gè)SQL語(yǔ)句用于檢索提到具有家庭友好型設(shè)施的酒店,并按評(píng)分排序,使組織能夠從旅行評(píng)論數(shù)據(jù)中獲取有價(jià)值的見(jiàn)解。

示例查詢

為了說(shuō)明TAG如何處理有關(guān)酒店功能的各種查詢,請(qǐng)考慮以下示例:

  • 問(wèn)題:兒童友好型酒店的亮點(diǎn)是什么?
  • 問(wèn)題:哪些酒店最適合養(yǎng)狗人士?

執(zhí)行查詢

在合成查詢之后,執(zhí)行查詢會(huì)產(chǎn)生有價(jià)值的結(jié)果。以下是執(zhí)行SQL查詢后輸出數(shù)據(jù)的示例:

執(zhí)行SQL查詢后輸出數(shù)據(jù)的示例:

自然語(yǔ)言答案生成

在檢索相關(guān)數(shù)據(jù)后,TAG使用RAG生成簡(jiǎn)潔的摘要。以下是這一過(guò)程的工作原理:

Python

1 from langchain import OpenAI, PromptTemplate, LLMChain
2 import sqlite3
3
4 # Establish connection to the SQLite database
5 def connect_to_database(db_name):
6    """Connect to the SQLite database."""
7    return sqlite3.connect(db_name)
8
9 # Function to execute SQL queries and return results
10 def execute_sql(query, connection):
11    """Execute the SQL query and return fetched results."""
12    cursor = connection.cursor()
13    cursor.execute(query)
14    return cursor.fetchall()
15
16 # Define your prompt for SQL query synthesis
17 query_prompt = PromptTemplate(
18    input_variables=["user_query"],
19    template="Generate an SQL query based on the following request: {user_query}"
20 )
21
22 # Initialize the language model
23 llm = OpenAI(model="gpt-3.5-turbo")
24
25 # Create a chain for generating SQL queries
26 query_chain = LLMChain(llm=llm, prompt=query_prompt)
27
28 # Define your prompt for generating natural language answers
29 answer_prompt = PromptTemplate(
30    input_variables=["results"],
31    template="Based on the following results, summarize the highlights: {results}"
32 )
33
34 # Create a chain for generating summaries
35 answer_chain = LLMChain(llm=llm, prompt=answer_prompt)
36
37 # Function to simulate data labeling (for demonstration purposes)
38
def label_data(reviews):
39    """Label data based on specific keywords in reviews."""
40    labeled_data = []
41    for review in reviews:
42        if "family" in review[1].lower():
43            label = "Family-Friendly"
44        elif "dog" in review[1].lower():
45            label = "Pet-Friendly"
46        elif "luxury" in review[1].lower():
47            label = "Luxury"
48        else:
49            label = "General"
50        labeled_data.append((review[0], review[1], label))
51    return labeled_data
52
53 # Main process function
54 def process_user_query(user_query):
55    """Process the user query to generate insights from travel reviews."""
56    # Connect to the database
57    connection = connect_to_database("travel_reviews.db")
58
59    # Step 1: Generate SQL query from user input
60    sql_query = query_chain.run(user_query)
61    print(f"Generated SQL Query: {sql_query}\n")
62
63    # Step 2: Execute SQL query and get results
64    results = execute_sql(sql_query, connection)
65    print(f"SQL Query Results:\n{results}\n")
66
67    # Step 3: Label the data
68    labeled_results = label_data(results)
69    print(f"Labeled Results:\n{labeled_results}\n")
70
71    # Step 4: Generate a summary using RAG
72    final_summary = answer_chain.run(labeled_results)
73    print(f"Final Summary:\n{final_summary}\n")
74
75    # Format the output as unstructured data
76    formatted_output = "\n".join([f"Reviewer: {review[0]}, Review: {review[1]}, Label: {review[2]}" for review in labeled_results])
77    print("Unstructured Output:\n")
78    print(formatted_output)
79
80    # Close the database connection
81    connection.close()
82
83 # Example user query
84 user_query = "What are the highlights of kid-friendly hotels?"
85 process_user_query(user_query)

輸出示例:

JSON

1 {"reviewSummary": "The hotel exceeded expectations for family stays, providing clean rooms and friendly staff, making it ideal for family getaways. It is affordable, convenient, and highly recommended for families looking for a perfect experience with minor issues.", "Label":"Kid-Friendly"}
2

這種方法利用RAG從個(gè)人評(píng)論中綜合出細(xì)致入微的總結(jié),提供清晰的概述,而不僅僅是結(jié)果的匯總。

TAG的改進(jìn)

TAG通過(guò)解決傳統(tǒng)限制顯著增強(qiáng)了查詢過(guò)程:

  • 增強(qiáng)的查詢合成:TAG綜合考慮了整個(gè)數(shù)據(jù)庫(kù)結(jié)構(gòu)的優(yōu)化查詢,支持更廣泛的自然語(yǔ)言查詢。
  • 高效的數(shù)據(jù)庫(kù)執(zhí)行:TAG跨大型數(shù)據(jù)集快速執(zhí)行查詢,便于快速檢索對(duì)時(shí)間敏感的決策的基本見(jiàn)解。
  • 改進(jìn)的自然語(yǔ)言生成:通過(guò)利用先進(jìn)的語(yǔ)言模型,TAG生成連貫的、場(chǎng)景相關(guān)的響應(yīng),簡(jiǎn)化用戶解釋。

相較于當(dāng)前方法的優(yōu)勢(shì)

  • 用戶友好的交互:用戶可以用自然語(yǔ)言提出問(wèn)題,無(wú)需具備SQL知識(shí)。
  • 快速洞察:快速查詢執(zhí)行可以最大限度地減少訪問(wèn)相關(guān)數(shù)據(jù)所需的時(shí)間。
  • 場(chǎng)景理解:增強(qiáng)的摘要生成提高了決策者的數(shù)據(jù)可訪問(wèn)性和有用性。

優(yōu)化結(jié)果的重新排序策略

為了確保高質(zhì)量的檢索結(jié)果,有效的重新排序策略可以優(yōu)化輸出。以下是一些策略:

  • 基于分?jǐn)?shù)的重新排序:利用分?jǐn)?shù)(例如有用性、評(píng)分)來(lái)確定響應(yīng)的優(yōu)先級(jí),為可靠的審閱者分配更高的權(quán)重,以提高質(zhì)量。
  • 語(yǔ)義相似性:使用嵌入來(lái)度量語(yǔ)義相似度,并根據(jù)與用戶查詢場(chǎng)景的相關(guān)性對(duì)結(jié)果重新排序。
  • 場(chǎng)景重新排名:分析查詢場(chǎng)景(例如家庭友好型),并根據(jù)評(píng)論中出現(xiàn)的特定關(guān)鍵字進(jìn)行重新排名,以提供最相關(guān)的見(jiàn)解。

結(jié)論

TAG和RAG在轉(zhuǎn)變客戶反饋分析方面處于領(lǐng)先地位,使企業(yè)能夠利用評(píng)論和調(diào)查中包含的豐富見(jiàn)解。通過(guò)自動(dòng)化數(shù)據(jù)標(biāo)記、查詢合成和自然語(yǔ)言生成,組織可以獲得可操作的見(jiàn)解,從而改進(jìn)決策過(guò)程。

隨著這些技術(shù)的發(fā)展,潛在的應(yīng)用十分廣泛,從個(gè)性化的客戶體驗(yàn)到有針對(duì)性的營(yíng)銷策略。采用TAG和RAG不僅可以簡(jiǎn)化對(duì)大型數(shù)據(jù)集的分析,還可以使組織能夠在快速變化的市場(chǎng)環(huán)境中保持競(jìng)爭(zhēng)力。

原文標(biāo)題:Transforming Customer Feedback With Automation of Summaries and Labels Using TAG and RAG,作者:Venkata Gummadi

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2015-02-04 09:17:38

亞馬遜AWS云自動(dòng)化

2023-06-20 16:17:00

網(wǎng)絡(luò)自動(dòng)化

2021-10-14 09:55:28

AnsibleanacronLinux

2012-05-25 09:43:46

DevOps運(yùn)動(dòng)DevOps網(wǎng)絡(luò)自動(dòng)化

2018-07-26 13:50:37

IT架構(gòu)運(yùn)維

2024-06-11 10:41:14

2023-08-17 10:14:58

物聯(lián)網(wǎng)家庭自動(dòng)化

2021-05-10 16:03:27

人工智能自動(dòng)化技術(shù)

2021-09-17 15:56:14

數(shù)據(jù)平臺(tái)自動(dòng)化

2022-11-15 17:07:40

開(kāi)發(fā)自動(dòng)化前端

2022-10-27 13:16:54

Commvault

2023-08-01 15:24:18

DevOps自動(dòng)化軟件開(kāi)發(fā)

2011-10-18 10:42:39

ibmdw虛擬化

2010-06-23 10:38:22

惠普自動(dòng)化簡(jiǎn)化IT

2019-07-16 19:00:00

Ansible配置自動(dòng)化

2013-01-18 09:33:32

云負(fù)載均衡應(yīng)用交付控制器亞馬遜Web服務(wù)

2025-02-06 14:59:08

2022-02-04 21:50:37

網(wǎng)絡(luò)安全自動(dòng)化

2021-04-17 23:10:59

Python微軟Word

2021-11-29 18:11:33

自動(dòng)化現(xiàn)代化網(wǎng)絡(luò)優(yōu)化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)