自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT和領(lǐng)域特定模型情感分析實戰(zhàn)較量

譯文 精選
人工智能
ChatGPT是一種GPT(生成式預(yù)訓(xùn)練轉(zhuǎn)換器)機器學(xué)習(xí)(ML)工具,如今它讓整個世界為之驚訝。它驚人的功能給普通用戶、專業(yè)人士、研究人員,甚至它自己的創(chuàng)造者留下了深刻印象。此外,它能夠成為一個加速一般任務(wù)完成進度的機器學(xué)習(xí)模

譯者 | 朱先忠

審校 | 重樓

簡介

ChatGPT是一種GPT(生成式預(yù)訓(xùn)練轉(zhuǎn)換器)機器學(xué)習(xí)(ML)工具,如今它讓整個世界為之驚訝。它驚人的功能給普通用戶、專業(yè)人士、研究人員,甚至它自己的創(chuàng)造者留下了深刻印象。此外,它能夠成為一個加速一般任務(wù)完成進度的機器學(xué)習(xí)模型,并在特定領(lǐng)域的情況下表現(xiàn)出色,這一能力給人留下深刻的印象。我是一名研究人員,ChatGPT進行情緒分析(SA)的強大能力也讓我非常感興趣。

情緒分析是一種非常廣泛的自然語言處理(NLP)。它有多種應(yīng)用,因此可以應(yīng)用于多個領(lǐng)域(如金融、娛樂、心理學(xué)等)。不過,有些領(lǐng)域使用的是特定的術(shù)語(例如金融領(lǐng)域)。因此,通用領(lǐng)域ML模型是否能夠像特定領(lǐng)域模型一樣強大,仍然是NLP中一個懸而未決的研究問題

如果你問ChatGPT這個研究問題(這是本文的標(biāo)題),那么它會給你一個謙遜的答案(繼續(xù),試試看)。但是,我親愛的讀者,我通常不愿在這方面掃你的興;不過,你不知道這個ChatGPT的答案有多謙虛……

盡管如此,作為一名人工智能研究人員、行業(yè)專業(yè)人士和業(yè)余愛好者,我習(xí)慣于細(xì)調(diào)通用領(lǐng)域NLP機器學(xué)習(xí)工具(例如GloVe),以用于特定領(lǐng)域的任務(wù)。之所以會出現(xiàn)這種情況,是因為對于大多數(shù)領(lǐng)域來說,找到一種開箱即用的、不經(jīng)微調(diào)就能做得足夠好的解決方案并不常見。本文中,我將向你展示這種情況以后將不再成為常態(tài)。

在本文中,我通過討論以下主題將ChatGPT與特定領(lǐng)域的ML模型進行比較:

  1. SemEval 2017任務(wù)5——一種特定領(lǐng)域的挑戰(zhàn)
  2. 使用ChatGPT API實戰(zhàn)性代碼來標(biāo)記一個數(shù)據(jù)集
  3. 與再現(xiàn)性細(xì)節(jié)比較的結(jié)論和結(jié)果
  4. 結(jié)論和結(jié)果討論
  5. 擴展思索:如何在應(yīng)用場景中進行比較

注1:本文給出的只是一個簡單的動手實驗,將有助于對于文章主題的了解,而不是一份詳盡的科學(xué)調(diào)查。

注2:除非另有說明,否則所有圖片均由作者提供。

1.SemEval 2017任務(wù)5——一種特定領(lǐng)域的挑戰(zhàn)

SemEval(語義評估)是一個著名的NLP研討會,研究團隊在情感分析、文本相似性和問答任務(wù)方面進行科學(xué)競爭。組織者提供由注釋者(領(lǐng)域?qū)<遥┖驼Z言學(xué)家創(chuàng)建的文本數(shù)據(jù)和黃金標(biāo)準(zhǔn)數(shù)據(jù)集,以評估每項任務(wù)的最先進解決方案。

特別是,SemEval 2017年的任務(wù)5要求研究人員對金融微博和新聞頭條進行情緒分析,評分為-1(最負(fù)面)到1(最正面)。我們將使用當(dāng)年SemEval的黃金標(biāo)準(zhǔn)數(shù)據(jù)集來測試ChatGPT在特定領(lǐng)域任務(wù)中的性能。子任務(wù)2數(shù)據(jù)集(新聞標(biāo)題)使用兩組句子(每個句子最多30個單詞):訓(xùn)練集(1142個句子)和測試集(491個句子)。

考慮到這些數(shù)據(jù)集合,情緒得分和文本句子的數(shù)據(jù)分布如下所示。下圖顯示了訓(xùn)練集和測試集中的雙峰分布。此外,該圖表明數(shù)據(jù)集中積極的句子多于消極的句子。

SemEval 2017任務(wù)5子任務(wù)2(新聞標(biāo)題):考慮訓(xùn)練(左邊——1142個句子)和測試(右邊——491個句子)集的數(shù)據(jù)分布情緒得分。

對于這個子任務(wù),獲勝的研究團隊(即在測試集中排名最好的團隊)將他們的ML架構(gòu)命名為Fortia FBK。受此次比賽發(fā)現(xiàn)的啟發(fā),我和一些同事寫了一篇研究文章(評估金融文本中基于回歸的情緒分析技術(shù)),在文章中我們實現(xiàn)了Fortia FBK版本,并評估了改進該架構(gòu)的方法。

此外,我們還調(diào)查了使該體系結(jié)構(gòu)成為制勝體系結(jié)構(gòu)的因素。因此,我們對這一獲勝架構(gòu)(即Fortia FBK)的實現(xiàn)(源碼在這里:https://bit.ly/3kzau8G)用于與ChatGPT進行比較。所采用的架構(gòu)(CNN+GloVe+Vader)如下所示

金融新聞領(lǐng)域的特定領(lǐng)域情緒分析ML模型,對應(yīng)于研究文章“評估金融文本中基于回歸的情緒分析技術(shù)”的開發(fā)架構(gòu)。來源:作者碩士學(xué)位論文(Lima Paiva,F(xiàn).C.,“在智能交易的強化學(xué)習(xí)中同化情緒分析”)。

2.使用ChatGPT API標(biāo)記數(shù)據(jù)集

使用ChatGPT API的基本思路早已經(jīng)在Medium網(wǎng)站上討論過,用于合成數(shù)據(jù)。此外,您可以在ChatGPT API代碼示例部分中找到情感標(biāo)簽示例(請注意,使用該API并不是免費的)。對于這個代碼示例,請考慮使用SemEval的2017任務(wù)黃金標(biāo)準(zhǔn)數(shù)據(jù)集,您可以在鏈接https://bitbucket.org/ssix-project/semeval-2017-task-5-subtask-2/src/master/處獲得該數(shù)據(jù)集。

接下來,要使用API一次標(biāo)記多個句子,請使用如下這樣的代碼,其中我用黃金標(biāo)準(zhǔn)數(shù)據(jù)集的數(shù)據(jù)框中的句子準(zhǔn)備一個完整的提示符,其中包含要標(biāo)記的句子和情緒所指的目標(biāo)公司。

def prepare_long_prompt(df):
 initial_txt = "Classify the sentiment in these sentences between brackets regarding only the company specified in double-quotes. The response should be in one line with format company name in normal case followed by upper cased sentiment category in sequence separated by a semicolon:\n\n"
 prompt = "\"" + df['company'] + "\"" + " [" + df['title'] + ")]"

 return initial_txt + '\n'.join(prompt.tolist())

然后,調(diào)用text-davinci-003引擎(GPT-3版本)的API。在這里,我對代碼進行了一些調(diào)整,考慮到提示中的最大總字符數(shù)加上答案,最多必須是4097個字符。

def call_chatgpt_api(prompt):
  #獲取允許用于響應(yīng)的最大令牌數(shù)量:基于api最大值為4097并考慮到提示文本的長度。
  prompt_length = len(prompt)
  max_tokens = 4097 - prompt_length
  
  # 這個除以10的規(guī)則只是一個經(jīng)驗估計,不是一個精確的規(guī)則
  if max_tokens < (prompt_length / 10):
    raise ValueError(f'Max allowed token for response is dangerously low {max_tokens} and might not be enough, try reducing the prompt size')

  response = openai.Completion.create(
    model="text-davinci-003",
    prompt=prompt,
    temperature=0,
    max_tokens=max_tokens,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0
  )

  return response.choices[0]['text']

long_prompt = prepare_long_prompt(df)
call_chatgpt_api(long_prompt)

最終,在黃金標(biāo)準(zhǔn)數(shù)據(jù)集中對總共1633個句子(訓(xùn)練+測試集)執(zhí)行此操作,您將得到以下ChatGPT API標(biāo)記的結(jié)果。

SemEval 2017任務(wù)5子任務(wù)2(新聞標(biāo)題)黃金標(biāo)準(zhǔn)數(shù)據(jù)集示例:使用ChatGPT API標(biāo)記情緒。

2.1.ChatGPT及其API的規(guī)模問題

與其他任何API一樣,ChatGPT的API應(yīng)用也存在如下一些典型的要求:

  • 需要調(diào)節(jié)的請求速率限制
  • 25000個令牌的請求限制(即子字單元或字節(jié)對編碼)
  • 每個請求的最大長度為4096個令牌(包括提示+響應(yīng))
  • 0.0200/1K代幣的成本(注意:我完成所有任務(wù)后,花費從未超過2美元)

然而,這些只是處理大多數(shù)API時的典型需求。此外,請記住,在這個特定領(lǐng)域的問題中,每個句子都通過一個目標(biāo)實體(即公司)來表達(dá)情感。因此,我不得不反復(fù)調(diào)整關(guān)鍵詞,最終我才設(shè)計了一個提示模式,可以同時標(biāo)記幾個句子的情感,并使之后處理結(jié)果變得容易。此外,還有其他限制影響了我之前展示的提示和代碼。具體來說,我發(fā)現(xiàn)在多個句子中使用此文本API存在問題(>1000)。

  • 再現(xiàn)性:只需對提示進行很少的更改(例如,添加或刪除句子中的逗號或點),ChatGPT對情緒的情緒評估就可能會發(fā)生顯著變化。
  • 一致性:如果你沒有明確指定模式響應(yīng),ChatGPT將變得非常有創(chuàng)意(即使你選擇了一個非常低的隨機性參數(shù)),從而導(dǎo)致很難處理結(jié)果。此外,即使指定了模式,它也可能輸出不一致的輸出格式。
  • 不匹配:盡管它可以非常準(zhǔn)確地識別你想在一句話中評估情緒的目標(biāo)實體(例如公司),但在進行大規(guī)模評估時,它可能會混淆結(jié)果——例如,假設(shè)你輸入10句話,其中第一句對應(yīng)一家目標(biāo)公司。盡管如此,其中一些公司還是出現(xiàn)在其他句子中或被重復(fù)出現(xiàn)。在這種情況下,ChatGPT可以使目標(biāo)和句子情感不匹配,改變情感標(biāo)簽的順序或提供少于10個標(biāo)簽。
  • 偏見:目前,ChatGPT偏見的問題是眾所周知的。還有一些關(guān)于如何改善這個問題的想法。然而,在此之前,請注意您正在學(xué)習(xí)使用有偏見的API。

所有這些問題都意味著,正確使用(有偏見的)API需要一條學(xué)習(xí)曲線。它需要一些微調(diào)才能得到我需要的東西。有時我不得不做很多試驗,直到我以最低的一致性達(dá)到預(yù)期的結(jié)果。

在理想的情況下,你應(yīng)該同時發(fā)送盡可能多的句子,原因有兩個。首先,你想盡快拿到你的標(biāo)簽。其次,提示在成本耗費中被視為令牌,因此更少的請求意味著更少的成本花費。然而,我們遇到了每個請求有4096個令牌的限制。此外,考慮到我提到的問題,還存在另一個值得注意的API限制。那就是,一次過多的句子會增加不匹配和不一致的幾率。因此,你應(yīng)該不斷增加和減少句子的數(shù)量,直到你找到一致性和成本的最佳點。如果你做得不好,你將在后處理結(jié)果階段受到影響。

總之,如果你有數(shù)千個句子要處理,從一批六個句子和不超過10個提示開始,檢查回答的可靠性。然后,慢慢增加數(shù)量以驗證容量和質(zhì)量,直到找到適合您任務(wù)的最佳提示和成本耗費。

3.結(jié)論和比較結(jié)果

3.1.比較細(xì)節(jié)

在ChatGPT的GPT-3版本中,它無法將情感歸因于使用數(shù)值的文本句子(無論我嘗試了多少)。然而,專家們在這個特殊的黃金標(biāo)準(zhǔn)數(shù)據(jù)集中將數(shù)字分?jǐn)?shù)歸因于句子情感。

因此,為了進行一次可行的比較,我必須:

  1. 將數(shù)據(jù)集得分分類為“正”、“中性”或“負(fù)”標(biāo)簽。
  2. 對特定領(lǐng)域的ML模型生成的分?jǐn)?shù)也執(zhí)行同樣的操作。
  3. 定義一系列可能的閾值(步長為0.001),用于確定一個類別的起點和終點。然后,給定閾值TH,高于+TH的分?jǐn)?shù)被認(rèn)為是積極情緒,低于-TH的分?jǐn)?shù)是消極情緒,介于兩者之間的分?jǐn)?shù)是中性情緒。
  4. 在閾值范圍內(nèi)進行迭代,并評估兩個模型在每個點的準(zhǔn)確性。
  5. 考慮到特定領(lǐng)域模型在訓(xùn)練集中具有不公平的優(yōu)勢,按集合(即訓(xùn)練或測試)調(diào)查它們的性能。

其中,上述步驟3的代碼如下所示。復(fù)制整個比較過程的完整代碼位于鏈接https://drive.google.com/drive/folders/1_FpNvcGjnl8N2Z_Az3FGGWQ4QxmutmgG?usp=share_link處。

def get_df_plot(df, th_sequence):
  temp_list = []

  for th in th_sequence:
    converted_gold_arr = np.where((df['sentiment'] <= th) & (df['sentiment'] >= -th), 0, np.sign(df['sentiment']))
    converted_model_arr = np.where((df['cnn-pred-sent'] <= th) & (df['cnn-pred-sent'] >= -th), 0, np.sign(df['cnn-pred-sent']))
    df['sent_cat_value'] = converted_gold_arr.astype(np.int64)
    df['cnn_pred_sent_cat_value'] = converted_model_arr.astype(np.int64)
    corr_gold_chatgpt = df['chatgpt_sent_value'].corr(df['sent_cat_value'])
    corr_gold_cnn = df['chatgpt_sent_value'].corr(df['cnn_pred_sent_cat_value'])
    acc_gold_chatgpt = (df['chatgpt_sent_value']==df['sent_cat_value']).mean()
    acc_gold_cnn = (df['chatgpt_sent_value']==df['cnn_pred_sent_cat_value']).mean()
    temp_list.append([th, corr_gold_chatgpt, corr_gold_cnn, acc_gold_chatgpt, acc_gold_cnn])

  return pd.DataFrame(data=temp_list, columns=['th', 'corr_gold_chatgpt', 'corr_gold_cnn', 'acc_gold_chatgpt', 'acc_gold_cnn'])

th_sequence = np.arange(0, 1.000001, 0.001)
df_plot = get_df_plot(df.copy(), th_sequence)

3.2.結(jié)論:ChatGPT不僅可以獲勝,而且可以打破競爭

最終結(jié)果顯示在下圖中,其中顯示了在對數(shù)字黃金標(biāo)準(zhǔn)數(shù)據(jù)集進行分類時,隨著閾值(x軸)的調(diào)整,兩個模型的精度(y軸)是如何變化的。此外,訓(xùn)練集和測試集分別位于左側(cè)和右側(cè)。

ChatGPT和領(lǐng)域特定ML模型之間的比較,該模型分別考慮了訓(xùn)練(左側(cè))和測試(右側(cè))集。該計算過程評估了精度(y軸)相對于閾值(x軸)的變化,用于對兩個模型的數(shù)字黃金標(biāo)準(zhǔn)數(shù)據(jù)集進行分類。

首先,我必須承認(rèn):我沒想到會有如此驚人的結(jié)果。因此,為了對ChatGPT公平起見,我復(fù)制了最初的SemEval 2017比賽設(shè)置,其中領(lǐng)域特定的ML模型將與訓(xùn)練集一起構(gòu)建。然后,實際的排名和比較將只在測試集上進行。

然而,即使在訓(xùn)練集中,在最有利的情況下(閾值為0.066,而ChatGPT為0.014),領(lǐng)域特異性ML模型的精度也最多比ChatGPT的最佳精度(0.73相對于0.75)低2pp。此外,在訓(xùn)練和測試集中,ChatGPT在所有閾值上的精度都優(yōu)于領(lǐng)域特異性模型。

有趣的是,兩種模型的最佳閾值(0.038和0.037)在測試集中極其接近。在這個閾值下,ChatGPT的準(zhǔn)確率比領(lǐng)域特定模型高出11pp(0.66比077)。此外,與領(lǐng)域特定模型相比,ChatGPT在閾值變化方面表現(xiàn)出更好的一致性。因此,可以看出,ChatGPT的準(zhǔn)確性下降幅度要小得多。

在簡歷中,ChatGPT在準(zhǔn)確性上大大優(yōu)于領(lǐng)域特定ML模型。此外,從這里得到的想法是:ChatGPT可以針對特定任務(wù)進行微調(diào)。因此,想象一下ChatGPT會變得多么好。

3.3.調(diào)查ChatGPT情緒標(biāo)簽

我一直打算通過舉例說明ChatGPT不準(zhǔn)確的地方,并將其與領(lǐng)域特定模型進行比較,來進行更微觀的調(diào)查。然而,由于ChatGPT的進展比預(yù)期的要好得多,所以我只得選擇繼續(xù)調(diào)查它錯過了正確情緒的情況。

最初,我進行了與以前類似的評估,但現(xiàn)在立即使用完整的黃金標(biāo)準(zhǔn)數(shù)據(jù)集。接下來,我選擇了閾值(0.016),用于將黃金標(biāo)準(zhǔn)數(shù)值轉(zhuǎn)換為產(chǎn)生ChatGPT最佳精度(0.75)的正、中性和負(fù)標(biāo)簽。然后,我制作了一個混淆矩陣,其繪制結(jié)果如下

在圖形左側(cè)給出的是一條折線圖,用于評估ChatGPT的準(zhǔn)確性(y軸)相對于對數(shù)字黃金標(biāo)準(zhǔn)完整數(shù)據(jù)集進行分類的閾值(x軸)是如何變化的。在圖形右側(cè)給出的是正、中性和負(fù)標(biāo)簽對應(yīng)的混淆矩陣,這里假設(shè)導(dǎo)致最大ChatGPT性能的閾值為0.016。此外,混淆矩陣還包含根據(jù)轉(zhuǎn)換后的標(biāo)簽ChatGPT的命中和未命中的百分比。

回想一下,我在前一節(jié)中展示了積極得分比消極得分多的數(shù)據(jù)句子的分布。在混淆矩陣中,觀察到考慮0.016的閾值,有922個(56.39%)陽性句子,649個(39.69%)陰性句子,64個(3.91%)中性句子。

此外,請注意,使用中性標(biāo)簽時,ChatGPT的準(zhǔn)確性較低。這是意料之中的事,因為這些標(biāo)簽更容易受到閾值限制的影響。有趣的是,ChatGPT傾向于將這些中性句子中的大多數(shù)歸類為陽性。然而,由于較少的句子被認(rèn)為是中性的,這種現(xiàn)象可能與數(shù)據(jù)集中較大的積極情緒得分有關(guān)。

另一方面,當(dāng)考慮其他標(biāo)簽時,ChatGPT顯示出正確識別陽性類別比陰性類別多6個百分點的能力(78.52%對72.11%)。在這種情況下,我不確定這與每個分?jǐn)?shù)譜段的句子數(shù)量有關(guān)。首先,因為每個類別類型的句子要多得多。其次,觀察ChatGPT的未命中次數(shù),這些未命中次數(shù)流向相反方向的標(biāo)簽(從正到負(fù),反之亦然)。同樣,ChatGPT在負(fù)面類別中犯了更多這樣的錯誤,數(shù)量要少得多。因此,ChatGPT似乎對否定句比對肯定句更感困擾。

3.4.與人類專家的一些具體案例以及比較

我選擇了幾個在黃金標(biāo)準(zhǔn)(人類分?jǐn)?shù))和ChatGPT之間具有最顯著特殊性的句子。然后,我使用之前建立的相同閾值將數(shù)字分?jǐn)?shù)轉(zhuǎn)換為情緒標(biāo)簽(0.016)。此外,據(jù)報道,ChatGPT的表現(xiàn)優(yōu)于人類。因此,我調(diào)查了這些差異,并給出了我的裁決,我發(fā)現(xiàn)無論是人類還是ChatGPT都更準(zhǔn)確。

此外,至少從2018年開始,美國國防高級研究計劃局(DARPA)就深入研究了為人工智能決策帶來可解釋性的重要性。引人注目的是,ChatPGT展現(xiàn)了這樣一種能力:它可以解釋自己的決定。這種能力幫助我做出了裁決。下表顯示了此檢查結(jié)果。

該表顯示了黃金標(biāo)準(zhǔn)標(biāo)簽(使用0.016閾值從人類專家的分?jǐn)?shù)轉(zhuǎn)換而來)和ChatGPT之間不匹配的句子示例。此外,我給出了我最同意的裁決。

從我做出有利于人類專家裁決的案例開始。在第3句和第4句的情況下,ChatGPT應(yīng)該意識到,收回支出和公司聯(lián)盟在金融領(lǐng)域通常被認(rèn)為是有益的。然而,在第7句的情況下,我要求它解釋其決定,以下是ChatGPT的英文回答:

The positive sentiment towards Barclays is conveyed by the word “record,” which implies a significant accomplishment for the company in successfully resolving legal issues with regulatory bodies.

中文意思是:“記錄”一詞表達(dá)了對巴克萊銀行的積極情緒,這意味著該公司在成功解決與監(jiān)管機構(gòu)的法律問題方面取得了重大成就。

就這句話而言,ChatGPT并不理解,盡管達(dá)成創(chuàng)紀(jì)錄的交易通常是好的,但美國證券交易委員會是一個監(jiān)管機構(gòu)。因此,與美國證券交易委員會達(dá)成創(chuàng)紀(jì)錄的交易意味著巴克萊和瑞士信貸必須支付創(chuàng)紀(jì)錄的罰款。

接下來是第5句和第8句,這些都是非常艱難的判罰。這讓我更明確一點,人類的評估是正確的。然而,事實上,ChatGPT根本猜不到這些。在第5句中,需要及時了解當(dāng)時的情況,才能理解這句話代表了一個好的結(jié)果。對于第8句,需要知道油價下跌與特定目標(biāo)公司的股價下跌相關(guān)。

然后,對于第6句,這是一個情緒得分為零的情況下所能得到的最中性的句子,ChatGPT對其決定英文解釋如下:

The sentence is positive as it is announcing the appointment of a new Chief Operating Officer of Investment Bank, which is a good news for the company.

中文意思是:這句話很積極,因為它宣布任命投資銀行新任首席運營官,這對公司來說是個好消息。

然而,這是一個籠統(tǒng)的、不太有見地的回應(yīng),并不能證明為什么ChatGPT認(rèn)為任命這位高管是好的。因此,在這種情況下,我同意人類專家的意見。

有趣的是,我在第1、2、9和10句中對ChatGPT做出了有利的裁決。此外,仔細(xì)觀察,人類專家應(yīng)該更多地關(guān)注目標(biāo)公司或整體信息。這在第1句中尤其具有象征意義,專家們應(yīng)該認(rèn)識到,盡管Glencore公司的情緒是積極的,但目標(biāo)公司是剛剛撰寫報告的巴克萊銀行。從這個意義上說,ChatGPT更好地識別了這些句子中的情感目標(biāo)和含義。

4.結(jié)論和結(jié)果討論

如下表所示,實現(xiàn)這樣的性能需要大量的財政和人力資源。

模型各方面的比較,如參數(shù)的數(shù)量、使用的單詞嵌入大小、成本、構(gòu)建它的研究人員數(shù)量、測試集中的最佳準(zhǔn)確性,以及它的決定是否可以解釋。

從這個意義上說,盡管ChatGPT的性能優(yōu)于特定領(lǐng)域的模型,但最終的比較需要針對特定領(lǐng)域的任務(wù)對ChatGPT進行微調(diào)。這樣做將有助于解決微調(diào)性能的收益是否超過努力成本的問題。

此外,文本模型中最重要的因素之一是單詞嵌入的大小。這項技術(shù)自SemEval 2017版以來一直在發(fā)展。因此,這一部分中的一些更新可以顯著提高特定領(lǐng)域模型的結(jié)果。

另一方面,隨著生成文本模型和LLM的流行,一些開源版本可能有助于組裝一個有趣的未來比較。此外,ChatGPT等LLM解釋其決策的能力是一項杰出的、可以說是出乎意料的成就,可以徹底改變該領(lǐng)域。

5.擴展考慮:如何在應(yīng)用場景中進行這種比較

不同領(lǐng)域的情緒分析是一項獨立的科學(xué)研究。盡管如此,將情緒分析的結(jié)果應(yīng)用于適當(dāng)?shù)膱鼍翱赡苁橇硪粋€科學(xué)問題。此外,當(dāng)我們考慮金融領(lǐng)域的句子時,將情感特征添加到應(yīng)用智能系統(tǒng)中會很方便。這正是一些研究人員一直在做的事情,我也在進行實驗。

2021年,我和一些同事發(fā)表了一篇關(guān)于如何在應(yīng)用場景中使用情緒分析的研究文章。在第二屆ACM金融人工智能國際會議(ICAIF’21)上發(fā)表的這篇文章中,我們提出了一種將市場情緒納入強化學(xué)習(xí)架構(gòu)的有效方法。這個鏈接提供了實現(xiàn)該體系結(jié)構(gòu)的源代碼,下面顯示了其整體設(shè)計的一部分。

我們所構(gòu)建的架構(gòu)示例的一部分,說明如何將市場情緒納入應(yīng)用場景的強化學(xué)習(xí)架構(gòu)中。資料來源:《智能交易系統(tǒng):一種情緒感知強化學(xué)習(xí)方法》。第二屆ACM金融人工智能國際會議論文集(ICAIF’21)。作者信息:Lima Paiva, F. C.; Felizardo, L. K.; Bianchi, R. A. d. C. B.; Costa, A. H. R.

該體系結(jié)構(gòu)設(shè)計用于處理像黃金標(biāo)準(zhǔn)數(shù)據(jù)集中那樣的數(shù)字情感分?jǐn)?shù)。盡管如此,還是有一些技術(shù)(例如,Bullishanex指數(shù))可以將分類情緒轉(zhuǎn)換為適當(dāng)?shù)臄?shù)值,這是由ChatGPT生成的。應(yīng)用這樣的轉(zhuǎn)換可以在這樣的體系結(jié)構(gòu)中使用ChatGPT標(biāo)記的情感。此外,這是在這種情況下你可以做什么的一個例子,也是我打算在未來的分析中做的。

5.1.我研究領(lǐng)域的其他論文(自然語言處理、強化學(xué)習(xí)有關(guān))

  • Lima Paiva, F. C.; Felizardo, L. K.; Bianchi, R. A. d. C. B.; Costa, A. H. R. Intelligent Trading Systems: A Sentiment-Aware Reinforcement Learning Approach. Proceedings of the Second ACM International Conference on AI in Finance (ICAIF ‘21).
  • Felizardo, L. K.; Lima Paiva, F. C.; de Vita Graves, C.; Matsumoto, E. Y.; Costa, A. H. R.; Del-Moral-Hernandez, E.; Brandimarte, P. Outperforming algorithmic trading reinforcement learning systems: A supervised approach to the cryptocurrency market. Expert Systems with Applications (2022), v. 202, p. 117259.
  • Felizardo, L. K.; Lima Paiva, F. C.; Costa, A. H. R.; Del-Moral-Hernandez, E. Reinforcement Learning Applied to Trading Systems: A Survey. arXiv, 2022.

本文中所使用的資源

主要引用文獻(xiàn)

  • Khadjeh Nassirtoussi, A., Aghabozorgi, S., Ying Wah, T., and Ngo, D. C. L. Text mining for market prediction: A systematic review. Expert Systems with Applications (2014), 41(16):7653–7670.
  • Loughran, T. and Mcdonald, B. When Is a Liability Not a Liability ? Textual Analysis , Dictionaries , and 10-Ks. Journal of Finance (2011), 66(1):35–65.
  • Hamilton, W. L., Clark, K., Leskovec, J., and Jurafsky, D. Inducing domain-specific sentiment lexicons from unlabeled corpora. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 595–605.
  • Cortis, K.; Freitas, A.; Daudert, T.; Huerlimann, M.; Zarrouk, M.; Handschuh, S.; Davis, B. SemEval-2017 Task 5: Fine-Grained Sentiment Analysis on Financial Microblogs and News. Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017).
  • Davis, B., Cortis, K., Vasiliu, L., Koumpis, A., Mcdermott, R., and Handschuh, S. Social Sentiment Indices Powered by X-Scores. ALLDATA, The Second Inter-national Conference on Big Data, Small Data, Linked Data and Open Data (2016).
  • Ferreira, Taynan; Lima Paiva, F. C.; Silva, Roberto da; Paula, Angel de; Costa, Anna; Cugnasca, Carlos. Assessing Regression-Based Sentiment Analysis Techniques in Financial Texts. 16th National Meeting on Artificial and Computational Intelligence (ENIAC), 2019.

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標(biāo)題:Can ChatGPT Compete with Domain-Specific Sentiment Analysis Machine Learning Models?,作者:Francisco Caio Lima Paiva



責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2022-12-27 08:00:00

開發(fā)機器學(xué)習(xí)數(shù)據(jù)集

2024-12-19 07:58:53

2024-01-22 15:36:54

大語言模型人工智能

2015-05-28 20:46:05

CephGluster分布式存儲

2023-10-07 09:00:00

人臉檢測Web應(yīng)用程序

2018-04-26 05:13:39

6W模型領(lǐng)域軟件構(gòu)造

2021-12-26 22:57:57

Java開發(fā)深度學(xué)習(xí)

2023-03-16 08:00:00

機器學(xué)習(xí)深度學(xué)習(xí)人工智能

2023-03-26 00:24:15

2023-11-27 15:34:51

大語言模型PubMedBERT

2010-02-02 09:38:29

Visual Stud

2023-06-07 13:41:48

大型語言模型ChatGPT

2009-07-15 17:52:10

2018-09-04 11:45:31

前端JavaScriptNodeJS

2010-01-25 09:17:01

Visual Stud

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2024-04-23 07:52:25

2024-02-19 00:06:50

AI模型

2017-05-15 14:00:28

大數(shù)據(jù)Python情感極性分析

2017-03-21 10:55:22

大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號