自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="pfowb"><track id="pfowb"><dfn id="pfowb"></dfn></track></legend>

<center id="pfowb"></center>

<sub id="pfowb"></sub>

^{<sub id="pfowb"></sub>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

還能這么玩？清華給 ChatGPT 做逆向，發(fā)現(xiàn)了 ChatGPT 的進(jìn)化軌跡！

作者：小戲 2023-05-08 12:12:56

這篇論文從 ChatGPT 時(shí)間變化性這個(gè)角度切入去深入的了解了 ChatGPT 所關(guān)注的特征，并且也關(guān)注到了 ChatGPT 特征的動(dòng)態(tài)變化，這為許多基于 ChatGPT 的探索性研究鋪了一條方便的道路，也或多或少規(guī)避了一些因?yàn)?ChatGPT 的進(jìn)化而不應(yīng)該得出的錯(cuò)誤結(jié)論。

夕小瑤科技說原創(chuàng)
作者 |小戲、Python

立足一個(gè) ChatGPT，現(xiàn)在對大模型的研究簡直是百花齊發(fā)百家爭鳴，用 ChatGPT 做化學(xué)實(shí)驗(yàn)、給 ChatGPT 做心理測試、誘導(dǎo) ChatGPT 越獄泄漏隱私、讓幾個(gè) ChatGPT 形成一個(gè)小社會等等不勝枚舉。

而最近，清華的研究團(tuán)隊(duì)又在大模型研究中另辟蹊徑，不僅構(gòu)建了一個(gè)數(shù)據(jù)集記錄 ChatGPT 隨時(shí)間的“版本迭代”，更是通過逆向分析探索得到了 OpenAI 對 ChatGPT 動(dòng)的手腳做的改進(jìn)，推演出了 ChatGPT 的進(jìn)化軌跡！論文和項(xiàng)目地址如下：

論文題目：
ChatLog: Recording and Analyzing ChatGPT Across Time
論文鏈接：
https://arxiv.org/pdf/2304.14106.pdf
項(xiàng)目鏈接：
https://github.com/THU-KEG/ChatLog

首先讓我們來看一張圖，其實(shí)毋庸置疑，OpenAI 在 ChatGPT 如此龐大的用戶基數(shù)下，必然會借助這些海量的“優(yōu)質(zhì)數(shù)據(jù)”讓 ChatGPT 不斷的迭代進(jìn)化。以 ELI5 數(shù)據(jù)集（包含很多 Explain Like I am 5 問題的數(shù)據(jù)集）為例，在 3 月 9 號的 ChatGPT 版本中，ChatGPT 只給出了一個(gè)相當(dāng)簡陋的回答，很顯然 ChatGPT 在 3 月 9 號還沒有完全理解什么是“Explain Like I am 5”，但是在 4 月 9 號時(shí)，ChatGPT 已經(jīng)完成了進(jìn)化，不僅表達(dá)更加生動(dòng)，甚至還使用了比喻的修辭。

顯然，一個(gè)直覺的問題是“ChatGPT 是沿著什么方向變化的？”，如果可以搞清楚這個(gè)問題，不僅是可以滿足一下我們的好奇心，更是給 ChatGPT 客觀的評估工作帶來了方便。但這個(gè)問題并不是 OpenAI 會寫在文檔里供我們即插即用的問題，因而，這篇工作應(yīng)運(yùn)而生，總的來說，論文完成了兩件事，一是分別構(gòu)建了一個(gè)按日還按月記錄 ChatGPT 變化的數(shù)據(jù)集；二則是利用這個(gè)數(shù)據(jù)集對 ChatGPT 的進(jìn)化軌跡進(jìn)行了分析，得出了不少有意思的結(jié)論。

ChatLog——ChatGPT 進(jìn)化數(shù)據(jù)集

關(guān)于數(shù)據(jù)集，作者團(tuán)隊(duì)從兩個(gè)角度出來，一個(gè)是構(gòu)建一個(gè)以月份為時(shí)間維度的數(shù)據(jù)集，一個(gè)是構(gòu)建一個(gè)以日期為時(shí)間維度的數(shù)據(jù)集。對于按月記錄的數(shù)據(jù)集而言，作者團(tuán)隊(duì)從數(shù)據(jù)集 HC3（一個(gè)包含大約兩萬四千條問題及其對應(yīng)的人類專家答案和 ChatGPT 答案的數(shù)據(jù)集）、Jack of All Trades （一個(gè)用于評估 ChatGPT 在25個(gè)公共 NLP 數(shù)據(jù)集上的 25 個(gè)不同 NLP 任務(wù)性能的數(shù)據(jù)集）以及一系列其他數(shù)據(jù)集中抽取了涵蓋計(jì)算機(jī)、數(shù)學(xué)、金融等不同領(lǐng)域的共 38730 個(gè)問題-答案對，每月詢問一次 ChatGPT，構(gòu)成 ChatLog-Monthly。

而為了監(jiān)測 ChatGPT 每天的變化，論文從 HC3 數(shù)據(jù)集中隨機(jī)抽取了1000個(gè)問題，從 2023 年 3 月 5 日到 4 月 9 日重復(fù)發(fā)送給ChatGPT。其中有些問題是開放性的，可能需要 ChatGPT 借助外部知識，而有部分問題是分析性的，主要考驗(yàn) ChatGPT 的分析能力。總體大約 30% 是“What”類型的問題，30% 是“How”類型的問題，58% 是為“Why”類型的問題，其他類型的問題占 6%。通過在這些問題上 ChatGPT 的表現(xiàn)，可以評估它在多方面的表現(xiàn)，如多領(lǐng)域知識理解、推理、解釋等。

分析——ChatGPT 的進(jìn)化軌跡

有了數(shù)據(jù)集，選取相應(yīng)評價(jià)指標(biāo)，便可以看出 ChatGPT 隨時(shí)間的進(jìn)化軌跡。如下表所示，對比 1 月份的 ChatGPT 在不同任務(wù)數(shù)據(jù)集上的結(jié)果，可以看出 New ChatGPT 有了幾乎全線的提升。

總結(jié)來看，對比 1 月，ChatGPT 主要完成了以下的升級：

在攻擊性與垃圾文本分類任務(wù)中，New ChatGPT 有了顯著的提升，幾乎接近現(xiàn)有模型的 SOTA，這表明 ChatGPT 在識別攻擊性與垃圾文本的能力方面有了巨大的提升，這種提升很有可能是開放用戶的攻擊帶來的；
對于需要數(shù)學(xué)推理的任務(wù)，ChatGPT 有了顯著的改進(jìn)，在 MathQA 數(shù)據(jù)集上的準(zhǔn)確率從 71.40% 提高到了 78.00%。

關(guān)注推理能力，從下面的圖中可以看出，3 月 5 號的 ChatGPT 使用了錯(cuò)誤的推理得出來了錯(cuò)誤的答案，但是在 4 月份，ChatGPT 的推理能力便完成了升級，已經(jīng)可以正確的理解問題并加以推導(dǎo)并得到正確的答案。顯然，在 ChatGPT 這種進(jìn)化速度下，如果沒有固定 ChatGPT 的時(shí)間版本，那么非常有可能因?yàn)楹雎?ChatGPT 升級這一關(guān)鍵因素而得出錯(cuò)誤的評估結(jié)果。

值得注意的是，在一些依賴先驗(yàn)知識的任務(wù)中，ChatGPT 的性能發(fā)生了下降，如在 WNLI 數(shù)據(jù)集上，ChatGPT的準(zhǔn)確率從 1 月份的 81.69% 下降到 71.83%。換言之，大量語料的涌入對 ChatGPT 而言有可能并不全然是一件好事，與人類的互動(dòng)也會增加 ChatGPT 的機(jī)器幻覺。

而對 ChatLog-Daily 而言，這種變化可以被更加細(xì)致的可視化如下（后綴 p，r，f 分別表示精確度，召回率和 F1 分?jǐn)?shù)）：

可以看到，ChatGPT 生成的答案正在變得更加簡潔，在追求精度與廣度的平衡，以獲得更高的可讀性。但是，單純分析這種準(zhǔn)確率召回率，其實(shí)沒法真正透視 OpenAI 到底做了什么，這些指標(biāo)也無法分析出為什么時(shí)隔一個(gè)月，ChatGPT 便學(xué)會用比喻來解釋問題了。因此，作者在這個(gè)基礎(chǔ)上更進(jìn)一步做了全面的特征提取，具體而言，作者團(tuán)隊(duì)將個(gè) query 在天內(nèi)持續(xù)丟給 ChatGPT，得到了維的回復(fù)矩陣，再對中每天的回復(fù)提取個(gè)特征（情感特征、知識特征、語言特征），構(gòu)成集合。如下圖所示，作者利用對應(yīng)不同的工具，提取出了知識、語言、情感等總計(jì) 265 個(gè)的豐富特征。

根據(jù)這些特征，作者探索了特征與對應(yīng)得分之間的關(guān)系，可以看到，語義特征與召回率正相關(guān)與準(zhǔn)確率負(fù)相關(guān)，結(jié)合前面 ChatLog-Daily 的分析結(jié)果，可以看出 OpenAI 在語義豐富度方面加強(qiáng)了 ChatGPT。

那么什么在快速迭代中，ChatGPT 的什么特征是穩(wěn)定的呢？論文定義了一個(gè)特征穩(wěn)定的評估指標(biāo)——變異系數(shù)，公式如下：

其中，為特征的索引。通過在 ChatLog-Daily 上進(jìn)行測試，可以看到最穩(wěn)定的指標(biāo)是可讀性與語義清晰度。也就是說，這幾個(gè)指標(biāo)是 ChatGPT 做的最好的核心競爭力。

總結(jié)與討論

總的來說，這篇論文從 ChatGPT 時(shí)間變化性這個(gè)角度切入去深入的了解了 ChatGPT 所關(guān)注的特征，并且也關(guān)注到了 ChatGPT 特征的動(dòng)態(tài)變化，這為許多基于 ChatGPT 的探索性研究鋪了一條方便的道路，也或多或少規(guī)避了一些因?yàn)?ChatGPT 的進(jìn)化而不應(yīng)該得出的錯(cuò)誤結(jié)論。

責(zé)任編輯：武曉燕來源：夕小瑤科技說

ChatGPT 逆向數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="3pq0v"><track id="3pq0v"></track></cite>

<style id="3pq0v"></style>