ChatGPT 和 Stack Overflow,誰的解答更勝一籌?
美國普渡大學(xué)最新發(fā)布的一份 “誰的回答更好?深入分析 ChatGPT 和 Stack Overflow 對軟件工程問題的回答” 研究報告指出,ChatGPT 在回答軟件編程問題時,錯誤率高達一半以上。
研究團隊共分析了 ChatGPT 對 517 個 Stack Overflow 問題的回答,以評估 ChatGPT 回答的正確性、一致性、全面性和簡潔性。同時還就這些答案進行了大規(guī)模的語言分析和用戶研究,以便從語言和人性化方面了解 ChatGPT 答案的特點。
結(jié)果表明,52% 的 ChatGPT 答案是錯誤的,77% 的回答過于冗長。但盡管如此,鑒于其全面性和清晰的語言風(fēng)格,仍有 39.34% 的人選擇 ChatGPT 的回答。
且深入的人工分析結(jié)果得出,ChatGPT 答案中存在大量概念和邏輯錯誤;“由于 ChatGPT 無法理解所提出問題的基本語境,許多答案都是不正確的”。語言分析結(jié)果則指出 ChatGPT 的回答非常正式,很少描繪負面情緒或風(fēng)險;“我們多次觀察到 ChatGPT 插入了諸如‘我當(dāng)然能幫你’、‘這肯定能解決’等語句?!?/p>
“我們的結(jié)果表明,有必要對 ChatGPT 中的錯誤進行仔細檢查和糾正,同時讓用戶意識到看似正確的 ChatGPT 答案所帶來的風(fēng)險?!?/p>
研究人員觀察到,只有當(dāng) ChatGPT 答案中的錯誤非常明顯時,用戶才能意識到。但當(dāng)錯誤不易驗證或需要外部 IDE 或文檔時,用戶往往會無法識別錯誤或者會低估答案的錯誤程度?!岸Y貌用語、清晰的教科書式風(fēng)格的答案、全面性以及答案的關(guān)聯(lián)性會使得完全錯誤的答案顯得正確?!?/p>
普渡大學(xué)博士生、該論文的作者之一 Samia Kabir 向 The Register 表示,與 Stack Overflow 的答案相比,受訪者更偏向不正確且冗長的 ChatGPT 答案。造成這一現(xiàn)象的原因有多種:
其中一個主要原因是 ChatGPT 的回答非常詳細。在很多情況下,如果參與者從冗長而詳細的答案中獲得有用的信息,他們并不會介意答案的長度。此外,積極的情緒和答案的禮貌性也是另外兩個因素。
當(dāng)參與者發(fā)現(xiàn) ChatGPT 的答案很有見地時,他們就會忽略錯誤。ChatGPT 自信地傳達有洞察力的信息(即使信息不正確)的方式贏得了用戶的信任,這使他們更喜歡錯誤的答案。
研究人員對 ChatGPT 答案和 Stack Overflow 答案的語言分析表明,機器人的反應(yīng) “更正式,表達了更多分析思維,表達了更多的分析性思維,展示了更多為實現(xiàn)目標(biāo)所做的努力,并表現(xiàn)出較少的負面情緒”。情感分析得出的結(jié)論是,ChatGPT 的答案比 Stack Overflow 的答案表達了 “更積極的情緒”。
“根據(jù)我們的發(fā)現(xiàn)和這項研究的觀察,我們建議 Stack Overflow 可以采用有效的方法來檢測評論和答案中的毒性和負面情緒,以改善情感和禮貌。我們還認(rèn)為 Stack Overflow 可能希望提高答案的可發(fā)現(xiàn)性,以幫助找到有用的答案。此外,Stack Overflow 可能希望提供更具體的指南來幫助回答者構(gòu)建答案,例如:以循序漸進、注重細節(jié)的方式。”
此外論文指出,這項研究工作還旨在鼓勵進一步研究如何識別和減少不同類型的概念和事實錯誤?!拔覀兿M@項工作能促進更多關(guān)于機器生成答案中不正確性的透明度和交流的研究,尤其是在 SE 的背景下。”


2017-06-08 15:38:41




