自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT大戰(zhàn)司法考試,無需微調一類試題達到人類水平!醫(yī)學化學公務員試題都能答

人工智能 新聞
研究人員分別對GPT-3.5進行了提示工程、超參數優(yōu)化以及微調的嘗試。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

ChatGPT的下一個新身份——做題家!

這不,它已經在人類各個考試中開“卷”了。

律師、醫(yī)生、注會什么的,它都開始紛紛展露身手。

比如,全球考生都頭疼的司法考試,現在ChatGPT在兩項試題達到了合格率,其中一項還跟人類水平持平。(還是在沒有任何微調的基礎上)

圖片

“成績”一出,瞬間引發(fā)巨大關注,網友:Amazing~

圖片

還有人表示,要是讓它來參加SAT或AP考試,應該會很有趣。

圖片

咳咳,要是公務員考試呢?

咱們結尾見分曉!?

圖片

兩項法考試題合格

具體就先來看看ChatGPT在司法考試中的表現如何。

美國大多數州統(tǒng)一的司法考試(UBE),有三個組成部分:選擇題(多州律師考試,MBE)、作文(MEE)、情景表現(MPT)。

選擇題部分,由來自8個類別的200道題組成,通常占整個律師考試分數的50%。

圖片

在這項研究中,研究人員對OpenAI的text-davinci-003模型(通常被稱為GPT-3.5)在MBE的表現進行評估。

(ChatGPT正是GPT-3.5面向公眾的聊天機器人版本。)

為了測試實際效果,研究人員購買了官方組織提供的標準考試準備材料,包括練習題和模擬考試。每個問題的正文都是自動提取的,其中有四個多選選項,并與答案分開存儲,答案僅由每個問題的正確字母答案組成,也沒有對正確和錯誤的答案進行解釋。

隨后,研究人員分別對GPT-3.5進行了提示工程、超參數優(yōu)化以及微調的嘗試。結果發(fā)現,超參數優(yōu)化和提示工程對GPT-3.5的成績表現有積極影響,而微調沒有任何效果。

在提示工程中,他們共測試了7種提示類型。

  • 1、只做單項選擇;
  • 2、單項選擇和解釋;
  • 3、只做前兩個選擇;
  • 4、前兩個選擇和解釋;
  • 5、前兩個選擇和重新提示;
  • 6、對所有選擇進行排序;
  • 7、對前三個選擇進行排序。


研究人員在上述的提示和參數值中執(zhí)行了107次樣本考試。結果在這些提示中,提示風格#7的前三個選項排序表現最好,他們共收集了41個樣本,對這個提示進行參數組合。

超參數優(yōu)化中,他們評估了包括溫度系數、top p、best of、max tokens等參數。

最終在完整的MBE練習考試中達到了50.3%的平均正確率,大大超過了25%的基線猜測率,并且在證據和侵權行為兩個類型都達到了平均通過率。尤其是證據類別,與人類水平持平,保持著63%的準確率。

在所有類別中,GPT平均落后于人類應試者約17%。在證據、侵權行為和民事訴訟的情況下,這一差距可以忽略不計或只有個位數。

但總的來說,這一結果都大大超出了研究人員的預期。

因為它對答案排序與正確性有很強的相關性,Top2和Top3的選擇分別有71%和88%的正確率。其中“Top2”的準確率全都超過了極限,有五個類別均超過了人類平均水平。而“Top3”的準確度更高,在證據這一表現中甚至達到了98%。

這也證實了它對法律領域的一般理解,而非隨機猜測。接下來他們將進一步對法考的其他兩部分:作文和情景表現進行上述的研究。

ChatGPT能當考霸嗎?

谷歌資深軟件工程師肯尼斯·古德曼(Kenneth S. Goodman)就拿ChatGPT做了一系列測試,涉及司法、醫(yī)學、會計學、化學等多個領域。

分數最高的一門是紐約州高中畢業(yè)英語語言藝術考試,ChatGPT正確率達到了91.6%。

因為是2022年8月的考試,所以ChatGPT數據庫中肯定不包含考試內容。對于陌生的24道考題,它只錯了2題。

圖片

物理/化學考試中,ChatGPT的表現也不錯,正確率達到了77.7%,45道題目中答對了35道。

前不久,谷歌醫(yī)療大模型Med-PaLM通過美國醫(yī)師執(zhí)照試題(USMLE)驗證。

ChatGPT也不甘于落后,同樣挑戰(zhàn)了USMLE的第一階段基礎醫(yī)學考試。

去掉有圖像的題目后(因無法輸入對話框),ChatGPT正確率達70%

圖片

其余則是在司法方面,工程師肯尼斯老哥讓ChatGPT嘗試了一些非正式題目。

比如美國律師職業(yè)道德考試(MPRE)的示例題目(共15道),ChatGPT答對了9道,正確率60%。

面對50道律師資格考試模擬試題,ChatGPT的正確率也維持在了70%,答對35道。

此外,在佛羅里達農工大學法學院的入學考試中,ChatGPT取得了149分,排名在前40%。其中閱讀理解類題目表現最好。

表現最差的,還是數學題。

在CPA注會考試中,ChatGPT的正確率只有40%。肯尼斯老哥還在嘗試一些調教方法,讓它更聰明一些。

總之,ChatGPT在各種考試中的表現,還是讓人有些意外。

有網友已經產生危機感了:

damn,我的工作要被搶了!

圖片

有人分析,如果直接讓AI來插手司法相關的判斷,風險真的很大,但如果后期有專人來審核它的輸出結果,那么AI將能夠很好提升律師的工作效率。

圖片

還有人表示,如果能保證任何數據都不泄露的話,那ChatGPT將能夠推動更多行業(yè)平民化。

或許正如肯尼斯老哥說的那樣,人類+電腦的組合已經超越了人類自身能力,這就是計算機當下正在進行的突破。

One More Thing

最后,我們也讓ChatGPT試了試國內法考的題目~

先說結果,3道選擇題,ChatGPT都沒有答對……雖然解釋得頭頭是道,但它應該確實沒有讀過我國的法條。

圖片△參考答案D

(這答案羅翔老師看了直搖頭)

圖片

△參考答案A

換成公務員行測試題呢?沒想到ChatGPT的答案對了,可是過程和答案似乎完全沒關系……

圖片

這……怎么感覺AI秒算結果,但隨便編了個過程來糊弄人類啊


責任編輯:張燕妮 來源: 量子位
相關推薦

2020-11-09 10:00:33

Python開發(fā)

2025-02-20 00:00:00

2021-11-15 08:30:27

碼農公務員同學

2021-01-18 06:43:54

程序員公務員996

2015-10-21 16:27:45

公務員國考大數據

2014-08-21 10:22:53

2023-05-25 13:59:12

ChatGPT模型

2023-03-27 14:33:50

ChatGPT

2021-08-25 09:33:16

算法開發(fā)技術

2025-02-27 09:30:28

2024-07-24 11:36:02

2023-05-11 09:50:13

AI微軟

2018-05-17 09:25:31

Java程序員技術水平

2010-12-07 13:37:42

2024-08-09 14:47:00

2025-03-10 10:55:44

2012-02-22 14:21:18

2017-08-11 15:08:46

碼農公務員計算機

2009-09-29 09:22:00

CCNA考試題目分析CCNA
點贊
收藏

51CTO技術棧公眾號