陶哲軒:2026年GPT幫我合著數(shù)學(xué)論文!提前試用「完全版」GPT-4,大受震撼
3個(gè)月前,OpenAI的GPT-4在萬眾矚目中登場,多模態(tài)功能震驚了人類,在各大考試中取得高分,號稱史上最先進(jìn)AI系統(tǒng)。
直至今日,在各大測評榜單中,GPT-4依舊時(shí)常位居榜首。
今日陶哲軒忽然發(fā)文稱,其實(shí)今年早在GPT-4發(fā)布前,微軟首席科學(xué)家Eric Horvitz就曾邀請自己試用過GPT-4模型。
試用完后,陶哲軒將自己的體驗(yàn)和思考寫成了一篇文章。
陶哲軒表示,還不到半年,再重新看這篇文章,就會發(fā)現(xiàn)AI技術(shù)的發(fā)展有多快。而這個(gè)回望的過程,也是很有趣的。
陶哲軒的GPT-4初體驗(yàn)
在過去的幾十年里,人類一直在被信息技術(shù)規(guī)訓(xùn),慢慢習(xí)慣了一些情況。比如:
- 硬件和軟件將以摩爾定律的速度改進(jìn)(在性能、用戶體驗(yàn)和可靠性等指標(biāo)上),然后再過渡到更多的漸進(jìn)式改進(jìn)。
- 個(gè)別軟件工具可以可靠地產(chǎn)生高質(zhì)量的輸出,但輸入數(shù)據(jù)必須是最高質(zhì)量的,而且格式上需要按照工具要求的特定方式來認(rèn)真準(zhǔn)備。
- 工具越先進(jìn),規(guī)范和特殊情況就越復(fù)雜。除非有精心設(shè)計(jì)的標(biāo)準(zhǔn),否則工具之間(特別是不同供應(yīng)商之間)的可交互性就會成為重大的技術(shù)挑戰(zhàn)。
- 人類將做出所有關(guān)鍵的執(zhí)行決策;軟件工具則通過它執(zhí)行人類指令的成功或失敗的結(jié)果來影響人類的決策過程。
隨著 GPT-4 等生成式人工智能工具的出現(xiàn),所有這些習(xí)慣即使不能被完全放棄,也需要重新調(diào)整。
這些工具在處理措辭模糊(且略有錯(cuò)誤)的自然語言提示,或處理從網(wǎng)頁或 PDF 中抓取的嘈雜數(shù)據(jù)時(shí)表現(xiàn)非常出色。
我向 GPT-4 提供最近一份數(shù)學(xué)預(yù)印本的前幾頁 PDF,它可以生成幾個(gè)質(zhì)量還不錯(cuò)的學(xué)術(shù)問題。
我使用類似提示詞的變體來準(zhǔn)備我以后的演講或閱讀技術(shù)層面比較復(fù)雜的論文。
起初,我根據(jù)編程或腳本語言的經(jīng)驗(yàn),努力使自己寫的提示詞盡可能準(zhǔn)確。
最終,當(dāng)我只是簡單地向 AI 扔了很多原始文本,并沒有小心翼翼地寫提示詞時(shí),最好的結(jié)果卻出現(xiàn)了。
如此高的容錯(cuò)性能使人工智能工具能與傳統(tǒng)軟件工具配合工作,或者讓AI工具相互集成協(xié)同工作,或者與沒有處理過的個(gè)人數(shù)據(jù)和個(gè)人偏好結(jié)合起來工作。
這種AI工具和現(xiàn)有的軟件工具,原始數(shù)據(jù)協(xié)同配合工作,或者讓AI工具相互配合工作的方式,將徹底改變?nèi)藗兊墓ぷ髁鞒蹋粌H僅是像現(xiàn)在一樣孤立地給人類行為提供一些建議。
由于這些AI工具能夠理解各種模態(tài)的輸入,我們?nèi)栽谠囼?yàn)如何充分利用它們的,開發(fā)它們的潛力。
我現(xiàn)在經(jīng)常使用 GPT-4 來回答隨意和措辭含糊的問題,而以前我會要花很多精力去搜索引擎里尋找這些問題的答案。
我已經(jīng)讓來它來幫我起草一些復(fù)雜文件的初稿了。
我認(rèn)識的其他人已經(jīng)使用這些工具的卓越人工情緒智能來獲得心理上的支持、舒適感和安全感。
我的一位同事的親戚最近被診斷出重病,但這位同事后來被一封 GPT-4 生成的安慰信感動流淚了。
在和人類的對話交流中,GPT-4 可以充當(dāng)富有同情心的傾聽者、熱情的回應(yīng)者、創(chuàng)意女神、翻譯或老師,或者魔鬼代言人。
它們可以幫助我們在任何方面都快速而持續(xù)地成長。
當(dāng)前的大語言模型(LLM)通常可以令人信服地模仿某個(gè)知識領(lǐng)域(例如我自己的研究數(shù)學(xué))中專家的正確回答。
但眾所周知,如果你仔細(xì)檢查他們的答復(fù),回應(yīng)中經(jīng)常會有胡說八道的內(nèi)容。
人類和人工智能都需要培養(yǎng)分析這種「新型文本」的技能。
我傳統(tǒng)上用來「探測」某些離譜的錯(cuò)誤數(shù)學(xué)論證的文體信號,對 LLM 生成的數(shù)學(xué)文本沒有多大用處。
只有逐行認(rèn)真地閱讀才能辨別出是否有任何實(shí)質(zhì)內(nèi)容。
奇怪的是,即使是無意義的 LLM 生成的無意義的數(shù)學(xué)內(nèi)容也經(jīng)常引用相關(guān)概念。
只要花些功夫,人類專家可以將不可行的想法修改為正確而且是原創(chuàng)的觀點(diǎn)。
2023年的AI已經(jīng)可以生成對于數(shù)學(xué)家有用的提示和線索,從而在數(shù)學(xué)家的決策和思考過程中發(fā)揮作用。
當(dāng)與形式證明驗(yàn)證器、互聯(lián)網(wǎng)搜索和符號數(shù)學(xué)包等工具集成到一起配合工作時(shí),我預(yù)測,只要使用得當(dāng),2026 年的人工智能將成為數(shù)學(xué)研究中值得信賴的合著者,在許多其他領(lǐng)域也應(yīng)該如此。
之后會如何發(fā)展?這不僅僅取決于技術(shù),還取決于現(xiàn)有的人類制度和機(jī)制如何適應(yīng)。
現(xiàn)在AI 指導(dǎo)下的研究生可以在不到一天的時(shí)間內(nèi)生成一篇入門級的數(shù)學(xué)論文,而且未來 AI 工具的準(zhǔn)確性還要高得多。
面對這種情況研究期刊將如何改變他們的發(fā)表和引用政策?
我們的研究生教育方法將如何改變?
我們會積極鼓勵和培訓(xùn)我們的學(xué)生使用這些工具嗎?
我們還沒有準(zhǔn)備好回答這些問題。
將AI工具納入我們的專業(yè)構(gòu)架后,取得的AI輔助下的成就和勇敢的嘗試都會很令人震驚。
但同時(shí)也會伴隨令人尷尬的錯(cuò)誤、爭議、痛苦的破壞、激烈的辯論和草率的決定。
我們現(xiàn)有的技術(shù)范例無法作為探索這些未知領(lǐng)域的指南。
也許最大的挑戰(zhàn)將是如何盡可能安全、明智和公平地過渡到一個(gè)由人工智能輔助的新世界。