自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

召喚100多位學(xué)者打分,斯坦福新研究:「AI科學(xué)家」創(chuàng)新確實(shí)強(qiáng)

人工智能 新聞
我們都知道通過(guò)調(diào)節(jié) LLM 的溫度值確實(shí)可以調(diào)整它們的隨機(jī)性和創(chuàng)造性,但在科學(xué)研究方面比人類還懂創(chuàng)新?

近日,一篇關(guān)于自動(dòng)化 AI 研究的論文引爆了社交網(wǎng)絡(luò),原因是該論文得出了一個(gè)讓很多人都倍感驚訝的結(jié)論:LLM 生成的想法比專家級(jí)人類研究者給出的想法更加新穎!

我們都知道通過(guò)調(diào)節(jié) LLM 的溫度值確實(shí)可以調(diào)整它們的隨機(jī)性和創(chuàng)造性,但在科學(xué)研究方面比人類還懂創(chuàng)新?這還是超乎了很多人的想象 —— 至少很多人沒(méi)想到這會(huì)來(lái)得這么快。難道 AI 科學(xué)家真的要來(lái)了?

那么,這項(xiàng)來(lái)自斯坦福大學(xué)的研究究竟得出了什么樣的結(jié)論呢?

圖片

  • 論文地址:https://arxiv.org/abs/2409.04109
  • 調(diào)查鏈接:https://tinyurl.com/execution-study
  • 項(xiàng)目地址:https://github.com/NoviScl/AI-Researcher

LLM 能生成新穎的研究思路嗎?

為了準(zhǔn)確地對(duì)比 LLM 與人類在科研思路創(chuàng)新方面的能力,斯坦福大學(xué)的這個(gè)研究團(tuán)隊(duì)招募了 104 位 NLP 研究者,讓其中 49 位寫(xiě)下創(chuàng)新研究想法,然后再讓 79 位專家對(duì) LLM 和人類給出的思路進(jìn)行盲測(cè)。請(qǐng)注意,其中有 24 位人類專家既寫(xiě)了想法,也參與了盲測(cè),當(dāng)然他們并不評(píng)估自己寫(xiě)的內(nèi)容。

模型(或者按該團(tuán)隊(duì)的說(shuō)法:思路生成智能體)方面,該團(tuán)隊(duì)使用了 claude-3-5-sonnet-20240620 作為骨干模型。具體來(lái)說(shuō),給定一個(gè)研究主題(比如:可以提升 LLM 事實(shí)性并降低其幻覺(jué)的提示方法),讓 LLM 生成一系列對(duì)  Semantic Scholar API 的函數(shù)調(diào)用。這個(gè)論文檢索動(dòng)作空間包括  {KeywordQuery (keywords), PaperQuery (paperId), GetReferences (paperId)} 。每個(gè)動(dòng)作生成都基于之前的動(dòng)作和已執(zhí)行的結(jié)果。

該研究使用的研究主題有 7 個(gè):偏見(jiàn)、編程、安全性、多語(yǔ)言、事實(shí)性、數(shù)學(xué)和不確定性。下表是各個(gè)主題的想法數(shù)量:

圖片

研究過(guò)程如下圖所示:

圖片

這里我們不細(xì)說(shuō)其詳細(xì)的設(shè)置和評(píng)估過(guò)程,詳見(jiàn)原論文。總結(jié)起來(lái)就是比較人類專家與 AI 智能體生成的科研思路的新穎程度。我們直接來(lái)看結(jié)論。

根據(jù)該團(tuán)隊(duì)思路評(píng)分(Idea Ranking)規(guī)則,他們對(duì)人類和 AI 提出科研思路進(jìn)行了打分,見(jiàn)圖 2 和表 7:

其中 Human Ideas 是指招募的專家研究者提出的思路,而 AI Ideas 則是 LLM 智能體給出的排名第一的思路。AI Ideas + Human Rerank 是指由 AI 生成思路但由本研究一作 Chenglei Si 手動(dòng)從排名靠前的思路中選擇他認(rèn)為最好的一個(gè)。

可以看到,在新穎度方面,不管是 AI Ideas 還是 AI+Rerank,都顯著優(yōu)于 Human Ideas(p < 0.01)。在激動(dòng)人心(excitement)分?jǐn)?shù)上,AI 生成的思路的優(yōu)勢(shì)更是明顯(p<0.05)。并且  AI Ideas + Human Rerank 的整體分?jǐn)?shù)也優(yōu)于人類(p<0.05)。不過(guò) AI 生成的思路在另外兩方面(可行性和有效性)與人類的差別不大。

當(dāng)然,我們也能看出,這項(xiàng)調(diào)查研究有一些明顯的局限,比如其調(diào)查范圍較小,樣本量太少了,評(píng)價(jià)很主觀。另外作者也指出人類研究者可能會(huì)「藏私」,可能并不會(huì)分享自己的最佳想法。

不管怎樣,這項(xiàng)研究證明了一點(diǎn):讓 AI 參與到科學(xué)研究中多半是有利的。尤其是當(dāng)你靈感枯竭、思維阻塞時(shí),問(wèn)一問(wèn) LLM 或許就能有意想不到的收獲。

生成創(chuàng)新想法的 AI 工具,正在不斷涌現(xiàn)

實(shí)際上,已經(jīng)有研究團(tuán)隊(duì)在打造專用于此類任務(wù)的 AI 工具了。比如近日一位專注于開(kāi)發(fā) LLM 應(yīng)用的研究者 Shubham Saboo 就在社交網(wǎng)絡(luò)分享了使用 Cursor 構(gòu)建一個(gè)多智能體 AI 研究者的過(guò)程。他表示整個(gè)過(guò)程用時(shí)不到 5 分鐘!參見(jiàn)如下視頻:

也有人分享了自己的一項(xiàng)相關(guān)研究,表示可以使用 LLM 和因果圖譜自動(dòng)生成心理學(xué)假設(shè),并生成比 GPT-4 和博士生表現(xiàn)都好:

近日,印度科學(xué)學(xué)院(Indian Institute of Science,IISc)的研究者發(fā)現(xiàn),AI 在設(shè)計(jì)創(chuàng)意方面也比人類更有想法。具體來(lái)說(shuō),AI 可通過(guò)一種新的人工智能會(huì)話式「主動(dòng)構(gòu)思」(Active Ideation)界面來(lái)生成新創(chuàng)意。作為一種創(chuàng)意構(gòu)思生成工具,它可幫助新手設(shè)計(jì)師緩解一部分的初始延遲和構(gòu)思瓶頸。

  • 論文標(biāo)題:A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System
  • 論文地址:https://arxiv.org/pdf/2409.05747

具體來(lái)說(shuō),這是一種動(dòng)態(tài)、交互、上下文響應(yīng)式方法,通過(guò)大型語(yǔ)言模型(LLM)主動(dòng)參與,為不同的設(shè)計(jì)問(wèn)題生成多個(gè)潛在創(chuàng)意陳述。論文稱之為「主動(dòng)構(gòu)思場(chǎng)景」,它有助于促進(jìn)基于對(duì)話的持續(xù)互動(dòng)、對(duì)上下文敏感的對(duì)話以及多產(chǎn)的構(gòu)思生成。

在當(dāng)前的很多研究設(shè)計(jì)中,從書(shū)面信息到基于關(guān)鍵詞的在線資源檢索的轉(zhuǎn)變至關(guān)重要。這強(qiáng)調(diào)了文本在轉(zhuǎn)變思維模式和通過(guò)發(fā)展高級(jí)設(shè)計(jì)語(yǔ)言促進(jìn)系統(tǒng)化構(gòu)思方面的重要性。下表 1 總結(jié)了最常用的傳統(tǒng)構(gòu)思技術(shù)、其過(guò)程、局限性、涉及的認(rèn)知原則以及在產(chǎn)生創(chuàng)意方面的預(yù)期結(jié)果。

雖然這些傳統(tǒng)方法已被廣泛使用,但它們往往無(wú)法為新手設(shè)計(jì)師提供積極的支持。在產(chǎn)生新穎想法的過(guò)程中,原創(chuàng)性和多樣性主要依賴于設(shè)計(jì)者。這一空白標(biāo)志著將人工智能與構(gòu)思相結(jié)合的潛力。

這篇論文就深入探討了對(duì)話式人工智能(CAI)系統(tǒng)的設(shè)計(jì)、開(kāi)發(fā)和潛在使用案例,重點(diǎn)是比較基于 CAI 的構(gòu)思工具與傳統(tǒng)方法的效率。

有兩個(gè)有趣的特點(diǎn)使 CAI 系統(tǒng)看起來(lái)很智能:(a) 能夠就給定主題生成智力上可接受的文章,(b) 能夠在先前交互的基礎(chǔ)上生成對(duì)后續(xù)詢問(wèn)的回復(fù)。這使得交互成為關(guān)于特定主題的連貫對(duì)話。因此,如果特征(a)是對(duì)一個(gè)觀點(diǎn)的描述,那么特征(b)就可以被構(gòu)建為對(duì)該觀點(diǎn)的闡述和澄清。

如圖 3 所示,這項(xiàng)研究設(shè)計(jì)并開(kāi)發(fā)了一個(gè)主動(dòng)構(gòu)思界面,使用了生成式預(yù)訓(xùn)練 Transformer(GPT)對(duì)話式人工智能系統(tǒng),該系統(tǒng)嵌入了一個(gè)交互式情緒板(moodboard)。GPT 為自然語(yǔ)言交互提供了基礎(chǔ),使其能夠根據(jù)用戶輸入做出響應(yīng)并生成創(chuàng)意陳述,情緒板提供了一種快速記錄這些想法的手段。因此,該界面為設(shè)計(jì)師提供了一個(gè)對(duì)話式的直觀平臺(tái),由 GPT 驅(qū)動(dòng)創(chuàng)意生成。

由于本研究調(diào)查的是建議的基于 CAI 的構(gòu)思界面對(duì)新手設(shè)計(jì)師的潛在益處,因此招募了 30 名產(chǎn)品設(shè)計(jì)研究生(下圖),分為 A 和 B 兩組。

圖片

論文對(duì)這 30 名新手設(shè)計(jì)師進(jìn)行了試點(diǎn)研究,讓他們使用傳統(tǒng)方法和基于 CAI 的新界面,針對(duì)給定問(wèn)題產(chǎn)生創(chuàng)意。然后,讓專家小組使用流暢性、新穎性和多樣性等關(guān)鍵參數(shù)對(duì)結(jié)果進(jìn)行了定性比較。

研究結(jié)果表明,本文所提出的 AI 工具在生成多產(chǎn)、多樣和新穎的想法方面非常有效。通過(guò)在每個(gè)構(gòu)思階段加入提示設(shè)計(jì)的結(jié)構(gòu)化對(duì)話風(fēng)格,使界面更加統(tǒng)一,更方便設(shè)計(jì)者使用。結(jié)果發(fā)現(xiàn),這種結(jié)構(gòu)化 CAI 界面所產(chǎn)生的反應(yīng)更加簡(jiǎn)潔,并與隨后的設(shè)計(jì)階段(即構(gòu)思階段)保持一致。

圖片

從圖 5(a)中可以看出,68% 的專家認(rèn)為 GPT 產(chǎn)生的想法更有意義。此外,圖 5 (b) 顯示,GPT 生成的語(yǔ)句的得票率始終高于設(shè)計(jì)者生成的想法。

下表是 A 和 B 兩組的想法陳述對(duì)比:

以下是不同維度下,人類與 GPT 構(gòu)思的評(píng)估結(jié)果對(duì)比:

圖片

圖片

更多研究細(xì)節(jié),可查看原論文。

結(jié)語(yǔ)

創(chuàng)新,長(zhǎng)久以來(lái)被視為人類不可被機(jī)器觸及的領(lǐng)地,然而,LLM 所展現(xiàn)的「幻覺(jué)」現(xiàn)象卻悄然打開(kāi)了這扇門(mén),揭示了創(chuàng)新機(jī)制可能并非我們想象中那般高不可攀。

近期在 AI 創(chuàng)造性研究領(lǐng)域的突破,預(yù)示著 AI 在創(chuàng)意之路上或?qū)⒂瓉?lái)前所未有的廣闊天地。展望未來(lái),或許在不遠(yuǎn)的將來(lái),我們將見(jiàn)證 AI 科學(xué)家、AI 導(dǎo)演、AI 設(shè)計(jì)師們紛紛揮灑創(chuàng)意,它們的作品將點(diǎn)亮 AI 應(yīng)用的嶄新篇章。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-04-27 08:40:00

OpenAI谷歌AI

2020-07-27 10:30:41

人工智能機(jī)器學(xué)習(xí)技術(shù)

2017-11-28 14:18:29

2018-06-28 09:07:58

2025-01-24 09:30:00

2019-12-16 14:33:01

AI人工智能斯坦福

2023-02-14 09:45:11

模型測(cè)試

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2023-05-23 09:34:16

科學(xué)家AI

2012-12-06 15:36:55

CIO

2025-01-17 10:26:19

模型開(kāi)發(fā)ChatGPT

2023-07-18 13:56:23

福坦斯

2020-09-14 09:48:27

AI 數(shù)據(jù)人工智能

2021-08-24 14:49:00

計(jì)算開(kāi)發(fā) 技術(shù)

2014-11-03 09:15:34

阿里云IDST

2023-10-12 14:18:06

2017-04-12 19:49:43

連尚網(wǎng)絡(luò)國(guó)際萬(wàn)維網(wǎng)大會(huì)WWW2017

2023-05-04 12:35:39

AI科學(xué)

2024-11-26 10:44:18

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)