自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="yk8he"><p id="yk8he"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析精華

發(fā)布于 2024-8-26 01:41

瀏覽

0收藏

今天分享一篇最近比較熱門的日本創(chuàng)業(yè)公司Sakana AI的一篇文章，標(biāo)題為《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一種名為“AI Scientist”的框架，旨在實現(xiàn)端到端完全自動化的科學(xué)發(fā)現(xiàn)，完成從Idea構(gòu)建，實驗跑取，文章撰寫的完全自動化。驗證了AI自動化探索新問題，解決新問題，甚至撰寫Paper的可行性。同時還提出了一個能與人類評委水準(zhǔn)接近的Review Agent，能夠給出高水準(zhǔn)的評審意見。

總體來說，其還是一個多agent系統(tǒng)，利用了reflection機(jī)制迭代優(yōu)化效果，同時也結(jié)合Semantic Scholar等工具驗證創(chuàng)新性，利用Aider工具來更新代碼和Paper，來執(zhí)行相關(guān)實驗。同時也要看到其只是搭了一個基礎(chǔ)的Baseline通道，如何提升Idea生成的深度以及多樣性，如何讓LLM能實現(xiàn)更復(fù)雜，更有挑戰(zhàn)性的Idea，如何降低Review Agent的False Positive Rate（FPR）都值得進(jìn)一步探索。

本文將對其背后的技術(shù)，優(yōu)缺點進(jìn)行詳細(xì)的分析～

一、概述

1. Motivation

? 盡管前沿模型已被用作人類科學(xué)家的輔助工具，如頭腦風(fēng)暴、編寫代碼或預(yù)測任務(wù)，但它們?nèi)詢H完成了科學(xué)過程的一小部分。
? 本文提出了第一個全面的框架，用于實現(xiàn)完全自動化的科學(xué)發(fā)現(xiàn)，使前沿大型語言模型能夠獨立進(jìn)行研究并傳達(dá)其發(fā)現(xiàn)。

2. Method

文章介紹了“AI科學(xué)家”框架，該框架包括三個主要階段：

1.想法生成：AI科學(xué)家首先“頭腦風(fēng)暴”出一系列新穎的研究方向，然后在此基礎(chǔ)上進(jìn)行創(chuàng)新性迭代優(yōu)化，最后篩選創(chuàng)新性較高的idea。

2.實驗迭代：根據(jù)想法和模板，AI科學(xué)家首先執(zhí)行提出的實驗plan，然后根據(jù)實驗結(jié)果，迭代優(yōu)化實驗，最后更新plot代碼，可視化其結(jié)果以供后續(xù)撰寫，代碼通過AIder工具來更新。

3.論文撰寫：AI科學(xué)家使用LaTeX撰寫完整的科學(xué)論文，描述其進(jìn)展。

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 輸入：總體就兩個輸入，Baseline Code，以及論文Latex模板，加上init paper的一些信息。

? Baseline code：a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes

? Latex模版：LaTeX folder that containsstyle files and section headers, along with simple plotting code.

? 輸出：完整的Paper

1 Idea generate過程

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

?輸入：code template

?輸出：some ideas

?代碼：??https://github.com/SakanaAI/AI-Scientist/blob/main/ai_scientist/generate_ideas.py??

? generate_ideas：idea生成

? generate_next_idea：在seed的基礎(chǔ)上繼續(xù)生成新的idea

? search_for_papers：調(diào)用api search paper

? check_idea_novelty：檢查并優(yōu)化創(chuàng)新性

1.1 Idea Generation Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

?優(yōu)點：對diversity做了優(yōu)化和限制，引入了COT機(jī)制。

?缺點：idea全靠LLM內(nèi)部信息想出來，思考的知識有限，更新也不及時，不太能及時follow最新知識，不過內(nèi)部知識能做到什么粒度其實還不太確定，另外內(nèi)部知識其實是缺乏新知識的，這對科學(xué)研究非常致命。

1.2 Idea Novelty Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

?特點：用于搜索num_rounds相關(guān)的paper來檢查優(yōu)化創(chuàng)新性，如果每次沒search到相關(guān)內(nèi)容，還知道去更新Query重新search，最多探索num_rounds，思路看起來不錯。

? 缺點：還是創(chuàng)新全部源于LLM內(nèi)部知識。

2 Experiments過程

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 輸入：idea + template

? 輸出：experiment result + experiment figures

? 實現(xiàn)方式：通過Aider更新代碼，然后執(zhí)行命令行跑取模型結(jié)果。

? Aider平臺，可以通過命令更新代碼：https://github.com/paul-gauthier/aider?

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

2.1 Experiment Running Aider Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 特點：先也會有一個plan，然后分別實現(xiàn)experiments

? 缺點：沒具體講如何實現(xiàn)Experiment的，Aider看著是個平臺，可能可以直接用，但是改代碼很容易出錯，穩(wěn)定性存疑。

2.2 Plotting Aider Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 特點：生成plot，還有description，后續(xù)用于添加到論文中。

3 Paper Writing流程

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 輸入：Latex模版 + Experiments recorded notes + plots，Latex模板圖如下，也是用Aider工具來修改?

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 輸出：paper

3.1 Paper Writing Aider Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 特點：提供每個section的建議+latex的template+plan

?缺點：Aider是個啥，感覺writing比較有用的樣子。

4 Reviewer Agent流程

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 輸入：PDF manuscript

? 輸出：Paper Review Result

? 優(yōu)點：參考了neurips ReviewerGuidelines，同時引入reflection，few-shot來提升效果。

4.1 Paper Review Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 特點：引入neurips guideline和few_shot_example。

4.2 Paper Review Reflection Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 特點：經(jīng)過多輪迭代 + COT思考

4.3 Paper Review Ensembling Prompt

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

? 特點：還有個匯總的，優(yōu)點self-consistant的感覺

5 反思和迭代次數(shù)

AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析-AI.x社區(qū)

3. Coclusion

文章搭建了一個AI Scientist，通過三個子任務(wù)驗證了其可行性：擴(kuò)散模型、Transformer和Groking。并且每種想法的實現(xiàn)和開發(fā)成本不到15美元。表明了該框架在Research研究和顯著加速科學(xué)進(jìn)步方面的潛力。

? 搭建了一個完整的科研鏈路Agent：idea -> Experiments -> Paper，還真work了。

? 附帶送了一個接近人類水平的Paper Review Agent，效果也還不錯。

4. Limitation

? 生成的Idea經(jīng)常非常相似，甚至不同模型，不同run都會有很類似的idea。

? Aider實現(xiàn)ideas有困難，GPT-4o寫Latext常不能編譯，有些idea實現(xiàn)challenging比較大。

? plot的圖像也可能有問題，而且還不止是vision，可能看不出效果。

? Latext的cite和reference可能有問題。

? LLM數(shù)學(xué)能力不太好，對metric不敏感。

? 幻覺。

二、詳細(xì)內(nèi)容

1 LLM Paper Review水平在ICLR2022數(shù)據(jù)集上已經(jīng)接近人類水平

? 特點：精度和人類比較接近（balanced 0.65 vs 0.66），F(xiàn)alse Negative Rate（FNR）更低，F(xiàn)alse Positive Rate（FPR）偏高，說明也有打分偏高的情況。

2 Reflexion和one-shot能提升Reviewing效果

? 結(jié)論：從0.66提升到0.70，看著還不錯。Ensemble后精度沒有提升，但是variance有降低。

3 Diffusion Modeling優(yōu)化效果

? **結(jié)論1:Sonnet3.5看著比GPT-4o好很多啊，而且還更便宜，完成Paper率居然接近80%**，還是很厲害。

?結(jié)論2:DeepSeek Coder是性價比之王。

?其他：DIffusion Modeling感覺都是比較老的模型了，利用LLM生成的idea可能都是訓(xùn)練過的了，可能并不能代表真正的創(chuàng)新。

4 Language Modeling優(yōu)化效果

?結(jié)論: 這次完成率只有40%了，這個差異好大，跟猜測的一樣，coding可能非常不穩(wěn)定，另外DeepSeek Coder確實厲害。

5 Grokking優(yōu)化效果

?結(jié)論：不同paper，不同LLM基座的Noval Ideas居然都超過90%，但是Experiments的完成率差異非常大。?

本文轉(zhuǎn)載自 ??NLP PaperWeekly??，作者： NLP PaperWeekly

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

曾爆火的 InstantID又有了新玩法：風(fēng)格化圖像生成，已開源

輕薄滴假象 ? 2863瀏覽 ? 0回復(fù)
Sora爆火短頻“氣球人”制作者親述優(yōu)缺點：視頻其實都是專業(yè)制作，Sora占一小部分；一致性不能很好控制

51CTO技術(shù)棧 ? 3939瀏覽 ? 0回復(fù)
ControlNet作者新作爆火：P照片換背景不求人，AI打光完美融入

Crystalcxt ? 3015瀏覽 ? 0回復(fù)
史上最丑AI生圖一夜爆火！又一款妙鴨級爆品來了？

duhorse ? 3285瀏覽 ? 0回復(fù)
數(shù)據(jù)分析師噩夢？ChatGPT實時互動分析Excel數(shù)據(jù)，網(wǎng)友挖出背后新模型

duhorse ? 2417瀏覽 ? 0回復(fù)
快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

輕薄滴假象 ? 3669瀏覽 ? 0回復(fù)
常見幾種大語言模型壓縮技術(shù)分析詳解

AIGC觀察者 ? 2816瀏覽 ? 0回復(fù)
性能打平GPT-4o，神速牽手爆火的FLUX 生成超逼真圖像！缺點：生成的每個總統(tǒng)都是特朗普

51CTO技術(shù)棧 ? 2501瀏覽 ? 0回復(fù)
AI實時生成游戲，每秒20幀輸出，DeepMind擴(kuò)散模型最新突破一夜爆火

Crystalcxt ? 1936瀏覽 ? 0回復(fù)
OpenAI 的 ?Sora 技術(shù)報告詳解

wsp_ping ? 1995瀏覽 ? 0回復(fù)
最近爆火的GraphRAG是什么，真的能用于商業(yè)應(yīng)用嗎？

AI博物院 ? 2153瀏覽 ? 0回復(fù)
當(dāng)ChatGPT爆火后，大語言模型LLM的完整修煉之路 | 為什么說AI Agent還不夠？

sbf_2000 ? 1881瀏覽 ? 0回復(fù)
DeepSeek 驚艷背后的技術(shù)架構(gòu)創(chuàng)新剖析

玄姐聊AGI ? 8186瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動了全球 AI 圈

玄姐聊AGI ? 6517瀏覽 ? 1回復(fù)
DeepSeek爆火：普通人跨越AI提效終局的10倍進(jìn)化指南

ermulong ? 1649瀏覽 ? 0回復(fù)
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技術(shù)棧 ? 1659瀏覽 ? 0回復(fù)
爆火 | API 終將淘汰，MCP+LLM+向量數(shù)據(jù)庫才是 Agent 開發(fā)新范式

玄姐聊AGI ? 2140瀏覽 ? 0回復(fù)
一文講透兩大框架的優(yōu)缺點和適用場景

AI博物院 ? 1093瀏覽 ? 0回復(fù)
這才是MCP 爆火的原因！

hm673c38238a021 ? 100瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

香港科技大學(xué)聯(lián)合DeepSeek-AI推出CODEI/O：讓AI學(xué)會“濃縮”推理模式 9天前發(fā)布
中國科大認(rèn)知全重實驗室發(fā)布Agent-R1訓(xùn)練框架，支持自主思考與工具調(diào)用！ 2025-04-09 06:29:20發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： DeepMind | 在生成的過程中進(jìn)行檢索：一種有潛力完全替代RAG的思路"RICHES"

下一篇：大模型時代信息抽取任務(wù)該何去何從？復(fù)旦發(fā)布InstructUIE提升大模型信息抽取能力

社區(qū)精華內(nèi)容

目錄

<style id="i17cn"></style>

<legend id="i17cn"><track id="i17cn"></track></legend>

<sub id="i17cn"></sub>

<sub id="i17cn"></sub>

<s id="i17cn"></s>