自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="fgrta"></style>

<p id="fgrta"></p>

<sub id="fgrta"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AMD把o1煉成了實驗室助手，自動科研經(jīng)費節(jié)省84%

2025-01-10 14:14:44

這個AI系統(tǒng)代號“Agent Laboratory”，全程由LLM（大語言模型）驅(qū)動完成文獻(xiàn)綜述、實驗，以及報告，一站式搞定科學(xué)研究。

芯片強(qiáng)者AMD最新推出科研AI，o1-preview竟成天選打工人？！

注意看，只需將科研idea和相關(guān)筆記一股腦丟給AI，研究報告甚至是代碼就能立馬出爐了。

這個AI系統(tǒng)代號“Agent Laboratory”，全程由LLM（大語言模型）驅(qū)動完成文獻(xiàn)綜述、實驗，以及報告，一站式搞定科學(xué)研究。

對了，在GPT-4o、o1-mini以及o1-preview這幾位科研助理當(dāng)中，作者們發(fā)現(xiàn)o1-preview產(chǎn)出的研究成果最佳。

而且整體上，與現(xiàn)有方法相比，由AI生成的代碼能夠?qū)崿F(xiàn)SOTA性能。

同時，如果人類在每個過程給予反饋，研究的整體質(zhì)量也會大大提高。

總體而言，與之前的自主研究方法相比，Agent Laboratory將研究費用減少了84%。

Okk，這也再次印證了人們的預(yù)想，人類與AI協(xié)同將帶來更具性價比的方式加速科研。

最后，我們也扒了扒論文作者們，結(jié)果意外發(fā)現(xiàn)7/9為華人面孔——

從文獻(xiàn)到報告，AMD科研AI一站式搞定

先來看Agent Laboratory是如何工作的。

如圖所示，主要有三個階段：文獻(xiàn)綜述→實驗→撰寫報告，每一階段都有不同的任務(wù)、工具和AI Agent角色（比如PhD、博士后Postdocto等）。

PhD Student負(fù)責(zé)文獻(xiàn)綜述

展開來說，在文獻(xiàn)綜述階段，PhD Student這一角色負(fù)責(zé)主要執(zhí)行。它利用arXiv API來檢索相關(guān)論文，并進(jìn)行三個動作：

一抓摘要：檢索出與初始查詢最相關(guān)的前20篇論文的摘要；
二抓單篇全文：對于某些具有重要參考價值的論文，提取其完整內(nèi)容；
三添加論文：將經(jīng)過篩選的論文摘要或全文納入到文獻(xiàn)綜述中；

需要注意的是，最后一個過程并非一次性完成，而是一個迭代的過程。

換句話說，只有當(dāng)通過add paper（添加論文）命令達(dá)到指定數(shù)量（N = max）的相關(guān)文本時，文獻(xiàn)綜述才會最終確定。

接下來進(jìn)入實驗環(huán)節(jié)。

如圖所示，主要有四個過程：計劃制定→數(shù)據(jù)準(zhǔn)備→運(yùn)行實驗→結(jié)果解釋。

PhD Student+Postdoc通過對話制定實驗計劃

簡單說，根據(jù)綜述結(jié)果和既定研究目標(biāo)，PhD Student+Postdoc會通過對話來制定詳細(xì)、可執(zhí)行的實驗計劃。

計劃一般包括具體實驗步驟、選用何種機(jī)器學(xué)習(xí)模型、篩選合適的數(shù)據(jù)集以及規(guī)劃實驗的高級流程框架等關(guān)鍵要素。

在達(dá)成一致意見后，Postdoc這一角色會使用plan命令提交計劃，此計劃將作為后續(xù)所有實驗相關(guān)子任務(wù)的重要行動指南。

ML Engineer用Python準(zhǔn)備數(shù)據(jù)

然后ML Engineer會在下一階段用Python來處理和準(zhǔn)備實驗所需的數(shù)據(jù)。

過程中，這一角色可以利用search HF命令在HuggingFace數(shù)據(jù)集中進(jìn)行搜索，以獲取合適的數(shù)據(jù)資源。

寫完代碼后，ML Engineer會先將代碼通過Python編譯器進(jìn)行檢查，確保沒有編譯錯誤。若存在問題，則會進(jìn)行迭代修改，直至代碼能夠順利運(yùn)行且無錯誤，最終使用submit code命令提交經(jīng)過驗證的數(shù)據(jù)準(zhǔn)備代碼，為后續(xù)實驗提供可靠的數(shù)據(jù)基礎(chǔ)。

ML Engineer借助專用模塊運(yùn)行實驗

搓搓手，下面正式進(jìn)入實驗運(yùn)行環(huán)節(jié)。

概括而言，ML Engineer會借助mle-solver這一專門設(shè)計的模塊，來實施和執(zhí)行先前制定的實驗計劃。

mle-solver的工作流程如下：

命令執(zhí)行

圖（A）部分，從一組預(yù)先維護(hù)的高性能程序中采樣出一個初始程序，在后續(xù)的迭代過程中，通過EDIT和REPLACE兩種操作對程序進(jìn)行不斷優(yōu)化。

EDIT允許在指定的代碼行范圍內(nèi)，用新生成的代碼替換原有代碼，從而實現(xiàn)對程序功能的局部調(diào)整；REPLACE則更為激進(jìn)，它會生成一個全新的Python文件，用于在需要對程序結(jié)構(gòu)或整體邏輯進(jìn)行重大改變時使用。

代碼執(zhí)行

圖（B）部分，執(zhí)行代碼命令后，新程序會立即通過編譯器進(jìn)行檢查，以識別和處理可能出現(xiàn)的運(yùn)行時錯誤。

若程序成功編譯，將根據(jù)預(yù)先設(shè)定的評估標(biāo)準(zhǔn)對其進(jìn)行評分，并與現(xiàn)有的程序進(jìn)行比較。若新程序得分更高，則會更新最優(yōu)程序列表。

若代碼未能通過編譯，ML Engineer會嘗試進(jìn)行最多Nrep（在實驗中設(shè)定為3次）的修復(fù)操作，若仍無法解決問題，則會放棄當(dāng)前程序，重新選擇或生成新的代碼進(jìn)行替換。

程序評分

圖（C）部分，采用LLM獎勵模型對成功編譯的代碼進(jìn)行評分。

該模型會綜合考慮研究計劃的目標(biāo)、生成的代碼邏輯以及實際的實驗輸出結(jié)果等多方面因素，在0到1的范圍內(nèi)對程序進(jìn)行量化評估。得分越高，表示程序與初始研究目標(biāo)的契合度越高，能夠更有效地實現(xiàn)預(yù)期功能。

自我反思

圖（D）部分，無論代碼執(zhí)行結(jié)果是成功還是失敗，mle-solver都會基于實驗結(jié)果或遇到的錯誤信號進(jìn)行自我反思。

如果程序編譯失敗，它會思考如何在后續(xù)的迭代中避免或解決類似的問題；若程序成功編譯并獲得評分，它會分析如何進(jìn)一步提高程序的性能和得分，通過這種不斷學(xué)習(xí)和改進(jìn)的機(jī)制，確保系統(tǒng)能夠持續(xù)提升生成代碼的質(zhì)量和穩(wěn)定性。

性能穩(wěn)定化

圖（E）部分，為防止性能波動，mle-solver采用了兩種關(guān)鍵機(jī)制。

一是頂級程序采樣，通過維護(hù)一個高質(zhì)量程序的集合，在執(zhí)行命令前隨機(jī)從中采樣一個程序，這樣既保證了程序的多樣性，又能確保所選用的程序具有較高的質(zhì)量基準(zhǔn)；

二是批量并行化，在每個求解步驟中，同時進(jìn)行多個代碼修改操作，并選擇其中性能最佳的修改結(jié)果來替換當(dāng)前最優(yōu)程序集合中得分最低的程序。

PhD Student+Postdoc共同討論分析實驗結(jié)果

執(zhí)行結(jié)束后，PhD Student+Postdoc會深入探討mle-solver生成的實驗結(jié)果，結(jié)合自身的專業(yè)知識和前期的研究背景，對結(jié)果進(jìn)行全面解讀。

一旦雙方認(rèn)為結(jié)果合理且具備學(xué)術(shù)價值，Postdoc就會使用interpretation命令提交該解釋，為后續(xù)的報告撰寫階段提供關(guān)鍵的內(nèi)容基礎(chǔ)。

PhD Student+Professor撰寫完整報告

進(jìn)入最后的報告撰寫環(huán)節(jié)，PhD Student和Professor會通過一個名為 “論文求解器”（paper-solver）的專門模塊完成任務(wù)。

需要提醒，paper - solver并非用來完全取代學(xué)術(shù)論文撰寫流程，而是以一種人類可讀的格式總結(jié)已完成的研究，以便使用 “Agent Laboratory” 的研究人員了解已取得的成果。

通常來說，其工作流程包括以下步驟：

初始報告框架生成：生成符合學(xué)術(shù)標(biāo)準(zhǔn)結(jié)構(gòu)且含占位符、滿足LaTeX編譯和學(xué)術(shù)慣例的報告初始框架。
arXiv研究：可按文獻(xiàn)綜述接口訪問arXiv拓展文獻(xiàn)資料完善報告（非強(qiáng)制但很有幫助）。
編輯報告：用EDIT命令按照多因素對論文LaTeX代碼行精確迭代編輯并編譯驗證，提升報告質(zhì)量。
論文評審：用LLM Agent模擬NeurIPS流程多維度評估論文，測試準(zhǔn)確性接近人類評審員。
完善論文：由三個評審Agent生成意見，PhD Student依此判斷是否修訂，必要時回溯前期環(huán)節(jié)修改至達(dá)標(biāo)。

o1-preview科研能力最強(qiáng)

通過以上三個主要階段，Agent Laboratory就完成了整個科研流程。

接下來，研究人員用GPT-4o、o1-mini以及o1-preview來評估實驗質(zhì)量、報告質(zhì)量和有用性，這3個AI在沒有人類任何參與的情況下完成了15篇論文。

然后普通人（人工審稿人）被要求根據(jù)以下五個問題對它們進(jìn)行1—5評分，結(jié)果如圖所示。

綜合來看o1-preview對研究最有幫助， o1-mini的實驗質(zhì)量得分最高，而GPT-4o全面墊底。

語言模型是否表現(xiàn)出認(rèn)知偏差，比如確認(rèn)偏差或錨定偏差？
圖像Transformer相較于卷積網(wǎng)絡(luò)，對像素噪聲的敏感度是更高還是更低？
當(dāng)被要求進(jìn)行鑒別診斷時，語言模型在醫(yī)學(xué)問答（MedQA）上的準(zhǔn)確性會提高嗎？
在多項選擇題基準(zhǔn)測試中，語言模型對詞序敏感嗎？
性別角色是否會影響語言模型回答數(shù)學(xué)問題的準(zhǔn)確性？

然后作者們還探討了人工審稿與自動審稿的區(qū)別有多大。

二者差異顯著，且自動審稿傾向于高估論文分?jǐn)?shù)。

具體來說，與平均水平的NeurIPS論文得分相比，自動審稿平均為6.1/10，人工審稿為3.8/10。

而在GitHub，作者們也透露了讓研究效果更好的技巧。

撰寫詳細(xì)的筆記；
使用更強(qiáng)大的模型；

另外，如果用戶丟失進(jìn)度、斷開互聯(lián)網(wǎng)或子任務(wù)失敗，可以使用「檢查點恢復(fù)工作進(jìn)度」功能。

甚至也支持切換到中文模式。

背后團(tuán)隊過半數(shù)是華人

最后介紹一下Agent Laboratory背后的作者們，他們幾乎全是在去年加入AMD。

Samuel Schmidgall，目前是霍普金斯大學(xué)電氣與計算機(jī)工程博士，也是DeepMind學(xué)生研究員。

從去年10月開始，他在AMD進(jìn)行語言Agent方面的實習(xí)。

更早之前還在美國海軍研究實驗室探索機(jī)器人強(qiáng)化學(xué)習(xí)，以及在斯坦福大學(xué)研究心血管外科方面的語言&視覺大模型。

Yusheng Su，去年8月加入AMD GenAI團(tuán)隊的研究科學(xué)家，專注于模型數(shù)據(jù)、模型架構(gòu)和訓(xùn)練效率優(yōu)化。

他2019年畢業(yè)于政治大學(xué)（base臺北），后獲得清華大學(xué)CS博士學(xué)位（期間研究大模型預(yù)訓(xùn)練）。

更早之前，他還在微軟云計算部門有過一段實習(xí)經(jīng)歷。

Ze Wang，去年5月加入AMD GenAI團(tuán)隊的應(yīng)用研究科學(xué)家。

他2017年本科畢業(yè)于北航電氣與電子工程專業(yè)，后分別于美國杜克大學(xué)和普渡大學(xué)讀了電子與計算機(jī)工程PhD。

更早之前，還在Facebook AI和微軟實習(xí)過。

Ximeng Sun，去年6月加入AMD的應(yīng)用科學(xué)家。

她2018年畢業(yè)于密歇根大學(xué)拉克哈姆研究生院的計算機(jī)專業(yè)，后于波士頓大學(xué)取得CS博士學(xué)位。

加入AMD之前，她前后在IBM、谷歌和Meta進(jìn)行了實習(xí)。

Jialian Wu (吳嘉濂)，去年4月加入AMD GenAI團(tuán)隊的研究科學(xué)家。

他在2019年本碩畢業(yè)于天津大學(xué)電子工程專業(yè)，后于紐約州立大學(xué)布法羅分校讀完CS博士。

加入AMD之前，他只在高通有過一段全職經(jīng)歷。更早之前則在亞馬遜和微軟實習(xí)過。

Xiaodong Yu（于曉棟），去年8月加入AMD GenAI團(tuán)隊的研究科學(xué)家，專注于知識檢索/忠實度、長文本理解、數(shù)學(xué)推理以及LLM/VLM訓(xùn)練等。

他2015年畢業(yè)于上海交大電子與電氣工程專業(yè)，后赴美國伊利諾伊大學(xué)香檳分校和賓大攻讀碩博。

讀書期間，他也在亞馬遜、微軟等機(jī)構(gòu)實習(xí)過。

Jiang Liu，去年4月加入AMD GenAI團(tuán)隊的研究員，方向為開發(fā)通用AI模型。

他2019年本科畢業(yè)于清華大學(xué)自動化專業(yè)，同時也在五道口金融學(xué)院學(xué)習(xí)，后于約翰斯·霍普金斯大學(xué)讀完電子與計算機(jī)專業(yè)博士。

加入AMD之前，他在AWS和微軟進(jìn)行了大語言模型方面的實習(xí)。

Zicheng Liu，去年年初入職AMD擔(dān)任高級工程總監(jiān)，研究興趣為視覺語言學(xué)習(xí)、3D人體和手部重建、動態(tài)卷積和人類活動識別。

在這之前，他在微軟工作了27年，主要負(fù)責(zé)管理計算機(jī)視覺科學(xué)組。

他還是多個國際會議的技術(shù)委員會成員，而且是《視覺傳達(dá)與圖像表示》雜志主編等。

Emad Barsoum，負(fù)責(zé)AMD生成式AI方面的副總裁，加入AMD 1年多。

曾在微軟擔(dān)任團(tuán)隊工程經(jīng)理/架構(gòu)師，共同參與創(chuàng)建了ONNX標(biāo)準(zhǔn)。這是一個開放神經(jīng)網(wǎng)絡(luò)格式交換計劃，在2017年由微軟和Facebook共同發(fā)起，它使得數(shù)據(jù)科學(xué)家和開發(fā)者可以將不同的深度神經(jīng)網(wǎng)絡(luò)框架開發(fā)的模型，直接部署到上億的Windows設(shè)備中。

加入AMD之前，他也在芯片制造公司Cerebras負(fù)責(zé)領(lǐng)導(dǎo)AI團(tuán)隊，主要是訓(xùn)練大語言模型和視覺模型。

論文：https://arxiv.org/pdf/2501.04227代碼：https://github.com/SamuelSchmidgall/AgentLaboratory。

責(zé)任編輯：姜華來源：量子位

人工智能大語言模型 LLM

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="dwav6"></blockquote>