斯坦福AI科研神器開源,一鍵成文GPT-4o mini加持!科研寫作徹底解放雙手
AI寫作神器,竟被斯坦福開源了!
在OpenAI與Perplexity絞盡腦汁去動谷歌搜索的蛋糕時,斯坦福研究團隊卻「于無聲處響驚雷」,一鳴驚人推出了支持避開信息盲點、全面整合可靠信息、從頭寫出維基長文的STORM&Co-STORM系統(tǒng)。
圖片
背后模型是由必應搜索,以及GPT-4o mini加持。
圖片
簡單來講,STORM&Co-STORM系統(tǒng)分為兩部分。
STORM通過讓「LLM專家」與「LLM主持人」進行多角度問答,以此從提綱,到段落與文章的迭代式生成。
Co-STORM則是能夠通過讓多智能體之間互相對話并生成可交互的動態(tài)思維導圖,以避免遺漏掉用戶沒注意到的信息需求。
該系統(tǒng)只需輸入英文主題詞,就能生成有效整合了多源信息的高質量長文(如維基百科文章)。
圖片
體驗鏈接:https://storm.genie.stanford.edu/
進入主頁,可以自選模式STORM和Co-STORM。
圖片
給定主題后,STORM便可以在3分鐘內就形成如下演示中的一篇「形神兼?zhèn)洹沟慕Y構化高質量長文。
圖片
我們也可以在給出的文章上面點擊「See BrainSTORMing Process」來獲取如下圖所示中,不同LLM Role的頭腦風暴過程。
圖片
在「發(fā)現(xiàn)」欄中,還可以參考當前其他學者生成的一些文章,以及聊天的示例。
圖片
另外,個人生成的文章和聊天記錄,都可以在側邊欄My Library中找到。
系統(tǒng)一經發(fā)布,大家紛紛上手體驗,許多人驚嘆道,STORM & Co-STORM實在讓人眼前一亮!
「你只需輸入一個主題,它就會搜索數(shù)百個網(wǎng)站,然后把主要發(fā)現(xiàn)寫成一篇文章。關鍵是每個人都可以免費使用!」
圖片
網(wǎng)友Josh Peterson更是利用STORM,第一時間去結合NotebookLLM自動生成了播客。
具體流程是這樣的:使用STORM生成4篇文章,然后將其中2篇提交給GPT-4o分析并提出后續(xù)主題。最后再把它們添加到NotebookLM里,一期有聲的播客就做好了。
圖片
網(wǎng)友Pavan Kumar則是認為STORM揭示了一個重大趨勢:「 就算是沒有博士學歷,也可以創(chuàng)作出現(xiàn)階段博士生才能有的成果。而將來一年的課程內容也足以媲美如今4-7年才能修讀到的課程內容。」
圖片
STORM協(xié)助從頭寫出維基好文
圖片
論文鏈接:https://arxiv.org/pdf/2402.14207
傳統(tǒng)長文寫作(如維基百科文章)需要大量人工進行寫作前的準備,包括資料搜集和大綱構建,而目前的生成式寫作方法通常忽略這些步驟。
但是這也意味著生成文章往往面臨著信息角度覆蓋不周到,文章內容不夠充實的問題。
而STORM可以通過多個LLM-Role互相提問與回答來讓文章內容所涉及的角度更加詳實周全。
如下圖所示,STORM系統(tǒng)分為三大階段:
1. 多視角問題生成:
- 為了覆蓋主題的不同方面,系統(tǒng)引入多角色模擬(如專家、普通用戶),并生成視角引導的問題- 圖(A)顯示了簡單問題生成的效果有限,圖(B)演示了通過視角引導問題生成的多樣性提升
2. 大綱生成與完善:
- 使用模型的內置知識生成初步大綱。- 系統(tǒng)通過對話(圖C)模擬提問并完善大綱,使其更具深度
3. 全文生成:
- 基于大綱逐節(jié)生成文章,利用檢索到的信息增加內容可信度和引用
圖片
從給定的主題入手,STORM系統(tǒng)通過查閱相關的維基百科文章(步驟1-2)來確定涵蓋該主題的各種視角。
接著,它會模擬這樣一場對話:一方是維基百科撰寫者,其會依據(jù)給定視角提出問題,另一方則是基于可靠網(wǎng)絡來源的專家(步驟3-6)。
根據(jù)LLM的固有知識, 從不同視角收集到的對話內容, 最終精心編排了寫作大綱(步驟7-8)。
STORM系統(tǒng)自動化寫作的整體流程
由于早期的研究采用了不同的設置,并未使用大語言模型(LLM),因此難以直接進行比較。
所以研究者使用了以下三種基于LLM的基線方法:
1. Direct Gen:一種直接提示LLM生成提綱的基線方法,生成的提綱隨后用于創(chuàng)作完整的文章。
2. RAG:一種檢索增強生成(Retrieval-Augmented Generation)基線方法,該方法通過主題進行搜索,并利用搜索結果與主題一起生成提綱或完整的文章。
3. oRAG(提綱驅動的RAG):與RAG在提綱創(chuàng)建上完全一致,但進一步通過章節(jié)標題檢索額外信息,以逐章節(jié)地生成文章內容。
圖片
從上表可以發(fā)現(xiàn),利用STORM生成的文章完全不輸于人類水平,并且也優(yōu)于目前LLM生成文章的幾種范式,如效果最強的oRAG。
但不可否認的是,STORM生成文章的質量在中立性和可驗證性方面仍然落后于經過精心修訂的人工撰寫文章。
雖然STORM在研究給定主題時發(fā)現(xiàn)了不同的視角,但收集的信息可能仍然傾向于互聯(lián)網(wǎng)的主流來源,并可能包含促銷內容。
該研究的另一個局限性是,盡管研究者專注于從零開始生成類似維基百科文章,但他們也僅考慮生成自由組織的文本。而人工撰寫的高質量維基百科文章通常包含結構化數(shù)據(jù)和多模態(tài)信息。
因此,目前利用LLM生成文章所面臨的最關鍵的挑戰(zhàn),依然是基于事實去生成擁有多模態(tài)結構的高質量文章。
智能體溝通打破人類盲點,顯著降低認知負擔
對于一些學習任務來講,在搜集整合信息中,通常會由于個人或搜索引擎偏好而造成信息遺漏,以至于無法觸及信息盲點(即未意識到的信息需求)。
研究團隊在下列論文中所提出的Co-STORM正是為了改善這一情況,以大幅促進學習效率。
圖片
論文鏈接:https://www.arxiv.org/abs/2408.15232
在學習工作中,使用搜索引擎面臨著需要閱覽過多的冗余信息,而和Chatbots問答聊天,則又不知道如何進行準確的提問。但是這兩種獲取信息的方式都無法觸及「信息盲點」,況且認知負擔還不小。
那如果閱讀現(xiàn)有的一些報道呢?這雖然降低了認知負擔,但并不支持交互,無法讓我們去更進一步的進行深度學習。
而與上述信息獲取方式不同,Co-STORM智能體能夠代表用戶提問,能夠多方位地獲取新信息,探索到自己的「信息盲點」。然后通過動態(tài)思維導圖組織信息,并最終生成綜合報告。
圖片
如下圖所示,Co-STORM由以下模塊組成:
- 多智能體協(xié)作對話:由「專家」和「主持人」進行模擬對話,探討主題各個方面的相關內容。
- 動態(tài)思維導圖:實時追蹤對話內容,將信息按層次組織,幫助用戶理解和參與。
- 報告生成:系統(tǒng)基于思維導圖生成引用明確、內容翔實的總結報告。
圖片
為了更真實地反映用戶體驗,研究者對20名志愿者進行了人類評估,比較了Co-STORM與傳統(tǒng)搜索引擎和RAG Chatbot的表現(xiàn)。結果顯示:
1. 信息探索體驗:
- Co-STORM顯著提升了信息的深度和廣度
- 用戶發(fā)現(xiàn)其能夠有效引導探索盲點
2. 用戶偏好:
- 70%的用戶更喜歡Co-STORM,認為其顯著減少了認知負擔- 用戶特別認可動態(tài)思維導圖對跟蹤和理解信息的幫助
圖片
不過,目前STORM&Co-STORM還僅支持英語交互,未來或許官方團隊會將其擴展至擁有多語言交互能力。
圖片
最后,正如網(wǎng)友TSLA的感受一樣,「我們正生活在一個非凡的時代。今天,不僅所有的信息都變得觸手可及,甚至連信息獲取的方式也可以完全根據(jù)自己的水平量身定制,讓學習任何東西都成為可能?!?/span>
圖片
主要作者介紹
Yucheng Jiang是斯坦福大學計算機科學專業(yè)的碩士研究生。
他的研究目標是通過創(chuàng)建能夠與用戶無縫協(xié)作的系統(tǒng),提升學習能力、決策效率和工作生產力。
Yijia Shao是斯坦福大學自然語言處理(NLP)實驗室的二年級博士生,由楊笛一教授指導。
此前,她是北京大學元培學院的本科生,通過與Bing Liu教授的合作,開始接觸并從事機器學習和自然語言處理的研究。
參考資料:
https://x.com/dr_cintas/status/1874123834070360343
https://storm.genie.stanford.edu/