自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<center id="ya16m"></center>}

<style id="ya16m"></style>

<sub id="ya16m"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

PPTAgent：PPT自動生成Agent框架原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-1-9 09:26

瀏覽

0收藏

來看一個PPT生成思路：PPTAgent。傳統(tǒng)的PPT生成方法通常使用端到端的文本生成范式，這種方法僅關(guān)注文本內(nèi)容，忽略了布局設(shè)計和PPT結(jié)構(gòu)。PPTAgent 采用了一種基于編輯的生成范式，解決處理空間關(guān)系和設(shè)計風(fēng)格方面的挑戰(zhàn)。

傳統(tǒng)方法的每個幻燈片S可以用以下公式表示：

PPTAgent：PPT自動生成Agent框架-AI.x社區(qū)

其中， n表示幻燈片上的元素數(shù)量，C表示由章節(jié)和圖形組成的源內(nèi)容。每個元素 e_i 由其類型、內(nèi)容和樣式屬性（如邊框、大小、位置等）定義。

與傳統(tǒng)的生成方法相比，PPTAgent 采用了一種基于編輯的生成范式，該方法生成一系列修改現(xiàn)有幻燈片的動作。過程可以用以下公式表示：

PPTAgent：PPT自動生成Agent框架-AI.x社區(qū)

其中，m表示生成的動作數(shù)量，每個動作 a_i表示一行可執(zhí)行的代碼，R_j 是正在編輯的參考幻燈片。

方法

PPTAgent：PPT自動生成Agent框架-AI.x社區(qū)

PPTAgent框架

在本文中，PPTAgent 是一個用于自動生成PPT的框架。采用基于編輯的工作流程，分為兩個階段：PPT分析和PPT生成。

階段 I: PPT分析

主要目標(biāo)是通過幻燈片聚類和內(nèi)容schema提取，為PPT生成提供結(jié)構(gòu)化和語義化的參考信息。這一階段的結(jié)果將直接影響后續(xù)階段的生成質(zhì)量和效率。

1.幻燈片聚類
幻燈片聚類（層次聚類）是將參考PPT中的幻燈片按照其功能和內(nèi)容進(jìn)行分組的過程?；脽羝梢苑譃閮纱箢悾?br>聚類算法：

PPTAgent：PPT自動生成Agent框架-AI.x社區(qū)

層次聚類

PPTAgent：PPT自動生成Agent框架-AI.x社區(qū)

聚類示例

結(jié)構(gòu)性幻燈片：這些幻燈片主要用于支持演示文稿的結(jié)構(gòu)，例如開場幻燈片、過渡幻燈片和結(jié)束幻燈片。對于此類幻燈片，PPTAgent利用LLM推斷每個幻燈片的功能角色，并根據(jù)這些角色進(jìn)行分組。這些幻燈片通常具有明顯的文本特征。
內(nèi)容性幻燈片：這些幻燈片主要用于傳達(dá)具體的信息，例如包含項目符號、圖表和圖像的幻燈片。對于此類幻燈片，PPTAgent采用基于圖像相似性的層次聚類方法。通過計算幻燈片之間的圖像相似度，將相似的幻燈片歸為一組。

2. 內(nèi)容Schema提取
完成幻燈片聚類后，PPTAgent進(jìn)一步分析每個聚類的內(nèi)容Schema，以確保編輯的目標(biāo)一致性。由于現(xiàn)實世界中的幻燈片可能非常復(fù)雜且碎片化，PPTAgent利用LLM的上下文感知能力提取多樣化的內(nèi)容Schema。PPTAgent定義了一個內(nèi)容Schema提取框架，其中每個元素由其類別、模態(tài)和內(nèi)容表示?；谶@個框架，PPTAgent通過LLM的指令遵循（原文給出了相關(guān)prompts）和結(jié)構(gòu)化輸出能力，從每個幻燈片中提取內(nèi)容Schema。提取過程如下：

類別：描述元素的類型，例如文本框、圖像等。
模態(tài)：描述元素的呈現(xiàn)方式，例如純文本、帶圖形的文本等。
內(nèi)容：描述元素的具體內(nèi)容，例如文本內(nèi)容或圖像的替代文本。

階段 II：PPT生成

PPTAgent：PPT自動生成Agent框架-AI.x社區(qū)

第二階段是基于第一階段的分析結(jié)果，生成新的PPT。這一階段的核心是通過交互式的編輯過程，利用參考幻燈片和輸入文檔生成目標(biāo)PPT。步驟包括：生成一個結(jié)構(gòu)化的大綱，指定每個幻燈片的參考幻燈片和相關(guān)內(nèi)容；使用LLMs迭代編輯參考幻燈片以生成新幻燈片；實現(xiàn)五個專門的API，允許LLMs編輯、刪除和復(fù)制文本元素，以及編輯和移除視覺元素。

大綱生成：大綱生成是根據(jù)人類偏好，指導(dǎo)LLM創(chuàng)建一個結(jié)構(gòu)化的大綱。每個條目指定參考幻燈片、相關(guān)文檔部分索引以及新幻燈片的標(biāo)題和描述。通過利用LLM的規(guī)劃和總結(jié)能力，結(jié)合從參考PPT中提取的語義信息，生成一個連貫且吸引人的大綱，從而指導(dǎo)新PPT的生成過程。

幻燈片生成：幻燈片生成是在大綱的指導(dǎo)下，通過迭代編輯參考幻燈片來生成新幻燈片的過程。為了實現(xiàn)對幻燈片元素的精確操作，PPTAgent實現(xiàn)了五個專門的API，允許LLM編輯、刪除和復(fù)制文本元素，以及編輯和刪除視覺元素。此外，為了增強對幻燈片結(jié)構(gòu)的理解，PPTAgent將幻燈片從其原始XML格式轉(zhuǎn)換為HTML表示，這種表示形式更易于LLM解釋。

實驗

評價指標(biāo)，現(xiàn)有的指標(biāo)包括：

成功率（Success Rate, SR）
困惑度（Perplexity, PPL）
Fréchet Inception Distance（FID）

PPTEval指標(biāo)包括：

內(nèi)容（Content）
設(shè)計（Design）
連貫性（Coherence）
平均分（Avg.）

這些指標(biāo)用于評估生成的PPT在不同維度上的質(zhì)量。

PPTAgent：PPT自動生成Agent框架-AI.x社區(qū)

參考文獻(xiàn)

PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides，https://arxiv.org/pdf/2501.03936v1

本文轉(zhuǎn)載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/J4Sk1zhtR1poE8TvZJf23Q??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

手把手教你使用用AI自動化制作PPT

pangguiyu ? 2810瀏覽 ? 0回復(fù)
ResearchAgent: 利用agent自動生成論文idea，再也不用擔(dān)心做科研沒有思路了

arnoldzhw ? 5437瀏覽 ? 0回復(fù)
OpenDevin自動化代碼生成工具評述

zhcs333 ? 3025瀏覽 ? 0回復(fù)
OpenDevin自動化代碼生成工具評述

zhcs333 ? 5722瀏覽 ? 0回復(fù)
AUTODETECT：面向大規(guī)模語言模型中自動弱點檢測的統(tǒng)一框架

AIRoobt ? 4743瀏覽 ? 0回復(fù)
極限套娃，Agent自動設(shè)計Agentic系統(tǒng)！

PaperAgent ? 2117瀏覽 ? 0回復(fù)
Multi-Agent實現(xiàn)自動爬蟲&生成圖譜報告

探索AGI ? 2817瀏覽 ? 0回復(fù)
Agent 智能體開發(fā)框架選型指南

Baihai_IDP ? 3996瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：Agent框架的構(gòu)建

一起AI技術(shù) ? 1933瀏覽 ? 0回復(fù)
Agent 智能體開發(fā)框架如何優(yōu)雅選型？

玄姐聊AGI ? 2282瀏覽 ? 0回復(fù)
aiops第一名方案-EasyRAG：自動網(wǎng)絡(luò)運營的高效檢索增強生成框架

大模型自然語言處理 ? 2125瀏覽 ? 0回復(fù)
Agent框架大比拼，llama agents vs langgraph

探索AGI ? 2121瀏覽 ? 0回復(fù)
smolagents：Hugging Face 開源的Agent框架，用代碼驅(qū)動 Agent 的新思路

Syrupup ? 2993瀏覽 ? 0回復(fù)
AMD發(fā)布科研Agent，論文自動化評分趨近頂會NeurIPS水平！

PaperAgent ? 1789瀏覽 ? 0回復(fù)
只需幾步，大模型幫你做好PPT

zhishan15 ? 1589瀏覽 ? 0回復(fù)
MCP 全解析，手把手教你基于 MCP 開發(fā) Agent

玄姐聊AGI ? 8511瀏覽 ? 0回復(fù)
構(gòu)建大模型 Agent 應(yīng)用六個框架對比剖析

玄姐聊AGI ? 1515瀏覽 ? 0回復(fù)
Agent卡成PPT？6 大核彈級提速方案+一線大廠代碼級拆解

ermulong ? 390瀏覽 ? 0回復(fù)
從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解

PyTorch研習(xí)社 ? 846瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：英偉達(dá)NVLM多模態(tài)大模型細(xì)節(jié)和數(shù)據(jù)集

下一篇： LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）

社區(qū)精華內(nèi)容

目錄

<cite id="ejmrl"><track id="ejmrl"></track></cite>