论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

你好研究僧,听说刚刚中了顶会,却还在愁怎么做 Poster(学术海报)?

别急,容在下为你推荐一款新时代科研党神器——PosterAgent,帮你一键从paper.pdf跳转poster.pptx。

相比 GPT-4o,PosterAgent 生成指标更优,同时 token 使用量减少87%,还只需要0.0045 美元,就可将 22 页的论文转化为可编辑的 ".pptx" 终稿海报。

来自滑铁卢大学的联合研究团队,还精心构建了首个学术海报评估标准Paper2Poster,解决了长上下文、多模态压缩的评估空白。

话不多说,先给大家展示一波效果,以下面这篇 CV 论文为例。

先喂给 GPT-4o-image,得到的是这样的:

显然学术海报三要素(吸睛标题、重点突出、色彩排版),GPT-4o-image 通通都没有。

不妨交给 PosterAgent 试试:

视觉更连贯、信息还高效,难怪连已经毕业了的师兄师姐们都在 X 上哭诉,凭什么我们当年没有它。

这下妈妈再也不用担心我做不好 Poster,被老板在群里夺命 call 了(狗头)。

下面来讲讲它为啥这么好用。

多模态海报自动生成

Poster 在学术会议里的重要性不言而喻,需要让与会者在几分钟内就迅速从中掌握核心内容,这就很考验制作者的论文浓缩能力,以及文本和图形的排版功底。

为了帮大家解放双手,以及更一目了然地评估海报效果,研究团队提出了评估基准 Paper2Poster以及基于此构建的多智能体框架 PosterAgent。

Paper2Poster:首个学术海报评估基准

Paper2Poster 的数据包含 100 对 AI 领域论文和作者设计的海报,涵盖计算机视觉(19%)、自然语言处理(17%)和强化学习(10%)等子领域的 280 个不同主题,论文平均22 页,生成海报的文本压缩比约为 14.4 倍,图形减少比约为 2.6 倍。

评估指标覆盖四个基本维度:

视觉质量:使用 CLIP 图像嵌入测量生成海报与作者设计海报之间的视觉相似度,再计算图像和文本的相关性,以确保图像属于有效整合。

文本连贯性:计算文本在Llama-2-7b-hf下的标准困惑度(PPL),衡量文字流畅度。

整体评估:选择一个 VLM(如 GPT-4o),从美学 (元素质量、布局平衡、参与度)和信息 (清晰度、完整性、逻辑流)两个方面进行1 到 5 分打分。

PaperQuiz:这是团队专门设计的评估指标,以模拟作者和读者的交流。让代表不同专业水平(例如学生和教授)的 VLMs 阅读每张海报并回答测验,获得最高平均分的海报被认为在传达论文内容方面最有效。

PosterAgent:多阶段自动生成框架

根据 Paper2Poster 的要求,团队设计了一个采用自上而下设计理念的多智能体流程 PosterAgent。

首先全局地将整个文档重组为简洁、连贯的章节,然后进行局部精炼,以实现颗粒度对齐。

具体包含三个关键组件:

解析器 (Parser):将工具和基于 LLM 的摘要相结合,提取关键文本和视觉内容,生成结构化摘要库(如各章要点、重要图表)。

规划器 (Planner):匹配文本与图表,并用二叉树布局策略将其连贯排列,通过放大(zoom-in)机制迭代生成面板。

绘制器 - 评论器 (Painter-Commenter):绘制器将内容转为简洁的要点列表和用于渲染的可执行代码,而 VLM 作为评论器提供布局反馈,确保整体连贯性和避免溢出。

超越 GPT-4o?

眼见为实,为验证 PosterAgent 生成效果,研究人员用 Paper2Poster 评估了四类基线方法:

理想化方法 (Oracle methods):包含原始 PDF和作者设计的海报GT Poster,作为最佳呈现基准。

端到端方法 (End-to-end methods):使用GPT-4o。

多智能体工作流 (Multi-agent work flows):使用OWL和PPTAgent。

PosterAgent:框架变体分两种,PosterAgent-4o在内部 LLM 和 VLM 评论器均使用 GPT-4o,PosterAgent-Qwen的文本生成使用 Qwen-2.5-7B,评论器则使用 Qwen-2.5-VL-7B。

实验结果表明,在视觉质量和文本连贯性上,虽然 4o-Image 达到了最高的视觉相似度,但它也记录了最差的困惑度,说明生成的海报可能乍一看吸引人,但实际细看全是嘈杂或不连贯的文本。

PosterAgent 则实现了最高的图形相关性,在视觉相似度上也紧随人类设计的海报。

当 VLM 评判时,PosterAgent-4o 的平均得分为3.72,达到了与人类设计海报相当的水平,而 PPTAgent 因为经常生成无意义的文本或大片空白区域,因此得分都较低。

在 PaperQuiz 上,也能发现 PosterAgent 变体始终取得最佳分数。

值得注意的是,PosterAgent-4o 虽然依据 GPT-4o 实现了冗长输出,但基于开源的 Qwen-2.5 系统变体在原始准确率上更胜一筹,说明 PaperQuiz 在评估时,内容量很重要,但呈现质量更重要。

团队还计算了不同方法下的平均 token 成本,PosterAgent 仅使用 101.1K 和 47.6Ktoken,相较于 OWL-4o 成本降低了 60%-87%,相当于每张海报只需要0.55 美元 (基于 4o)或0.0045 美元 (基于 Qwen)。

最后为了方便大家更直观地了解几种方法的海报生成效果,咱再举个例子。

这是论文作者自己做的,主题明确,重点突出,色彩搭配也和谐。

这张来自 GPT-4o-image,看起来好像还行?但是仔细看文字,里面还是有不少乱码。

这张由 GPT-4o-html 生成,图片嵌入失败,文本也缺少排版。

这张出自 PPTAgent,生成了大量空白区域。

下面这张来自 OWL,同样缺少图像,甚至没有多余色彩填充。

最后是咱们的 PostAgent,对比下来,海报结构清晰明了,图表与文字匹配度也相当高,在视觉效果上更接近作者设计的海报。

扩展一下思路,也许 PosterAgent 还可以用于制作课程学习资料。

公司里的 PPT 也未尝不能一试。

所以感兴趣的小伙伴们速速收藏起来这个海报神器~接下来的 CVPR、ACL 刚好都可以用上。

论文链接:https://arxiv.org/abs/2505.21497

代码链接:https://github.com/Paper2Poster/Paper2Poster

项目链接:https://paper2poster.github.io/

参考链接:

[ 1 ] https://x.com/real_weipang/status/1927797168171254006

[ 2 ] https://x.com/_akhaliq/status/1927721150584390129

—  完  —

 量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!