它能在 Antigravity 中捕获需要登录的页面吗？

可以。为你的网站凭证设置环境变量，该技能在截图前使用 Playwright 登录。适用于需要会话的认证仪表板、内部工具、测试环境和任何页面。

markdown 捕获计划是什么样的？

一个 .md 文件，列出你要捕获的页面、章节或证据——内含内联标记、基于标题的指令或图片摘要表。该技能读取计划并将每条指令映射到截图操作。

我可以将 doc-screenshot-agent 与 Antigravity 中的其他 Felo 技能串联吗？

可以。一个常见工作流：felo-x-search 发现竞品动态，felo-web-fetch 提取其功能页面，doc-screenshot-agent 捕获其 UI 的视觉证据。Agent Manager 将这些串联成单个竞品情报任务。

doc-screenshot-agent 可以截取哪些类型的页面？

任何可公开访问的 URL。对于需要登录的页面，agent 可以传入会话 Cookie，或使用 Antigravity 的浏览器子 agent 进行已登录状态下的截图。

agent 可以截取页面上的特定元素吗？

可以。agent 可以指定 CSS 选择器或描述目标元素，doc-screenshot-agent 只截取该元素，而非整个页面。

截图如何存储和访问？

截图存储在 Felo 的 CDN 上，并以 URL 形式返回给 agent。URL 默认有效期为 24 小时，最长可配置为 30 天。

doc-screenshot-agent 会从截图中提取文字吗？

会。OCR 自动执行。agent 同时获得截图 URL 和提取的文字内容，便于对视觉内容进行进一步推理。

agent 可以在一个任务中截取多个页面吗？

可以。doc-screenshot-agent 支持批量截图——agent 传入一组 URL，并获取每个 URL 的截图和提取文字。

agent 如何知道何时使用 doc-screenshot-agent？

当 agent 任务涉及视觉文档、UI 验证、前后对比，或从 URL 截取证据时，SKILL.md 描述会激活该技能。

Google Antigravity·智能体技能·SKILL.md 路由

Website Screenshot Agent Google Antigravity 技能

Antigravity 的浏览器子 Agent 可以控制 Chrome——但截图、添加注释并将其整理成结构化报告是另一回事。Website Screenshot Agent 读取 markdown 捕获计划，逐一访问每个 URL，进行截图，处理需要登录的页面，并组合成团队可审阅和共享的文档化报告。

Install Now

同样支持 Claude Code · OpenClaw · 所有平台

Antigravity Agent — task log

Google Antigravity skill

markdown 捕获计划控制输出

git clone + folder copy

one-command setup

Batch

按你的计划整理的截图

Markdown

通过 Git 中的 .agent/skills/ 共享

工作原理

自动触发 doc-screenshot-agent 的 Agent 任务

这些是 Antigravity 的 Agent Manager 路由到 doc-screenshot-agent 的场景——当任务需要页面当前状态的视觉证据。

01 · 用户

发送提示词

在 Antigravity 中输入任务，无需特殊语法。

02 · Agent Manager

任务分析

Gemini 3 规划任务并检测知识截止日期风险。

03 · SKILL.md 路由器

语义匹配

SKILL.md 描述与任务匹配，技能随即加载。

04 · 技能

技能执行

匹配到的技能运行并获取或处理数据。

05 · 输出

内联引用答案

带有来源链接的结构化答案返回给智能体。

Scenario 01

竞品 UI 截图

Agent 任务涉及记录竞品产品的当前外观。

截取 Vercel 控制台定价页面，捕获当前方案对比表。

Scenario 02

视觉回归证据

Agent 需要页面变更前后的视觉记录。

在部署重新设计之前，截取我们落地页的当前状态。

Scenario 03

需登录页面截图

Agent 任务涉及截取需要登录才能访问的页面。

截取我们的内部管理后台，捕获当前用户指标视图。

工作原理

doc-screenshot-agent 为 Antigravity 带来的能力

六项能力，让 agent 无需离开 IDE 即可截取并推理视觉证据。

视觉证据截取

agent 作为文档或 QA 任务的一部分，截取任意 URL 的截图。

元素级截取

针对特定 UI 元素或页面区域——而非仅限全页截图。

截图转文字

从截图中提取可读文本，供 agent 进一步推理。

前后对比

agent 截取变更前后的状态，用于视觉差异文档。

产物存储

截图以 URL 形式存储并在 agent 输出中引用。

SKILL.md 自动路由

当 agent 任务涉及视觉文档、QA 或 UI 验证时自动激活。

使用场景

真实任务，真实工作流

开发者在 Antigravity 中使用此技能的方式——从快速查询到复杂的多步骤工作流。

竞品 UI 截图

Agent 任务涉及记录竞品产品的当前外观。

❯截取 Vercel 控制台定价页面，捕获当前方案对比表。

视觉回归证据

Agent 需要页面变更前后的视觉记录。

❯在部署重新设计之前，截取我们落地页的当前状态。

需登录页面截图

Agent 任务涉及截取需要登录才能访问的页面。

❯截取我们的内部管理后台，捕获当前用户指标视图。

Installation

三步在 Antigravity 内实现结构化可视化捕获

安装后，当任务需要视觉证据时，Agent Manager 触发 doc-screenshot-agent——agent 读取捕获计划并自动生成文档化报告。

方式 1 · 终端

通过命令行安装

克隆 Felo 技能仓库，并将技能复制到 Antigravity 全局技能目录中。

Terminal

# Clone the Felo skills repository
git clone https://github.com/Felo-Inc/felo-skills.git

# Copy this skill to your global Antigravity skills folder
cp -r felo-skills/doc-screenshot-agent ~/.gemini/antigravity/skills/

安装至 ~/.gemini/antigravity/skills/ — 在所有项目中均可使用

方式 2 · 智能体提示词

让智能体自动安装

将此提示词直接粘贴到 Antigravity 中，智能体会自动克隆仓库并复制技能。

粘贴到 Antigravity

帮我把 https://github.com/Felo-Inc/felo-skills 安装到 Antigravity 的全局技能目录中。

智能体负责克隆、复制和目录配置，无需打开终端

将技能复制到 .agent/skills/

克隆 Felo 技能仓库，将 doc-screenshot-agent 复制到 .agent/skills/ 供团队通过 Git 访问。SKILL.md 描述为需要视觉页面捕获或 UI 文档的任务激活它。

编写 markdown 捕获计划

创建一个 .md 文件，列出你要捕获的 URL、页面章节和证据内容。该技能读取计划，按顺序访问每个页面，并根据你的指示整理截图——包括设置了凭证的需要登录的页面。

Agent 生成结构化可视化报告

该技能生成一份嵌入截图的 markdown 报告，按你的捕获计划组织。Agent Manager 可以将此报告纳入更大的可交付成果中——竞品分析、QA 总结、设计评审——无需任何手动截图工作。

无需任何配置。技能文件夹内的 SKILL.md 文件会告知 Antigravity 的 Agent Manager 何时激活该技能。文件夹就位后，智能体会根据你的提示词自动路由到对应技能。

FAQ

Website Screenshot Agent × Google Antigravity — 常见问题

浏览器子 Agent 是交互式的——它实时点击、滚动并响应 agent 的指令。doc-screenshot-agent 面向批量处理：给它一个 markdown 捕获计划，它执行完整列表，生成结构化报告。对于你明确知道需要捕获什么的系统化文档任务，它更为适合。

为 Antigravity agent 提供审计、评审和监控的视觉证据层

将 doc-screenshot-agent 安装到 .agent/skills/，让 Agent Manager 对网页进行截图、注释和报告，作为任何研究或 QA 工作流的一部分。

获取 Felo API 密钥浏览 API 文档

一个 API Key。提交到 .agent/skills/，你的 agent 就能记录可视化网络——包括需要登录的页面。

更多 Antigravity 技能

添加更多技能，扩展你的智能体

Felo Web Fetch

向 agent 提供干净的页面内容，而非原始 HTML

Felo LiveDoc

为每个 agent 任务构建有据可查的知识库

Felo X Search

在发布前让 agent 读取 X 上的实时社交信号

Felo Slides

将 agent 的研究成果直接转化为幻灯片