Stage 8 — Agent 操作介面（Agent Interfaces）：Computer Use · Browser Use · Code Sandbox¶

繁體中文 | 简体中文 | English

⏱ 时间估算：2-3 周（约 12-20 小时）

💡 术语密度高：本章包含大量术语（Computer Use / DOM / microVM / Firecracker / Sandbox / Cold start⋯），我们会在文中进行解释。如果您不熟悉这些术语，建议先阅读第 1 章和第 7 章的术语小词典。

📋 本章构成：〔Agent Interfaces 是什么（先定位）+ 三层 interface〕→ 学习目标 → 进入条件 → 必修阅读 → 🖱 Computer Use（屏幕级）→ 🌐 Browser Use（web 级）→ 📦 Code Sandbox（隔离环境含术语小词典）→ Track A 如何使用 → Track B 如何构建 → ⚠ 2026 安全性/风险 → 动手练习 → 常用工具推荐 → 精选项目 → 自我检查 → 下一个前沿（Voice / VLA 展望）

🔑 关键词：见本章内部解释 + resources/glossary.zh-Hans.md

👥 共享中心——与 Stage 5（Claude Code 生态系统）一样，本章是 Track A（CLI 高级用户）和 Track B（Agent 构建者）两条路径的共享中心。Stage 5 和 Stage 8 是本课程的两个核心枢纽。

🎯 Agent Interfaces 是什么（定位）¶

Agent Interfaces 指的是 agent 如何操作 API 以外的真实世界，例如电脑屏幕、网页，或隔离的代码执行沙箱——agent 与“非 API 世界”的对外互动层（IO boundary）。Stage 0-7 教你“如何构建智能体本身”（LLM → prompt → tool → context → memory → multi-agent → harness）；本章教“智能体构建好后，如何操作真实环境”。

3 层 interface：

Interface	操作对象	工作原理	代表工具
🖱 Computer Use（screen-level）	任何桌面应用（Excel / SAP / Photoshop / 无 API 的软件）	截图 → 视觉模型分析 → 计算坐标 → 模拟键鼠	Anthropic Claude Computer Use / OpenAI Codex desktop / Gemini in Chrome
🌐 Browser Use（web-level）	任何网页	DOM 感知导航 + 必要时视觉回退	Atlas / Comet / browser-use（开源，86k 星）
📦 Code Sandbox（isolated exec）	智能体生成的代码在隔离环境中运行	microVM / 容器 / 用户空间内核	E2B / Daytona / Modal / Vercel Sandbox / OpenAI Agents SDK（2026 年 4 月内置）

与之前阶段的区别（避免概念混淆）¶

读者第一个直觉问题：这跟 Stage 3 Tool Use / Stage 5 MCP / Stage 7 Harness 有何不同？

比较对象	该阶段管什么	本阶段管什么
Stage 3 Tool Use	智能体调用 API（函数调用、JSON schema）	智能体操作环境（无 API 的软件 / 真实网页 / 运行代码）
Stage 5 MCP	工具 / 数据源如何标准化暴露给智能体	智能体如何实际与环境交互（MCP 是协议，Interface 是行为）
Stage 7 Harness	智能体运行时控制流（循环 / 重试 / 安全）	智能体IO 边界（运行时内看不到的外部互动）

→ 核心区别：Tool 是 API 调用，Interface 是 操作环境——前者是抽象的 API，后者直接面对真实的 GUI / web / OS。

为什么 2024-2026 是 Agent Interface 的突破年¶

为什么现在才补这课：

2024-10 之前：智能体只能与有 API 的世界互动（调用 OpenAI / GitHub / Slack API，返回文本）
2024-10：Anthropic Computer Use beta → 智能体第一次能操作真实屏幕
2025-2026：OpenAI（Atlas + Codex desktop）/ Google（Gemini in Chrome）全线入场 → 主流化
2026-05：OSWorld benchmark 达到 76.26%（超越人类基线 72.36%）→ 从研究好奇心变为生产现实

没有本阶段的课程缺陷：学完 Stage 7 你以为就结束了，实际上智能体只能与 API 对话，不能操作没有 API 的软件 / 真实网页 / 运行代码——遇到安全问题（如 Comet 注入 / 亚马逊禁令，见安全）也得不到预警。

为什么两 track 共享¶

与 Stage 5（Claude Code 生态系统）一样，本阶段是共享中心，而非特定于某一 track：

Track A（CLI 高级用户）：使用 Claude Computer Use 委派桌面任务，使用 Codex background mode，在 Claude Code 中接入 browser MCP。
Track B（Agent 构建者）：在自己的智能体中嵌入 browser-use，使用 E2B / Daytona 运行智能体生成的代码，使用 OpenAI Agents SDK 内置的沙箱。

两个 track 都绕不开这 3 层 interface——所以放在共享中心的位置。

📌 学习目标¶

学完本阶段，你将能够：

区分 3 层 agent interface（Computer Use / Browser Use / Sandbox）及其与 Tool / MCP / Harness 的关系。
阐述 Computer Use / Browser Use 的心智模型（截图 → 视觉 → 坐标 vs DOM 感知）。
解释 microVM / 容器 / Firecracker / gVisor / 冷启动等隔离技术术语。
了解 2026-05 OSWorld / WebArena SOTA 数据，并能解读 reward-hacking 警告。
Track A：在日常 CLI 工作流中接入 Computer Use + browser MCP + Codex background mode。
Track B：在自己的智能体中使用 browser-use / E2B 嵌入环境互动和沙箱隔离。
设计 4 个安全模式（审批门 / 沙箱 / 人工介入 / 输出过滤器）以防注入攻击。

🚪 进入条件¶

你应该已经：

完成 Stage 5（了解 MCP / Skills / Plugins，日常使用 Claude Code）。
完成 Stage 7（了解 harness engineering，知道 reward-hacking 警告的含义）。
对 Docker / VM 概念有基础了解（本章会解释 microVM / 容器的差异，但完全没接触过 Docker 会很困难）。
如果只学 Track A：完成 Stage 5 即可，Stage 7 可选；本章 Track A 部分不依赖构建经验。
如果学 Track B：Stage 7 必修，否则 9 的构建示例会卡住。

如果没达到 → 回去补课。

📚 必修阅读¶

Anthropic — Introducing Computer Use — Computer Use 的原始发布，必读以了解其工作原理。
Anthropic — Claude Opus 4.7 Release Notes — 2026 年 4 月最新的 Opus 4.7 包含对 Computer Use 的改进。
OpenAI — The next evolution of the Agents SDK ⭐ 2026-04 — 内置沙箱和 harness 抽象，是生产级编码智能体架构的里程碑。
OpenAI — Computer-Using Agent (CUA) — OpenAI 版本的 Computer Use，包含 WebArena / OSWorld 数据。
browser-use docs — 开源 web agent 排名第一（86k+ 星），5 行 Python 即可上手。
Microsoft OmniParser — 开源的 GUI 解析工具，是 Computer Use 的重要组成部分。

💡 选择性阅读：纯 Track A 读者阅读 1 + 2；纯 Track B 读者必读 3 + 5 + 6；想全面了解则全部阅读。

🖱 Computer Use — 屏幕级智能体¶

心智模型 — 工作流与原因¶

工作流：

智能体收到任务
    ↓
1. 截图 → 看到当前屏幕
    ↓
2. 视觉模型解析 → 识别按钮 / 文本框 / 图标
    ↓
3. 计算坐标 → “按钮在 (453, 218)”
    ↓
4. 模拟键鼠 → click(453, 218) / type("hello")
    ↓
5. 再次截图 → 查看结果，决定下一步

为什么是这个范式（而非 Tool Use）： - 大多数软件没有 API，只有 GUI——SAP / Excel / Photoshop / 任何传统桌面应用，要让智能体使用就只能在屏幕层面。 - API 集成（Stage 3 Tool Use）需要等待厂商开放接口，有时根本等不到。 - 屏幕级是最后一公里——“智能体能做人类在电脑上做的任何事”。

为什么 2026 年才可行： - 视觉模型进步：Claude 4.x / GPT-5.x 全是多模态，看屏幕识别元素的准确度大幅提升。 - OS 级训练数据：OSWorld dataset (NeurIPS 2024) 发布了 369 个跨 OS 的真实任务，让前沿实验室有数据可训。 - Anthropic Computer Use beta（2024-10）开启了商业竞争——OpenAI / Google 跟进，benchmark 一路飙升。

2026 前沿 4 强对比¶

厂商	产品	2026 状态	OSWorld	强项
Anthropic	Claude Opus 4.7 / Sonnet 4.6 Computer Use	GA，跨 macOS / Linux / Windows（Docker）	72.7%（Opus 4.6 基线，接近人类 72%；Opus 4.7 2026-04 发布数据未公布）	推理 + 代码智能体，Stage 5/7 主场
OpenAI	Codex desktop（2026 年 4 月）	GA，background mode 不抢占光标，in-app browser，90+ 插件	CUA 38.1%	与 ChatGPT + Atlas 合并成 Desktop Superapp
OpenAI	Computer-Using Agent (CUA)	API	38.1% / WebArena 58.1%	API-first，可整合到自己的技术栈
Google	Gemini in Chrome（Gemini 3）	GA + Android	—	Auto Browse + Chrome Skills，Chrome Enterprise Premium $6/用户/月
OpenAI Operator	（2025-08 停运）	❌ 不可用	—	CAPTCHA / JS / session 处理不稳定，被 Atlas 取代

→ 详细现状见 Agentic Browser Landscape 2026、OSWorld leaderboard

为什么 OSWorld 数据差异巨大（理解 benchmark 规范）¶

现状：

模型	OSWorld	与人类基线差距
Human baseline	72.36%	—
Claude Opus 4.6（Anthropic）	72.7%	持平
2026-05 SOTA（最强模型）	76.26%	超越人类
OpenAI CUA	38.1%	-34%
大多数其他模型	30-50%	-22% ~ -42%

为什么比 SWE-bench 难： - 更开放的任务：SWE-bench 有明确的测试来判断通过/失败；OSWorld 任务规范模糊（例如“帮我把 csv 变成图”）。 - 跨多个 OS：覆盖 Ubuntu / Windows / macOS。 - 跨应用链：常需要打开 3-4 个应用（Excel → Chrome → Slack）。

为什么真实能力 ≠ 数据（呼应 Stage 7 reward-hacking 警告）： - OSWorld 也在 UC Berkeley 2026-04 reward-hacking 报告名单上，被证明可被 hack 到 100%。 - 看数据的规范：不要只看排行榜顶部，你自己的用例的 hold-out 测试才是基准真相。

平台支持现状（2026-05）¶

OS	Anthropic	OpenAI	Google
macOS	✅ GA	✅ Atlas + Codex desktop GA	Chrome 内
Linux	✅ Docker	⚠ 较受限	Chrome 内
Windows	✅ Docker	🔜 native preview / Atlas Win 即将推出	Chrome 内
Mobile	—	—	✅ Gemini in Chrome on Android

🌐 Browser Use — web 级智能体¶

心智模型 — DOM 感知 vs 屏幕像素 + 原因¶

核心区别：

路线	工作方式	何时使用
DOM-aware（浏览器内，有 DOM）	直接查询 `<button id="submit">`、`document.querySelector('.cart-item')`	普通 web 应用，结构化页面
Screen-pixel + vision（无 DOM，看截图）	与 Computer Use 相同，截图 → 视觉 → 坐标	iframe / Canvas / Shadow DOM / 反自动化网站

为什么 DOM 感知比截图更精确： - 直接抓取 <input name="username"> 元素，无需视觉模型解析像素。 - 速度快 10-100 倍（不运行视觉模型）。 - 不会误点（元素有确切的边界框）。 - 缺点：在 JS 动态渲染 / Shadow DOM / Canvas / iframe 内部 DOM 不暴露时失效。

结论 — 生产级浏览器智能体模式：DOM-first + 截图回退——先尝试 DOM，抓不到再用视觉。browser-use / Atlas / Comet 都采用这种模式。

迷你术语词典（就地解释）¶

术语	解释
DOM（Document Object Model）	浏览器内部将 HTML 解析成的树状结构，可编程查询。
CSS selector	选择元素的选择器语法（`#submit-btn`、`.cart > li:nth-child(2)`）。
Shadow DOM	Web Component 的内部 DOM，外部 DOM 查询不到（如 Salesforce / 新版 Reddit）。
iframe	嵌入另一个网页，跨源的 DOM 通常被隔离。
Canvas	`<canvas>` 元素内的图形，纯像素，DOM 看不到内容（如 Figma / Google Sheets）。

闭源 AI 浏览器 5 强对比（2026-05）¶

浏览器	来源	平台	Agent Mode	风险 / 注意事项
Atlas	OpenAI（2025-10）	macOS GA，Win 🔜	✅（Plus / Pro / Business）	—
Comet	Perplexity	iOS / Android / Win / Mac	✅ research 最强	⚠ 2026 年 Brave 发现可被恶意网页注入；2026-03 联邦禁令禁止访问 Amazon。
Dia	The Browser Company（被 Atlassian 以 6.1 亿美元收购）	macOS	❌（不走 agent mode，聚焦性能）	—
Gemini in Chrome	Google（Gemini 3）	Chrome 全平台 + Android	✅ Auto Browse + Chrome Skills	Enterprise Premium $6/用户/月
Operator	OpenAI	—	❌ 2025-08 停运	CAPTCHA / JS / session 处理不稳定。

→ 完整比较：Best AI Browsers 2026 Tested、AI Browser Comparison 2026

开源 Browser Use 框架¶

框架	状态	强项
browser-use ⭐	86k+ 星，MIT	2026 年最火的开源软件，Python，5 行上手，支持 OpenAI / Claude / Gemini / Ollama。
Microsoft OmniParser v2	2026 年更新，Apache 2.0	基于视觉的 GUI 解析，延迟改善 60%，使用 ScreenSpot Pro 准确率达 39.6%。同一仓库包含 OmniTool（Windows 11 VM 控制，可搭配 GPT-5.5 / Claude Opus 4.7 / DeepSeek-V4-Pro / Qwen 2.5VL / Claude Computer Use）。
Playwright + LLM（DIY）	—	不是专门的框架，但 Playwright 是 web 自动化的标准，加上 LLM 包装器即可使用。

为什么 browser-use 这么火（86k 星）： - DOM-first 范式对 web 来说比截图+视觉更精确，速度也更快。 - LLM 厂商无关（不绑定 Claude / GPT）。 - 5 行 Python 上手，入门门槛低。

与 web scraping / RPA 的区别¶

工具类别	工作方式	适用场景
Web scraping（BeautifulSoup / Scrapy）	固定选择器，纯粹拉取数据。	结构稳定的网站，只需要数据。
RPA（UiPath / Power Automate）	固定点击/输入脚本，无推理能力。	流程已知且不变的企业内部任务。
Browser Agent（本阶段）	可推理并动态决定如何操作。	任务描述模糊，流程可能变化，需要智能体自行探索。

📦 Code Execution Sandbox — 隔离环境（含术语小词典）¶

为什么智能体必须使用沙箱¶

威胁模型：智能体写代码 → 在哪里运行？ - ❌ 主机（最坏情况）：智能体可能 rm -rf / / 连接互联网泄露数据 / 读取 .ssh/id_rsa / 安装恶意软件。 - ⚠ 同一用户隔离进程（中等）：能阻止部分攻击，但文件系统 / 网络仍然开放。 - ✅ 隔离沙箱（必要）：独立的文件系统 / 进程 / 网络，出事可直接丢弃。

为什么 2026 年才正式成为生产要求： - 2026-04 OpenAI Agents SDK 更新：内置支持 7 个沙箱提供商（Blaxel / Cloudflare / Daytona / E2B / Modal / Runloop / Vercel）。 - 之前都依赖 Claude Code / Cursor 的审批门来阻止——但生产级智能体无人值守，必须使用沙箱。

🔑 隔离技术术语小词典¶

新读者常卡住的地方，在此解释：

术语	一句话解释	隔离强度	启动速度	典型用途
Container（Docker / OCI）	Linux 内核命名空间 + cgroups，多容器共享主机内核。	弱（内核漏洞可跨界）	快（< 1s）	普通 web 应用，低风险任务
VM（Virtual Machine）	Hypervisor 提供虚拟硬件，独立的内核。	最强	慢（秒级）	高风险 / 企业级
microVM	VM 的精简版，极小体积，但仍是独立内核。	强	快（< 100ms）	智能体沙箱的理想选择
Firecracker	AWS 开源的 microVM，用 Rust 编写，AWS Lambda 底层技术，E2B 用它做隔离。	强	快	serverless / 智能体
gVisor	Google 编写的“用户空间内核”，拦截并模拟系统调用，无需 hypervisor。	中强	中快	介于容器 / VM 之间
Cold start	沙箱从零启动到可用的时间（Daytona 最快 27ms，E2B microVM 较慢）。	—	—	延迟敏感场景的关键指标
Persistence	状态是否跨调用保留（文件 / 进程 / 网络）。	—	—	长时间运行的智能体必需
GPU passthrough	VM / microVM 访问主机 GPU 的技术（只有 Modal 支持）。	—	—	在沙箱内运行推理 / 微调

核心要点： - Container = 快 + 隔离弱（共享内核） - VM = 慢 + 隔离强（独立内核） - microVM = 兼顾（快 < 100ms + 独立内核）→ 大多数智能体沙箱选择 microVM

7 个沙箱对比（2026-05）¶

Sandbox	隔离技术	冷启动	强项	何时使用
Daytona	Container	< 90ms（最快 27ms）	启动快，Docker 生态整合	延迟敏感
E2B	Firecracker microVM	~ 200ms	Python REPL 迭代，最多的社区模板	智能体运行 Python 循环
Modal	microVM + GPU	~ 1s	唯一支持 GPU 的沙箱	在沙箱内进行推理 / 微调
Vercel Sandbox	Container	< 500ms	Vercel 生态系统整合	web 技术栈
Cloudflare	Workers / Containers	< 100ms	全球边缘部署	低延迟全球应用
Runloop	—	—	2026 OpenAI SDK 新支持	（新入场）
Blaxel	—	—	同上	（新入场）

→ 详细 benchmark：AI Code Sandbox Benchmark 2026 — Modal vs E2B vs Daytona

OpenAI Agents SDK 2026 年 4 月更新 — 为何是里程碑¶

这次更新为何重要：

之前：使用 OpenAI SDK 开发生产级编码智能体只是“原型”——沙箱要自己接，harness 要自己写，可审计性不足。
2026-04 之后：架构上合理——SDK 内置 harness 抽象层 + 沙箱抽象层 + Codex 文件系统工具。

3 个关键新功能： 1. Native harness — 智能体循环 / 模型调用 / 工具路由 / 切换 / 审批 / 追踪 / 恢复全在 SDK 层。 2. Native sandbox execution — 可自带沙箱，或使用内置的 7 个提供商（Blaxel / Cloudflare / Daytona / E2B / Modal / Runloop / Vercel）。 3. Codex filesystem tools — 智能体写文件 / 读文件 / 运行命令都有 SDK 级 API。

→ Python 优先，TypeScript 稍后。Anthropic Claude Agent SDK 早就有类似抽象——OpenAI 终于追上了。

🧭 Track A 如何使用（CLI 高级用户视角）¶

读者痛点：Track A 想知道“我如何用 Claude Computer Use 把桌面任务委派出去”，而不是“如何构建”。

1. 在 Claude Code 内接入 Computer Use / Browser MCP¶

为何选择 MCP 路线：你已熟悉 Claude Code（Stage 5），新功能可通过 MCP 接入，无需更换工具。

Computer-use MCP（社区有多个实现版本）：在 .mcp.json 中添加服务器后，就能在 Claude Code 内调用“截图 → 查看 → 操作”。
Browser MCP：如 Playwright MCP 等，Claude Code 可打开浏览器运行 web 任务。

2. 使用 Codex desktop 在后台运行¶

为何使用 background mode：OpenAI Codex desktop (2026 年 4 月) 默认不抢占光标，智能体在后台运行，你可以继续做别的事——多个智能体工作流可并行。

适合：“分析 Q3 财报，整理成幻灯片，发到 Slack”这种长时间且无需盯着看的任务。
与 Claude Code 互补：用 Claude Code 做代码任务，用 Codex desktop 做跨应用工作流。

3. 使用 Atlas / Comet / Gemini in Chrome 运行 web 任务¶

场景	推荐	理由
研究 / 跨页面综合	Comet	针对研究优化，有引用支持。
ChatGPT 用户 / Agent Mode	Atlas	Plus/Pro/Business 内置。
Chrome / Google 生态系统	Gemini in Chrome	Auto Browse + Skills，企业级 DLP。
避免：Comet 运行电子商务 / 银行任务	—	⚠ 2026-03 联邦禁令（详见安全）。

跨应用工作流示例¶

“帮我把 Q3 的 csv 文件做成图表，存到 Slack 的 #finance 频道”： 1. Claude Code（接入 Computer-use MCP）打开 Excel。 2. 加载 csv，使用图表向导生成图表。 3. 截图。 4. 切换到 Slack，粘贴到 #finance 频道。 5. 智能体回报完成。

为何这个示例值得做：跨 3 个应用（Excel / 截图工具 / Slack），没有 API 解决方案（Slack 有 API，但 Excel 图表没有可编程路径）。

🧭 Track B 如何构建（Agent 构建者视角）¶

读者痛点：Track B 想看具体构建代码，而不是“如何使用”。

1. 使用 browser-use 编写 web 智能体¶

为何使用 browser-use：86k 星，5 行上手，LLM 厂商无关，生产就绪。

from browser_use import Agent
from langchain_openai import ChatOpenAI

agent = Agent(
    task="Search Hacker News for top AI agent posts this week and summarize",
    llm=ChatOpenAI(model="gpt-5.5"), # 也可换成 Claude Opus 4.7 / Gemini 3.1 Pro / DeepSeek-V4-Pro
)
result = await agent.run()

→ 内部原理：browser-use 打开 Playwright 浏览器，智能体采用 DOM-first 导航，并有视觉回退机制。

2. 使用 E2B 运行智能体生成的代码¶

为何使用 E2B：Firecracker microVM 隔离 + Python REPL 迭代 + 模板最多。

from e2b_code_interpreter import Sandbox

with Sandbox() as sandbox:
    # 智能体编写的代码在这里运行，出问题直接丢弃沙箱即可
    execution = sandbox.run_code(agent_generated_python)
    print(execution.text)

3. 使用 OpenAI Agents SDK 内置沙箱（2026-04 新功能）¶

为何使用这个 SDK：之前仅为原型设计，2026 年 4 月更新后在架构上已适合生产（见 7 末尾）。

from openai.agents import Agent, Sandbox

agent = Agent(
    model="gpt-5.5",
    sandbox=Sandbox(provider="e2b"), # 或 daytona / modal / vercel / ...
    tools=[...]
)

→ 可选 7 个内置提供商，也可自带沙箱。

4. GUI 智能体训练数据¶

如果你想训练自己的 Computer Use 模型（少数人会做）： - OSWorld dataset — 369 个跨 OS 任务，包含截图和基准操作。 - WebArena — web 导航 benchmark。 - Mind2Web — 真实世界的 web 任务。

→ 大多数人使用前沿模型（Claude / GPT）即可，不必自己训练。这是一条研究路径。

⚠ 2026 安全性 / 风险重点¶

读者痛点：2026 年已发生真实事故，课程不预警 = 学完去构建会出事。

案例 1 — Comet 被 Brave 发现可被网页注入¶

攻击原理（Brave Research 2026）： - Comet 智能体查看网页 → 网页中隐藏恶意 prompt（如在 HTML 注释中）。 - LLM 解析网页时将恶意 prompt 当作指令执行。 - 结果：智能体被劫持，操作用户 Gmail / 银行 / 账户。

为何这是新的攻击面： - 传统 SQL 注入攻击路径：用户输入 → 服务器（在服务器端过滤即可阻止）。 - 通过 web 内容的 Prompt injection：web 内容 → LLM 上下文（在 LLM 上下文中难以区分指令与内容）。 - 防御方式完全不同——无法套用 SQL 注入那套方法。

案例 2 — 联邦禁令（2026-03 Comet 禁止访问 Amazon）¶

2026 年 3 月，美国联邦法官对 Comet 下达初步禁令，禁止该智能体访问 Amazon 账户——理由是 Comet 在 Amazon 账户上的操作不稳定，且涉及未经授权的商业活动。

为何这是法律风险信号： - 智能体操作他人账户可能违反该平台的 ToS。 - 大型电子商务 / 银行平台可能采取法律行动阻止智能体。 - 生产级智能体部署前必须检查目标平台的 ToS。

4 个防护模式（必须添加）¶

Agent 4 个防护模式

模式	如何实现	何时必须添加
① 审批门	高风险操作（删除文件 / 付款 / 发送邮件 / 数据库删除）前弹窗让用户确认。	所有生产级智能体
② 沙箱	运行代码的智能体必须安装（见 7 七选一）。	任何会运行代码的智能体
③ 人工介入	长时间任务的中段检查点。	任务 > 10 步或 > 5 分钟
④ 输出过滤器	目标限定白名单（仅发布到内部 Slack，仅写入 /tmp）。	跨系统操作的智能体

→ 呼应 Stage 7 reward-hacking 警告：课程始终强调“不要盲目相信智能体”的规范——Stage 7 讲评估规范，Stage 8 讲运行时规范。

🛠 动手练习（两 track 各有）¶

练习 1（Track A）：使用 Computer Use 的跨应用工作流¶

使用 Claude Computer Use 完成：“打开 Excel 加载 data.csv，生成条形图，截图，并粘贴到 Slack 的 #test 频道”。目标：体会智能体没有 API 也能做事。

练习 2（Track B）：使用 browser-use 编写 web 智能体¶

使用 browser-use（10 行以内 Python）编写一个智能体，自动到 Hacker News 抓取本周排名前 5 的 AI 文章并摘要。目标：体会 DOM-first 范式。

练习 3（两 track）：使用 E2B 运行智能体代码¶

使用 E2B 沙箱，让智能体生成 Python 代码来计算数据图，在沙箱内运行，并返回结果。目标：体会 microVM 隔离与直接在主机上运行的区别。

练习 4（进阶）：OpenAI Agents SDK + 沙箱 + Computer Use¶

使用 OpenAI Agents SDK（2026-04 版）整合：在沙箱中运行代码 + 使用 Computer Use 操作 GUI，构建一个小型 RPA 替代工作流。目标：体会生产级 harness 与沙箱的整合。

🎯 常用工具推荐（按用途分类）¶

场景	推荐工具	为什么
第一次接触 Computer Use	Anthropic Claude Computer Use Docker quickstart	官方 Docker，5 分钟上手
桌面后台工作流	OpenAI Codex desktop（2026 年 4 月）	不抢占光标，可并行
第一个 web 智能体（开源）	browser-use ⭐	86k+ 星，5 行 Python，LLM 厂商无关
GUI 解析研究（开源）	Microsoft OmniParser v2	基于视觉，延迟改善 60%
主力 AI 浏览器（消费 / 研究）	Comet（研究）/ Atlas（ChatGPT 用户）	各家智能体模式强项不同
企业 / Chrome 生态系统	Gemini in Chrome	Auto Browse + Skills + DLP
第一个沙箱（智能体 Python）	E2B	Firecracker microVM，对 Python REPL 友好
延迟敏感的沙箱	Daytona	< 90ms 冷启动
沙箱 + GPU（推理 / 微调）	Modal	唯一支持 GPU 的沙箱
生产级智能体 SDK 起点（2026-04 后）	OpenAI Agents SDK	内置 harness + 7 个沙箱提供商
Claude 智能体原生路线	claude-agent-sdk-python	Stage 7 已介绍，Anthropic 早于 OpenAI 抽象出 harness

建议上手顺序： 1. Track A 入门：使用 Claude Computer Use Docker quickstart 跑通第一个跨应用任务（30 分钟） 2. Track B 入门：使用 browser-use 编写 web 智能体（10 分钟） 3. 添加沙箱隔离：接入 E2B 或 Daytona 4. 生产级：使用 OpenAI Agents SDK 或 Claude Agent SDK 整合沙箱 + Computer Use 5. 进阶 / 研究：训练 GUI 智能体 → OSWorld / WebArena 数据集

🎯 精选项目（模板 / SDK / 工具合集）¶

按用途分类，15 个项目一表搞定。

分类	Project	⭐	适合谁	为什么推荐 / 备注
Computer Use SDK	anthropics/anthropic-quickstarts	⭐⭐⭐⭐⭐	第一次接触 Computer Use	含 Docker quickstart，5 分钟上手
	OpenAI Agents SDK	⭐⭐⭐⭐⭐	使用 OpenAI 编写生产级智能体	2026-04 内置 harness + 7 个沙箱提供商
	anthropics/claude-agent-sdk-python	⭐⭐⭐⭐⭐	使用 Claude 编写生产级智能体	Anthropic 的智能体 SDK，早于 OpenAI，与 Claude Code 同一运行时
Browser Use OSS	browser-use/browser-use ⭐	⭐⭐⭐⭐⭐	开源 web 智能体第一名	86k+ 星，MIT，LLM 厂商无关
	microsoft/OmniParser	⭐⭐⭐⭐	基于视觉的 GUI 解析	v2 延迟改善 60%，Apache 2.0，含 OmniTool（Windows VM 控制）
AI 浏览器（闭源 / 消费）	Atlas	⭐⭐⭐⭐	ChatGPT 用户 + Agent Mode	OpenAI 出品，macOS GA
	Comet	⭐⭐⭐⭐	面向研究的智能体浏览器	Perplexity 出品，全平台，有引用支持。⚠ Brave 注入 + Amazon 禁令
	Dia	⭐⭐⭐	想要 AI 浏览器但不要 agent mode	Browser Company 出品（被 Atlassian 以 6.1 亿美元收购），聚焦性能
Sandbox（microVM）	e2b-dev/E2B	⭐⭐⭐⭐⭐	智能体运行 Python 循环	Firecracker microVM，模板最多，Apache 2.0
Sandbox（容器，快）	Daytona	⭐⭐⭐⭐	延迟敏感	< 90ms 冷启动，Docker 生态
Sandbox（GPU）	Modal	⭐⭐⭐⭐	在沙箱内运行推理 / 微调	唯一支持 GPU 的沙箱，serverless
Benchmark dataset	xlang-ai/OSWorld	⭐⭐⭐⭐⭐	想训练 / 评估 Computer Use 智能体	NeurIPS 2024，369 个跨 OS 任务，SOTA 76.26%
	web-arena-x/webarena	⭐⭐⭐⭐	评估 web 智能体	自托管的真实网站，OpenAI CUA 58.1%
	OSU-NLP-Group/Mind2Web	⭐⭐⭐⭐	真实世界 web 任务数据集	137 个网站 / 2350 个任务
Visual web agent	illuin-tech/colpali	⭐⭐⭐⭐	针对 PDF / 文档的视觉 RAG	直接嵌入页面图像，绕过 OCR，NeurIPS 2024

💡 建议上手路径：Track A → Anthropic quickstart + Comet；Track B → browser-use + E2B → OpenAI Agents SDK / Claude Agent SDK 整合。

✅ Stage 8 之后的自我检查¶

你是否能够：

[ ] 解释 Computer Use / Browser Use / Sandbox 三层 interface 各解决什么问题
[ ] 解释 microVM / 容器 / Firecracker / gVisor 4 个术语，并知道为何智能体沙箱多半选择 microVM
[ ] 使用 Claude Computer Use 或 OpenAI Codex desktop 跑完一个跨应用任务（练习 1）
[ ] 使用 browser-use 在 5 行 Python 内编写一个 web 智能体（练习 2）
[ ] 使用 E2B 运行智能体生成的代码，并体会与主机直接运行的差别（练习 3）
[ ] 解释为何通过 web 内容的 prompt injection 是新的攻击面，以及 4 个防护模式各防御什么
[ ] 解释 OSWorld 76.26% SOTA 数据背后的 reward-hacking 规范（为何不能盲目相信）

如果都可以 → 你已完成课程主干。选择一个特化分支，或继续看下一节下一个前沿。

💡 下一个前沿 — Voice agents · VLA 机器人¶

本阶段涵盖了 desktop / browser / sandbox 三层 interface——这是 2024-2026 的主场。但智能体与世界互动还有另外两条轴线，课程将在之后处理：

Voice agents（语音界面）¶

Vapi / Retell — 商业语音智能体平台
LiveKit Agents — 开源，★ 10k+
OpenAI Realtime API — 直接构建 speech-to-speech 智能体

VLA（Vision-Language-Action）机器人¶

RT-2（Google DeepMind）— 大型机器人 transformer
OpenVLA — 开源，斯坦福大学
π0（Physical Intelligence）— 机器人基础模型
Helix（Figure AI 2025）— 人形 VLA

为何不在本阶段展开：voice / VLA 是另一条模态轴线（听觉 / 物理动作），与 desktop / browser / sandbox 的属性不同；在此展开会稀释本阶段的主题，将放在 Stage 9 处理。

接下来¶

你已完成主干课程。下一步：

选择一个专业分支（面向研究人员 / 面向开发者 / 面向教师 / 面向知识工作者 / 面向日常用户）
回馈上游——browser-use / OmniParser / OSWorld 都欢迎 PR
关注 2026 年后的发展——Voice / VLA 是下一波浪潮，敬请期待 Stage 9（待规划）