# 黑盒 E2E QA 路线图 ## 定位 LangBot 有大量外部依赖:模型供应商、plugin runtime、浏览器登录态、 marketplace/network、RAG engine、sandbox backend、平台适配器等。单测仍然有价值, 但这个 QA 方向当前不优先解决 LangBot core 的单测覆盖率问题,因为重 mock 往往不能 真实代表产品路径。 `langbot-skills` 当前目标是让黑盒 E2E 测试变得可执行、可沉淀、可复用: ```text 开发者测试意图 -> 复用或新增 case -> agent 通过浏览器执行 -> UI + console + network + log 证据 -> report -> 反哺 case / troubleshooting ``` 这是面向开发者的 QA 资产库。开发者可以让 agent 测一个 feature;如果路径稳定, 就把路径正规化为 case,让下一个开发者或 QA agent 继续复用。 ## 非目标 - 这一阶段不优先建设 LangBot core 单测覆盖率。 - 不把 API/curl 作为 WebUI 行为的通过标准。 - 不要求每个 case 都能进 CI。 - 不在 report 和日志守卫有用之前急着做完整 browser runner。 - 不把外部 provider、OAuth、marketplace 抖动直接判成产品失败,除非证据明确。 ## 当前状态 仓库已经具备第一层基础设施: - `skills/.env` 和 `skills/.env.local` 管理测试环境; - `langbot-env-setup`、`langbot-testing`、`langbot-plugin-dev` 等 skill; - `skills/langbot-testing/cases` 下的结构化 case; - `skills/langbot-testing/troubleshooting` 下的结构化故障资产; - RAG、多模态、plugin、MCP 等 fixture; - `bin/lbs validate`、`bin/lbs index`、`bin/lbs case`、`bin/lbs trouble`、 `bin/lbs test plan`、`bin/lbs test start`、`bin/lbs test report`。 所以当前已经不是“先把路径写进 Markdown”的阶段,而是进入“让每次运行有证据、 有报告、能沉淀”的阶段。 ## 测试模型 UI case 只有在用户可见行为正确时才能通过。辅助证据必须解释同一次运行。 通过一个 UI case 的最低证据: - 用户可见的成功信号,例如 bot 回复、provider 保存成功、文件上传完成、plugin 页面渲染; - 没有意外 browser console error; - 相关时间窗口内没有意外后端/runtime 错误; - 有截图、DOM snapshot 或同等视觉/结构证据,如果当前 agent 能获取; - API/curl 只在解释同一条 UI 路径时作为诊断证据。 失败报告需要保留足够信息,让开发者能复现或分流: - case id 和实际测试 URL; - 使用的 browser path; - 最后可见 UI 状态; - console/network 症状; - 相关后端/前端日志; - 匹配到的 troubleshooting id; - 这是产品失败、环境问题、外部依赖抖动,还是证据不足。 ## 结果词汇 统一使用这些结果: - `pass`:UI 行为正确,辅助证据干净。 - `fail`:UI 行为错误,或同一次运行的 console/log 出现意外产品错误。 - `blocked`:缺登录、缺 provider credentials、服务未启动等原因导致目标路径没有跑起来。 - `env_issue`:失败在目标行为之外,例如 proxy、OAuth、provider quota、marketplace outage、 本地服务启动问题。 - `flaky`:同一环境下结果不稳定,进入门禁前需要先稳定。 做 merge/release 判断时,`env_issue` 和 `blocked` 不能算产品通过。 ## 路线图 ### Phase 0:对齐文档 目标:明确当前黑盒 E2E 方向。 交付物: - `docs/qa-agent/README.md` 文档状态导航; - 本路线图; - 给旧规划文档加状态说明。 完成标准: - 新贡献者不用通读所有旧文档,也能知道当前重点。 ### Phase 1:Test Report MVP 状态:已有第一版。 目标:让每次 agent browser 测试都有一致报告格式,即使 browser 执行还没自动化。 建议命令: ```bash bin/lbs test start bin/lbs test report --output reports/-.md ``` MVP 行为: - 读取 case 和关联 troubleshooting; - 生成 Markdown report 模板; - 生成 run handoff,固定本次测试的 start timestamp 和推荐 report command; - 写入脱敏后的环境摘要; - 提供 `pass/fail/blocked/env_issue/flaky` 结果选项; - 包含 UI result、console errors、network symptoms、logs、screenshots、 diagnostics、matched troubleshooting、assets to update 等 section; - 支持 `--json`,输出机器可读报告。 第一版已经是 report generator,不急着做自动判定。先把 evidence 收集格式统一起来, 再做自动化更稳。 完成标准: - agent 可以先跑 `lbs test start `,用它给出的时间窗口执行浏览器路径, 然后按固定格式填写 report,不需要每次重新发明报告结构。 ### Phase 2:日志守卫 MVP 状态:已有第一版文件扫描。 目标:捕获 UI 不一定明显展示的 runtime 问题。 日志守卫应集成进 `lbs test report`,不要发展成独立后端 API 测试框架。 建议命令形态: ```bash bin/lbs test report \ --backend-log /path/to/backend.log \ --frontend-log /path/to/frontend.log \ --console-log /path/to/console.log \ --evidence-dir reports/evidence/ \ --since "2026-05-21T10:30:00+08:00" \ --tail-lines 2000 \ --output reports/-.md ``` MVP 行为: - 默认从 `LANGBOT_REPO/data/logs/` 扫描最新 `langbot-*.log`; - 支持 agent 显式提供 backend、frontend、console 日志文件; - 支持读取 evidence 目录下的 `automation-result.json`,把浏览器自动化脚本结论纳入报告; - 支持 `lbs test result` 为人工/agent browser 运行写入标准 `result.json`,供 suite 聚合; - 支持 `--since` 和 `--tail-lines`,避免历史日志污染本次报告; - 检测默认非预期模式,例如 `Traceback`、未 await coroutine、unclosed client/connector、 `KeyError`、`TypeError`、`AttributeError`、明显 secret 泄露; - 匹配 case 声明的 `success_patterns` 和 `failure_patterns`; - 匹配已知 troubleshooting,先支持 `plugin-runtime-timeout` 和 `proxy-env-mismatch`; - 只有 case 明确声明时,才允许 expected failure; - 将发现分类为 fail、warning、matched troubleshooting、ignored expected issue; - 永远不打印 secret 值。 完成标准: - 至少 `pipeline-debug-chat` 能生成包含日志摘要和 troubleshooting 匹配结果的 report。 ### Phase 3:Case 元数据加固 状态:已有第一版。 目标:让 case 更容易选择、执行和晋级。 字段逐步补充,保持向后兼容: ```yaml priority: p0 | p1 | p2 risk: low | medium | high ci_eligible: false preconditions: - "Authenticated browser profile is available." setup: - "Start LangBot backend and frontend." cleanup: - "Remove temporary provider, plugin, or knowledge base if created." expected_failures: [] success_patterns: - "Conversation(0) Streaming completed" failure_patterns: - "Action invoke_llm_stream call timed out" evidence: required: - ui - console - backend_log ``` 当前实现采用扁平字段 `evidence_required`,避免轻量 YAML 解析器在 case 文件里承载嵌套结构。 `bin/lbs validate` 会校验 `priority`、`risk`、`ci_eligible`、`evidence_required`、 `automation` 脚本路径、case 关联 skill 和 troubleshooting 交叉引用。`bin/lbs case list` 支持 `--json`、`--type`、`--area`、`--tag`、`--priority`、`--risk`、`--automation`、`--ci` 、`--ready` 和 `--machine-ready` 过滤,方便 agent 快速选择测试集。 `env_any` 和 `automation_env_any` 用于表达 URL-or-name 这类 one-of 输入,避免把可替代变量误判为全部必填。 当前也有 `skills//suites/*.yaml` 和 `bin/lbs suite plan `,用于组织常跑测试集, 例如 `core-smoke`、`local-agent-gate` 和 `agent-runner-release-gate`。发布门禁使用 `agent-runner-release-preflight` 先分类配置 blockers 和 runtime env issues,再运行较重的浏览器 Debug Chat case。 依赖 fixture 的 case 可以在浏览器执行前先跑 `bin/lbs fixture check`,检查 `fixtures/fixtures.json` 登记的 deterministic 文件、plugin 包和本地测试 server 是否存在。 `bin/lbs suite start ` 会生成 suite run id、suite evidence root、per-case evidence 目录、 `suite-start.json`/`suite-start.md` handoff 文件和 per-case evidence 命令; 浏览器自动化脚本会写入 `automation-result.json`,供 `bin/lbs test report` 展示原始自动化结论; `bin/lbs test result ` 会在人工/agent browser case 完成后写入最终 `result.json`; `bin/lbs suite report --evidence-dir ` 会聚合各 case 的 `result.json`,并且 不会把缺少 required evidence 的 `pass` 当作 suite 通过。 Runner 专用 Debug Chat case 通过 `automation_pipeline_url_env` 和 `automation_pipeline_name_env` 绑定专用 pipeline 变量,避免 local-agent、Codex 或 Claude Code case 误用通用 `LANGBOT_PIPELINE_URL` 后产生假阳性。 Debug Chat case 还可以通过 `automation_stream_output` 固定流式或非流式发送路径。 多模态 Debug Chat case 可以通过 `automation_image_base64_fixture` 复用 deterministic 图片 fixture。 `test plan` 和 `suite plan` 会输出 readiness,让 agent 在执行浏览器前就看到缺失的 env、 自动化变量、fixture,以及需要人工确认的 `manual_check` 前置条件。 完成标准: - `lbs case list` 或后续 filter 能回答“smoke 跑哪些”、“哪些适合 CI”、 “哪些需要真实 provider credentials”。 ### Phase 4:开发者沉淀流程 目标:开发者让 agent 测新 feature 后,稳定路径不会丢在聊天记录里。 流程: 1. 开发者要求 agent 通过浏览器测试某个 feature。 2. agent 先按 UI 主路径探索。 3. agent 用 `lbs test start` 固定运行窗口,再用 `lbs test report` 写报告。 4. 如果路径稳定,agent 新增或更新 case。 5. 如果出现可复用故障,agent 新增或更新 troubleshooting。 6. agent 跑 `bin/lbs validate` 和 `bin/lbs index`。 完成标准: - feature QA 的结果能进入资产库,而不是只留在一次对话里。 ### Phase 5:选择性浏览器自动化 状态:已有第一版 `test run` 入口和两个 Playwright 脚本。 目标:只自动化少量稳定、值得重复跑的黑盒路径。 建议顺序: 1. `webui-login-state` 2. `pipeline-debug-chat` 3. `local-agent-basic-debug-chat` 4. `local-agent-rag-debug-chat` 5. 一个基于 deterministic fixture 的 plugin 或 MCP smoke path 执行策略: - 继续把 Computer Use 或 Playwright MCP 作为默认交互路径; - 只给稳定、确定性的路径补直接 Playwright script; - 保存 screenshots、console logs、trace/video; - flaky 或强依赖真实 credentials 的 provider case 暂时不要进 CI。 当前已经绑定: - `webui-login-state` -> `scripts/e2e/webui-login-state.mjs` - `pipeline-debug-chat` -> `scripts/e2e/pipeline-debug-chat.mjs` 第一版自动化先产出 `reports/evidence//` 下的 console、network、screenshot 和 result JSON。真实执行后仍要用 `lbs test report --since ... --console-log ...` 做日志守卫和 最终报告。开发期间可以先用 `bin/lbs test run --dry-run` 检查命令和 evidence 路径。 Debug Chat 类脚本应复用 `scripts/e2e/lib/debug-chat.mjs`,避免重复实现 visible response leaf 判断和已知失败信号分类。 完成标准: - 小规模 smoke subset 可以不靠人工决定每一步点击;更大的资产库仍然服务于人工/agent 驱动的探索式 E2E。 ## 下一批动工切片 在做 browser runner 之前,继续做这些: 1. 等 LangBot 当前开发状态稳定后,用一次真实 `pipeline-debug-chat` 跑通 `test start -> test run -> test report -> test result -> suite report`,产出 sample report。 2. 只给 smoke/local-agent 首批 case 补必要元数据。 3. 继续补日志守卫规则,尤其是 WebSocket、plugin runtime、provider streaming、前端 chunk/rendering failure。 4. 约定 report 产物目录、截图和 console/network 导出的命名方式。 5. 再评估是否开始给 `webui-login-state` 和 `pipeline-debug-chat` 做直接 Playwright 自动化。 这样 infra 会立刻有用,同时保留后续自动化 browser execution 的空间。