Propagate agent runner model usage context

2026-06-15 18:26:02 +00:00 · 2026-06-14 07:41:57 +08:00
parent 1153433693
commit 09adf4c541
9 changed files with 507 additions and 27 deletions
--- a/docs/agent-runner-pluginization/PROTOCOL_V1.md
+++ b/docs/agent-runner-pluginization/PROTOCOL_V1.md
@@ -475,8 +475,11 @@ Host 必须校验 `state.updated` 的 scope、key、value 大小和 JSON 可序
 ```python
 # Model
 await api.invoke_llm(llm_model_uuid, messages, funcs=None, extra_args=None)
+await api.invoke_llm_with_usage(llm_model_uuid, messages, funcs=None, extra_args=None)
 async for chunk in api.invoke_llm_stream(llm_model_uuid, messages, funcs=None, extra_args=None):
    ...
+async for event in api.invoke_llm_stream_events(llm_model_uuid, messages, funcs=None, extra_args=None):
+    ...
 await api.invoke_rerank(rerank_model_id, query, documents, top_k=None)

 # Tool
@@ -519,6 +522,16 @@ await api.get_langbot_version()
 `llm_model_uuid`，wire payload 字段也是 `llm_model_uuid`。该值对 runner
 仍是 opaque identifier，不应解析其内部格式。

+`invoke_llm()` 和 `invoke_llm_stream()` 保持兼容：前者返回 `Message`，后者只
+yield `MessageChunk`。需要 provider 真实 token 计量的 runner 应使用
+`invoke_llm_with_usage()` 或 `invoke_llm_stream_events()`。Host response 可在
+原有 `{message: ...}` / `{chunk: ...}` 外额外携带可选 `usage` 字段；streaming
+场景允许在所有 chunk 之后追加一个 usage-only event。`usage` 至少保留
+OpenAI-compatible 的 `prompt_tokens`、`completion_tokens`、`total_tokens`，
+若 provider 返回 `prompt_tokens_details` / `completion_tokens_details` 或
+cache token counters，Host / SDK 不应丢弃这些字段。没有 usage 的 provider
+必须继续返回成功响应，SDK 将 usage 置为 `None`。
+
 `get_prompt()` 返回当前 query-backed run 的 Host effective prompt messages：
 `list[Message]` 的 JSON 形式。该能力只在 `ctx.context.available_apis.prompt_get`
 为 true 时可用；没有 query 缓存、prompt 已过期或非 query entry run 时 Host