Fable 5 与长程 Agent：分钟级单轮推理意味着什么

当我们谈论「更强的模型」时，大多数人脑海里浮现的还是更高的跑分、更快的响应、更长的上下文。但 Anthropic 最新的广泛发布旗舰 Claude Fable 5，把一个此前一直被刻意压低的维度推到了台前：单轮推理的时间预算。在 Fable 5 上，一个困难任务的单次请求可以持续运行数分钟。这听起来像是退步——谁愿意等？但如果你做过 Agent，就会意识到这恰恰是长程自治能力的物理前提。本文围绕这一点，谈谈分钟级单轮推理对 Agent 工程意味着什么。

先把事实摆清楚

Fable 5 是 Anthropic 当前最强的广泛发布模型，定位于最苛刻的推理与长程 agentic 工作。它的关键特性包括：1M token 的上下文窗口（也是默认值），最高 128K 的输出；思考能力始终开启，你不再需要、也无法手动配置一个 thinking 开关，而是通过 effort 参数（从 low 到 max）来调节推理深度；它采用了新的分词器，相同内容的 token 数比 Opus 一代大约多出 30%；定价为每百万 token 输入 $10、输出 $50。在困难任务上，单轮请求可以跑数分钟；它在长程自治 Agent 与并行子 Agent 协作上表现突出；同时，其安全分类器在特定领域可能直接拒绝请求。

这些就是我们立论的全部硬事实，下面的讨论不会超出它们。

为什么「单轮分钟级」是一道分水岭

传统的对话式调用有一个隐含的节奏假设：模型在几秒内吐出答案，然后把控制权交还给调用方。整个交互被切成许多个「短轮」，每一轮模型只走一小步。在这种节奏下做 Agent，工程师必须自己在外层写一个循环——调用、解析、再调用——把长任务硬生生拆成上百个短请求。模型本身从不「连续工作」很久，它只是被反复唤醒。

分钟级单轮推理打破的正是这个假设。当一次请求可以持续数分钟，模型就有机会在同一个推理上下文内完成「收集信息 → 规划 → 执行 → 自我验证」的完整闭环，而不需要每一步都回到调用方、丢失中间状态、重新建立语境。对于「把这份设计文档变成一个可运行的服务」这类无法事先完全规格化的任务，这种连续性带来的不是量变而是质变：它减少了拆解任务时的信息损耗，也让模型的自我纠错有了施展空间。

换句话说，effort 参数从 low 到 max 调节的，本质上是模型「允许自己思考和行动多久、多深」。把 effort 调高，你买到的不只是更聪明的答案，更是一段更长的自治轨迹。

工程上的连锁反应：你的代码必须重写节奏

好消息有代价。一旦接受单轮可以跑数分钟，整个客户端的工程假设都要跟着改。

超时与流式是必需品，不是优化项。 一个会阻塞数分钟的请求，如果用非流式同步调用，几乎必然撞上 HTTP 超时。正确做法是用流式接口，让响应一边生成一边回传，同时把超时阈值放宽到与任务时长匹配。这也顺带解决了用户体验问题——没人愿意盯着一个转了三分钟却毫无反馈的圈。

进度 UX 要重新设计。 当模型连续工作几分钟，调用方需要一种方式让用户「异步地」查看进展，而不是同步阻塞在那里等结果。把长任务设计成可以中途check-in的形态，比把它包在一个 await 里更符合分钟级推理的现实。

effort 要做扫描，而不是拍脑袋。 对日常的轻量任务，把 effort 一律调到 max 既慢又贵；Fable 5 的低 effort 设置在很多任务上已经表现优异。务实的做法是针对不同工作负载做一次 effort 扫描，把 low/medium 留给例行工作，把高 effort 留给真正困难、且正确性比成本更重要的任务。

长程自治与并行子 Agent

Fable 5 的另一处发力点是长程自治 Agent 与并行子 Agent。这两者其实是同一枚硬币的两面：一个能连续工作数分钟的主 Agent，自然可以把独立的子任务分派给若干并行的子 Agent，自己继续推进，而不是spawn 之后干等最慢的那个返回。这种「异步委派、保持工作」的协作模式，依赖的正是单轮长推理提供的连续语境——长寿命的子 Agent 不必每个子任务都重新建立上下文。

值得强调的是，这种能力是模型层面的，而不是靠外层框架硬凑出来的。框架当然仍要负责调度和通信，但模型本身具备了「在长时间跨度内保持目标连贯」的底子，框架的工作就从「替模型记住它在做什么」变成了「给模型一个清晰的目标和边界」。

新分词器与拒绝：两个容易踩的坑

最后提两个实操注意点。其一，新分词器意味着你在 Opus 一代上测出来的 token 数、上下文预算、max_tokens 设置都不能直接搬过来——相同内容多约 30% 的 token，会实打实地反映在账单和上下文占用上。迁移时务必用 Fable 5 重新基线化。

其二，安全分类器可能直接拒绝请求。这不是异常报错，而是一次成功的返回，只是带着「拒绝」的停止原因。健壮的客户端应当先检查停止原因，再去读取响应内容，否则在被拒绝的请求上会直接踩到空内容。

一句话总结

Fable 5 把「单轮可以跑数分钟」从缺陷变成了特性——它是长程自治 Agent 的物理前提，而代价是你必须用流式、异步进度和 effort 扫描，重新校准整个客户端的工程节奏。