当我们谈论「更强的模型」时,大多数人脑海里浮现的还是更高的跑分、更快的响应、更长的上下文。但 Anthropic 最新的广泛发布旗舰 Claude Fable 5,把一个此前一直被刻意压低的维度推到了台前:单轮推理的时间预算。在 Fable 5 上,一个困难任务的单次请求可以持续运行数分钟。这听起来像是退步——谁愿意等?但如果你做过 Agent,就会意识到这恰恰是长程自治能力的物理前提。本文围绕这一点,谈谈分钟级单轮推理对 Agent 工程意味着什么。
先把事实摆清楚
Fable 5 是 Anthropic 当前最强的广泛发布模型,定位于最苛刻的推理与长程 agentic 工作。它的关键特性包括:1M token 的上下文窗口(也是默认值),最高 128K 的输出;思考能力始终开启,你不再需要、也无法手动配置一个 thinking 开关,而是通过 effort 参数(从 low 到 max)来调节推理深度;它采用了新的分词器,相同内容的 token 数比 Opus 一代大约多出 30%;定价为每百万 token 输入 $10、输出 $50。在困难任务上,单轮请求可以跑数分钟;它在长程自治 Agent 与并行子 Agent 协作上表现突出;同时,其安全分类器在特定领域可能直接拒绝请求。
这些就是我们立论的全部硬事实,下面的讨论不会超出它们。
为什么「单轮分钟级」是一道分水岭
传统的对话式调用有一个隐含的节奏假设:模型在几秒内吐出答案,然后把控制权交还给调用方。整个交互被切成许多个「短轮」,每一轮模型只走一小步。在这种节奏下做 Agent,工程师必须自己在外层写一个循环——调用、解析、再调用——把长任务硬生生拆成上百个短请求。模型本身从不「连续工作」很久,它只是被反复唤醒。
分钟级单轮推理打破的正是这个假设。当一次请求可以持续数分钟,模型就有机会在同一个推理上下文内完成「收集信息 → 规划 → 执行 → 自我验证」的完整闭环,而不需要每一步都回到调用方、丢失中间状态、重新建立语境。对于「把这份设计文档变成一个可运行的服务」这类无法事先完全规格化的任务,这种连续性带来的不是量变而是质变:它减少了拆解任务时的信息损耗,也让模型的自我纠错有了施展空间。
换句话说,effort 参数从 low 到 max 调节的,本质上是模型「允许自己思考和行动多久、多深」。把 effort 调高,你买到的不只是更聪明的答案,更是一段更长的自治轨迹。
工程上的连锁反应:你的代码必须重写节奏
好消息有代价。一旦接受单轮可以跑数分钟,整个客户端的工程假设都要跟着改。
超时与流式是必需品,不是优化项。 一个会阻塞数分钟的请求,如果用非流式同步调用,几乎必然撞上 HTTP 超时。正确做法是用流式接口,让响应一边生成一边回传,同时把超时阈值放宽到与任务时长匹配。这也顺带解决了用户体验问题——没人愿意盯着一个转了三分钟却毫无反馈的圈。
进度 UX 要重新设计。 当模型连续工作几分钟,调用方需要一种方式让用户「异步地」查看进展,而不是同步阻塞在那里等结果。把长任务设计成可以中途check-in的形态,比把它包在一个 await 里更符合分钟级推理的现实。
effort 要做扫描,而不是拍脑袋。 对日常的轻量任务,把 effort 一律调到 max 既慢又贵;Fable 5 的低 effort 设置在很多任务上已经表现优异。务实的做法是针对不同工作负载做一次 effort 扫描,把 low/medium 留给例行工作,把高 effort 留给真正困难、且正确性比成本更重要的任务。
长程自治与并行子 Agent
Fable 5 的另一处发力点是长程自治 Agent 与并行子 Agent。这两者其实是同一枚硬币的两面:一个能连续工作数分钟的主 Agent,自然可以把独立的子任务分派给若干并行的子 Agent,自己继续推进,而不是spawn 之后干等最慢的那个返回。这种「异步委派、保持工作」的协作模式,依赖的正是单轮长推理提供的连续语境——长寿命的子 Agent 不必每个子任务都重新建立上下文。
值得强调的是,这种能力是模型层面的,而不是靠外层框架硬凑出来的。框架当然仍要负责调度和通信,但模型本身具备了「在长时间跨度内保持目标连贯」的底子,框架的工作就从「替模型记住它在做什么」变成了「给模型一个清晰的目标和边界」。
新分词器与拒绝:两个容易踩的坑
最后提两个实操注意点。其一,新分词器意味着你在 Opus 一代上测出来的 token 数、上下文预算、max_tokens 设置都不能直接搬过来——相同内容多约 30% 的 token,会实打实地反映在账单和上下文占用上。迁移时务必用 Fable 5 重新基线化。
其二,安全分类器可能直接拒绝请求。这不是异常报错,而是一次成功的返回,只是带着「拒绝」的停止原因。健壮的客户端应当先检查停止原因,再去读取响应内容,否则在被拒绝的请求上会直接踩到空内容。
一句话总结
Fable 5 把「单轮可以跑数分钟」从缺陷变成了特性——它是长程自治 Agent 的物理前提,而代价是你必须用流式、异步进度和 effort 扫描,重新校准整个客户端的工程节奏。