Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

可以长时间执行任务，人类不用经常回来检查它的工作

量子位 | 公众号 QbitAI

距离上一版4.7只过了43天。

手快的网友@stevibe已经做出了两大版本pk演示。

也有人补充了与Mythos已知数据的对比，Opus 4.8在部分能力上甚至超过Mythos。

官方特别强调，Opus 4.8可以长时间执行任务，

人类不用经常回来检查它的工作

多家早期测试企业也给出了反馈。

Cursor的CEO确认Opus 4.8在CursorBench上的表现超越了此前所有Opus模型。

Devin的CEO认为Opus 4.8修复了4.7中被开发者抱怨最多的两个问题：注释冗余和工具调用不稳定。

代码缺陷漏报率降至前代四分之一

公告称Opus 4.8最显著的改进是

AI的一大问题是会草率下结论，即使证据不足，也会自信地声称取得了进展。

但Opus 4.8更有可能标记出其工作中的不确定性，并且

不太可能做出未经证实的断言

具体到代码任务上，不报告代码缺陷的可能性降低到Opus 4.7的1/4。

“不加批判地报告有缺陷的结果”这一行为，在Claude系列中还是首次出现。

在这方面，Opus 4.8的表现甚至超过Mythos。

另外，Opus 4.8发生硬编答案等“过度自信”行为的概率，下降至Opus 4.7的1/10。

不过244页的System Card中也标记了一个值得持续关注的对齐隐患：

模型在推理文本中出现了越来越多的对评分者的推测倾向。

也就是说，模型可能正在发展出“自己正在被评估”的感知，并据此调整行为。

动态工作流：数百个子智能体并行

与Opus 4.8同日上线的

（Dynamic Workflows）功能，目前以研究预览的形式在Claude Code CLI、桌面版和VS Code扩展中提供。

动态工作流的运作方式是：

Claude根据提示词动态生成一个JavaScript编排脚本，将任务拆解成子任务，分发给数十甚至数百个并行运行的子智能体。

这些子智能体从不同角度处理问题

，整个流程反复迭代直到结果收敛，最终合并为一个统一的输出交给用户。

所有中间结果存储在脚本变量中而非对话上下文里，因此主会话始终保持响应状态，任务规模再大也不会偏离计划。进度会持续保存，即使中途中断也能从断点继续。

这与此前Claude Code中的子智能体机制有本质区别。

此前的方式是Claude本身逐轮决定下一步做什么，每个中间结果都要回到对话上下文中，占用token。

动态工作流则将编排逻辑移入代码脚本，Claude的上下文中只保留最终结果。

Anthropic展示的标杆案例是JavaScript运行时

Bun从Zig到Rust的移植

Bun的创始人Jarred Sumner使用动态工作流完成了这项工作：

一个工作流为Zig代码库中的每个struct字段映射正确的Rust lifetime，下一个工作流为每个.zig文件编写行为一致的.rs移植版本，数百个智能体并行工作。

随后通过修复循环驱动构建和测试套件直到全部通过。移植完成后，一个隔夜工作流处理了不必要的数据拷贝，并为每处修改开出PR供最终审查。

Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行

作者gjqs

作者 gjqs

相关文章

OpenAI重返机器人赛道！四大核心岗位开招

机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑