低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

原来最强AI不是一个AI

量子位 | 公众号 QbitAI

这年头，AI圈最不缺的就是“得不到的白月光”。

Claude Fable 5

望洋兴叹，一边盘算着高昂的调用成本时，有人已经悄悄把这桌“满汉全席”给掀了。

怎么掀的？一手精妙的“拼图游戏”。

最近上线了一套可编程路由策略

Routing DSL

，多个模型同时答题，自动仲裁出最优解。

几个你现在就能调用的“常规模型”，给它来个组合编排，跑出来的综合胜率，直接掀翻了Fable 5的单体基准线。

Opus 4.8打不过Fable 5，GPT-5.5也单挑不过，但这两个拼一组，结果就反超了。

哪怕是不混编，同一个Opus 4.8自己跟自己组队，综合得分也能从58.5%拉到约

，追平Fable 5。

换成几个更便宜的模型组队（Gemini+Kimi+DeepSeek），也只差Fable 5一个点，

反直觉的结果：组合>任何单兵

一组测试（注：以下为示意性数据，用于说明趋势，非官方跑分），100道任务里评分了

组合面板（多模型并行+仲裁）的得分，普遍高于它的每一个成员模型：

任意一个“组合面板”，都打过了它自己的每一个成员。Opus 4.8 + GPT-5.5（约67.5%）同时高于Opus单跑（约58.5%）和GPT-5.5单跑（约60%），拉开7~9个点；

多个组合追平、甚至超过了Fable 5单跑（约65.5%）；

连“自我组合”（Opus×2，约65.5%）都能追平Fable 5；一组便宜模型（Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro，约64.5%）也几乎贴脸——

再把DSL按难度智能分流跑成完整端点，差距更为直观（同为示意数据）：

很明显，赢的不是“更强的模型”，而是

为什么“人多力量大”对模型也适用

道理和让三个工程师同时做题、再挑出最好的答案一样。

不同模型的知识盲区和犯错方式并不相同：

各自独立作答，错误是分散、不重叠的；

再用“裁判”或“投票”把对的挑出来，整体正确率自然会被抬上去。

OrcaRouter做的，就是

从这些分歧里挑出最优解

怎么做到的：用最简单的配置，解最复杂的调度

OrcaRouter把这套编排逻辑交给你自己写。

规则用YAML，条件用Google的CEL表达式（安全沙箱、只读、微秒级求值），自上而下匹配，第一条命中即生效。

整条请求的处理路径是这样的：

when: difficulty > 0.8 # 难题 → 上顶配

use: { model: “anthropic/claude-opus-4-8”, reasoning_effort: “high” }

when: difficulty < 0.3 # 简单请求 → 走便宜模型

use: { model: “google/gemini-3-flash” }

delegate: balanced

低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超

作者gjqs

作者 gjqs

相关文章

OpenAI重返机器人赛道！四大核心岗位开招

机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑