


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超
原来最强AI不是一个AI
量子位 | 公众号 QbitAI
这年头,AI圈最不缺的就是“得不到的白月光”。
Claude Fable 5
望洋兴叹,一边盘算着高昂的调用成本时,有人已经悄悄把这桌“满汉全席”给掀了。
怎么掀的?一手精妙的“拼图游戏”。
最近上线了一套可编程路由策略
Routing DSL
,多个模型同时答题,自动仲裁出最优解。
几个你现在就能调用的“常规模型”,给它来个组合编排,跑出来的综合胜率,直接掀翻了Fable 5的单体基准线。
Opus 4.8打不过Fable 5,GPT-5.5也单挑不过,但这两个拼一组,结果就反超了。
哪怕是不混编,同一个Opus 4.8自己跟自己组队,综合得分也能从58.5%拉到约
,追平Fable 5。
换成几个更便宜的模型组队(Gemini+Kimi+DeepSeek),也只差Fable 5一个点,
反直觉的结果:组合>任何单兵
一组测试(注:以下为示意性数据,用于说明趋势,非官方跑分),100道任务里评分了
组合面板(多模型并行+仲裁)的得分,普遍高于它的每一个成员模型:
任意一个“组合面板”,都打过了它自己的每一个成员。Opus 4.8 + GPT-5.5(约67.5%)同时高于Opus单跑(约58.5%)和GPT-5.5单跑(约60%),拉开7~9个点;
多个组合追平、甚至超过了Fable 5单跑(约65.5%);
连“自我组合”(Opus×2,约65.5%)都能追平Fable 5;一组便宜模型(Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro,约64.5%)也几乎贴脸——
再把DSL按难度智能分流跑成完整端点,差距更为直观(同为示意数据):
很明显,赢的不是“更强的模型”,而是
为什么“人多力量大”对模型也适用
道理和让三个工程师同时做题、再挑出最好的答案一样。
不同模型的知识盲区和犯错方式并不相同:
各自独立作答,错误是分散、不重叠的;
再用“裁判”或“投票”把对的挑出来,整体正确率自然会被抬上去。
OrcaRouter做的,就是
从这些分歧里挑出最优解
怎么做到的:用最简单的配置,解最复杂的调度
OrcaRouter把这套编排逻辑交给你自己写。
规则用YAML,条件用Google的CEL表达式(安全沙箱、只读、微秒级求值),自上而下匹配,第一条命中即生效。
整条请求的处理路径是这样的:
when: difficulty > 0.8 # 难题 → 上顶配
use: { model: “anthropic/claude-opus-4-8”, reasoning_effort: “high” }
when: difficulty < 0.3 # 简单请求 → 走便宜模型
use: { model: “google/gemini-3-flash” }
delegate: balanced