

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
听雨 闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
OpenRouter Trending榜单冷不丁窜出一匹国产黑马,热度暴涨稳居全球第二。
定睛一看,原来是阶跃星辰新发的
Step 3.7 Flash
再一看,不只OpenRouter,这个新模型在
那边也顺手拿了几个第一;
在HuggingFace上开源之后的下载量和讨论也一直没降过温。
这我是真好奇,这新模型到底火在哪了。
于是咱去感受了一波,手把手教我用Blender这种专业3D软件就算了;
视频地址:https://mp.weixin.qq.com/s/zn_aAddIi3SsccMowCVjHg
它居然还直接带我开飞机,没错,是真的大飞机!!
仪表盘、操纵杆、飞行参数…它一边看屏幕一边讲下一步该按哪个按钮。
视频地址:https://mp.weixin.qq.com/s/zn_aAddIi3SsccMowCVjHg
当然了,教我开飞机只是节目效果,重点是Step 3.7 Flash自己也起飞了——
416 tokens/s
不光快吧,人家还省钱,
单任务成本压到了Claude Opus 4.6的约1/9,但编程能力却做到了Claude的97%
只能说,停停停各位先别跑分了,咋感觉Step 3.7 Flash这次换成效率打法了呢。
模型竞赛的赛点,从单次最强挪到了效率优先
其实前两年大模型圈子的画风还比较简单。
大家比的是啥?比谁聪明。
各家埋头刷Benchmark,成绩多拿一两分就能小火一把,当时比拼的核心是模型单次问答能力的上限。
相信大家也都发现,OpenAI、Anthropic、Cursor嘴里念叨的关键词换成了企业级Agent、工具调用、任务交付……随着Agent成为主流落地形态,原先只拼单点性能的老一套竞赛规则不适用了。
在进入真实业务的Agent工作链路后,AI要反复调用工具、多轮检索信息、分步拆解复杂任务。
一次回答慢两秒,你能忍,但Agent一个任务要调几十次模型,每次都慢两秒,谁的火气都大。
调一次贵一点没感觉,调几十几百次之后,账单突然就开始在你血压上蹦迪了。
这种高频交互带来的调用量暴涨,推理延迟、Token消耗成倍飙升,不光是咱日常用着闹心,开发者和企业的钱包更是遭不住啊。
业内近一年的Agent研究也开始专门引入「预算约束」「成本最优规划」等评价维度,本质上就是因为推理成本已经成为Agent落地的核心瓶颈。
所以现在用AI,真卡住生产的、也急需优化的就是
阶跃星辰这次,好像真找到了Agent时代的版本答案:
同样的活儿,Step 3.7 Flash能更快、更便宜地干完。
咱索性就直接上手试一试!
实测Step 3.7 Flash:又快又省钱
先来看看它看图办事的能力怎么样。
上传了一张灵巧手图片,它能结合外观细节快速确认,还能精准识别分段指节、灰色阻尼指尖、腕部接口等特征。
既然产品确认了,那咱再来看看参数,直接让模型自己去搜,最后给我一张产品表格。
于是Step 3.7 Flash联网搜索了这款灵巧手全维度参数,把厂商信息、硬件配置、负载、售价等内容全给整理了出来。