


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
刚刚,豆包2.1发布!Agent自己跑18个小时搞定芯片设计代码
编程比肩Opus 4.7
量子位 | 公众号 QbitAI
就在刚刚,又一个新版国产模型来了。
这个版本一共包含2个模型,分别是Doubao-Seed-2.1-Pro和Doubao-Seed-2.1-Turbo,并且API服务已全量上线火山方舟。
那么这个新模型到底什么水平?
https://mp.weixin.qq.com/s/Q4UufKRH4-BTlA3mRE7Uvg
行业里非常严谨的RTL环节,会细节到每个寄存器和信号线在每个时钟周期里怎么流动都得说清楚。
这个工作量基本上得3-5名人类工程师花数周时间才能搞定。
而Seed 2.1 Pro围绕一个16×16 PE的Tiny NPU Tile,
,经历9轮迭代,最终完成了6个核心模块、1303行RTL代码!
再来看下榜单评分的表现。
以贴近真实终端编程环境的
Terminal Bench 2.1
为例,Seed 2.1 Pro已经做到了基本上能和Claude Opus 4.7持平;在科学计算代码评测
上,Seed 2.1 Pro甚至超过Opus 4.7和GPT-5.5。
并且像工具调用的MCP-Atlas评测,Seed 2.1 Pro同样是超过了Opus 4.7和GPT-5.5。
Agents’ Last Exam
(ALE,覆盖13个行业集群、1000多项高经济价值真实任务)基准评测中,Seed 2.1 Pro已经处于当前参评模型的第一梯队水平。
因为Seed 2.1 Pro在能力跟国外头部AI做到比肩的同时,价格还仅仅是1/4(以Opus 4.6-4.8为例):
并且放眼国内玩家,Seed 2.1 Pro也是具备一定优势:
每百万Token输入价格为
、缓存命中条件下只需要
的介绍,豆包日均Token的使用量已经突破
那么把豆包最新模型丢到实实在在的工作环境,它的效果到底如何?
老规矩,一波实测走起~
把Seed 2.1 Pro扔进一天的工作流
中调用Seed 2.1 Pro API完成。
也就是把它放进一个更接近Claude Code、Codex的开发者环境里,看它面对长Prompt、代码生成、文件型交付和结构化报告时,能不能真正把任务跑下来。
第一个任务,我们直接上强度:
生成一个完整的3D房屋
我们给Seed 2.1 Pro的Prompt是这样的:
请在当前目录创建一个单文件WebGL2项目,只生成一个index.html,不要创建其它文件。
目标:实现一个可以在浏览器中直接运行的3D房屋展示,类似一个完整的郊区别墅/住宅模型。要求结构完整、体积可信、可交互导航,并且全部代码都写在index.html里。
只允许一个index.html文件。
不允许使用Three.js、Babylon.js、React、Vue、外部CDN、图片、字体、glTF模型或任何外部资源。
必须使用原生WebGL2。
浏览器打开index.html后即可运行。
页面中必须有一个完整的3D房屋场景,而不是简单盒子。
鼠标左键拖拽旋转视角;
WASD移动视角或平移;
代码要有基本结构,不要堆成不可维护的一团。
主体房屋至少包含两层体量;
有多段坡屋顶,屋顶不能只是一个平板;
有多个窗户,窗户要有窗框和玻璃材质;
有树、灌木、路灯等简单环境元素;
有基础光照、阴影感或明暗层次;
有天空背景或渐变背景;
整体风格偏温暖、干净、低多边形但精致。