AI当老板，快给10家公司干破产了…

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

AI当老板，快给10家公司干破产了…

画出那个矩阵的能力——还属于人类。

量子位 | 公众号 QbitAI

AI当「老板」，快给10家公司干破产了……

普林斯顿大学最近搞了个

，让AI运营一家虚拟SaaS初创，为期500天。

谁曾想，14位硅基CEO上场，只有4个保住了本金。

纯rule-based算法

AI自主运营公司？让AI当老板？？

至少现在，还是个大问号。

当然，也有一些能力突出的模型，已经展现出潜力了——

Fable 5，500天到账4715万美元，全世界最强「AI老板」。

在正式开始观看本场「AI翻车」名场面前，先讲讲游戏规则。

启动状态：本金100万美金，零客户。

游戏目标：在500天的模拟周期内，尽可能多赚钱。

评判标准：游戏结束时账上还剩多少钱。如果中途余额跌破零，直接宣告破产，模拟终止。

还蛮容易理解的，跟玩大富翁差不多，只不过交互方式不一样。

，包含34个工具、19张数据库表。Agent接入后，可以写代码、用SQL查询数据库，再根据查询结果动态调整工作流。

博弈环境中的变量也要多得多。

定价策略、广告投放渠道、研发预算分配、基础设施扩容、客服团队配置——全得自己拿主意。

，AI可以在上面刷帖子、看客户投诉、视奸竞争对手。

基本上能操控公司的一切，权限无限大，和人类CEO一模一样。

但这也意味着，没有人再从对话框里敲下指令。模型必须独自为每一个判断负责。

这也是这场「饥饿游戏」最有意思的地方——

广告投放后，客户可能下周才来；研发预算砸进去，产品质量提升要等好几天……

成本马上就能烧干。回报，会延迟很久。

这就是CEO最害怕的「不确定性」，错一步就会触发连锁反应。

想用统计学路线大力出奇迹？不好意思，关键变量全部「隐式」存在。

客户满意度、支付意愿、最低质量预期——这些指标，只能从退订率、工单数量、社交网络里反推。

与此同时，外部环境始终在动态变化：竞争对手会出阴招，市场偏好随时间漂移，还有宏观的经济周期……

堪称「地狱级」难度的长程决策任务。

上下文太爆炸了，不可能等所有信息去噪结束再做决定，人类CEO更多时候也是靠直觉。

事实证明，结果确实惨烈。

14位参赛选手中，绝大多数裤衩子都快亏没了。

GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20，这五位更是中道崩殂，

甚至都没完赛，「破产」遗憾离场。

跑出正收益AI，只有3个：

Claude Fable 5，4715万美元；

Claude Opus 4.8，2780万美元；

GPT-5.5，2130万美元。

冠军花落Fable 5——全世界最会当「老板」的模型。

毫无悬念的第一名，给本金翻了整整47倍，断层领先第二名Opus 4.8。

并且，Fable 5是唯一一个在不止一次运行中收益超过初始资金的模型。

（btw，安全限制还在发力，Fable 5多次拒绝响应）

但这不是最精彩的地方。

其实有四位选手赚到了钱，只不过

三位最佳「资本家」之外，排在第四名的参赛选手——

是个纯rule-based的启发式算法。

完全没有调用任何语言模型。固定定价、固定配额、固定层级……全是脚本设计好的规则。

AI当老板，快给10家公司干破产了…

作者gjqs

作者 gjqs

相关文章

光帆科技与腾讯出行服务达成战略合作开启新一轮预售

「斯隆奖」得主戴亮全职加盟复旦

连GitLab都开始裁程序员了

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑