


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
AI当老板,快给10家公司干破产了…
画出那个矩阵的能力——还属于人类。
量子位 | 公众号 QbitAI
AI当「老板」,快给10家公司干破产了……
普林斯顿大学最近搞了个
,让AI运营一家虚拟SaaS初创,为期500天。
谁曾想,14位硅基CEO上场,只有4个保住了本金。
纯rule-based算法
AI自主运营公司?让AI当老板??
至少现在,还是个大问号。
当然,也有一些能力突出的模型,已经展现出潜力了——
Fable 5,500天到账4715万美元,全世界最强「AI老板」。
在正式开始观看本场「AI翻车」名场面前,先讲讲游戏规则。
启动状态:本金100万美金,零客户。
游戏目标:在500天的模拟周期内,尽可能多赚钱。
评判标准:游戏结束时账上还剩多少钱。如果中途余额跌破零,直接宣告破产,模拟终止。
还蛮容易理解的,跟玩大富翁差不多,只不过交互方式不一样。
,包含34个工具、19张数据库表。Agent接入后,可以写代码、用SQL查询数据库,再根据查询结果动态调整工作流。
博弈环境中的变量也要多得多。
定价策略、广告投放渠道、研发预算分配、基础设施扩容、客服团队配置——全得自己拿主意。
,AI可以在上面刷帖子、看客户投诉、视奸竞争对手。
基本上能操控公司的一切,权限无限大,和人类CEO一模一样。
但这也意味着,没有人再从对话框里敲下指令。模型必须独自为每一个判断负责。
这也是这场「饥饿游戏」最有意思的地方——
广告投放后,客户可能下周才来;研发预算砸进去,产品质量提升要等好几天……
成本马上就能烧干。回报,会延迟很久。
这就是CEO最害怕的「不确定性」,错一步就会触发连锁反应。
想用统计学路线大力出奇迹?不好意思,关键变量全部「隐式」存在。
客户满意度、支付意愿、最低质量预期——这些指标,只能从退订率、工单数量、社交网络里反推。
与此同时,外部环境始终在动态变化:竞争对手会出阴招,市场偏好随时间漂移,还有宏观的经济周期……
堪称「地狱级」难度的长程决策任务。
上下文太爆炸了,不可能等所有信息去噪结束再做决定,人类CEO更多时候也是靠直觉。
事实证明,结果确实惨烈。
14位参赛选手中,绝大多数裤衩子都快亏没了。
GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20,这五位更是中道崩殂,
甚至都没完赛,「破产」遗憾离场。
跑出正收益AI,只有3个:
Claude Fable 5,4715万美元;
Claude Opus 4.8,2780万美元;
GPT-5.5,2130万美元。
冠军花落Fable 5——全世界最会当「老板」的模型。
毫无悬念的第一名,给本金翻了整整47倍,断层领先第二名Opus 4.8。
并且,Fable 5是唯一一个在不止一次运行中收益超过初始资金的模型。
(btw,安全限制还在发力,Fable 5多次拒绝响应)
但这不是最精彩的地方。
其实有四位选手赚到了钱,只不过
三位最佳「资本家」之外,排在第四名的参赛选手——
是个纯rule-based的启发式算法。
完全没有调用任何语言模型。固定定价、固定配额、固定层级……全是脚本设计好的规则。