


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
仅4B大小可端侧部署!卡帕西预言的「认知模型」被国产做出来了
效果比肩GPT-5.4
量子位 | 公众号 QbitAI
好家伙,卡帕西又说对了!
几个月前,这位OpenAI创始成员在访谈中抛出了一个判断:
“推理模型要变天了!”
仅需10亿参数,就能构建起非常优秀的
——一个剥离了海量事实记忆、只保留思考算法的智能单元。
结果万万没想到,如今有这样一支中国团队已经率先实践。
小冰之父李笛集结微软小冰原班人马,带着仅成立半年的AI初创公司
(明日新程),刚刚推出了行业首个认知模型
何为首个?事实上,明日新程对认知模型的押注和卡帕西几乎是同一时期给出。
在去年12月的奇绩创坛Demo Day上,明日新程首度公开亮相就明确提出:
AI进化终点不是更大的单体大模型,
才是下一周期行业趋势。
凭借敏锐的行业嗅觉,他们愣是提前卡位、极限抢跑,于是有了今天的新程Alpha。
特别的是,这个模型只有区区
,在动辄千亿万亿、模型参数卷到飞起的大模型里,可谓一股清流。
但就是这么个轻量级选手,却把很多推理大模型做不到的事情做成了:以下克上,不仅搞定了模型算力的痛,最终效果还能比肩第一梯队的GPT-5.4。
这下再也不用月底为Token账单发愁了。(doge)
算力成本立省100%,从烧显卡变成了交电费,而且直接
那么问题来了,为啥这个认知模型可以以小搏大?和主流的知识型推理模型又有什么本质不同?量子位深入挖了挖。
卡帕西的这场访谈,核心其实就一句话:
现有的推理模型正集体陷入
「Scaling困境」
,行业默认参数越大、知识越多,模型就越聪明。
结果呢?那些拥有庞大知识库的模型,看似能解决复杂的数学和编程问题,却总是在细节处频频被网友捉虫,比如“200元取钱”这类逻辑陷阱,甚至说strawberry中有几个“r”这样的简单问题。
单靠死记硬背,模型是学不会深度思考的,尤其是在长程任务中,稍有不慎还会导致错误滚雪球似的指数级放大。模型认知负担越来越重,Token账单也越来越离谱。
比如最近亚马逊员工疯狂用AI,用到公司都不得不紧急关停内部AI排行榜。倒不是因为效果不够好,是算力用得太吓人了,预算再高也架不住这种烧法。
养龙虾更是如此,每个月我的会员额度都在和钱包打架,扛不住啊扛不住……
而这,几乎是今年大厂的普遍真实写照。
看着手里的账单,于是行业内开始复盘,或许问题的核心压根不在知识多少上,而是
模型到底会不会组织知识
前者是拥有知识,后者是运用知识。知识本身已经不再是最稀缺的资源,如何建立知识之间的关系才是关键。
传统的知识型推理模型还是在已有知识中找答案,但认知模型不一样,它具备自主思考和规划能力,能够把单一场景下的思维策略泛化到另一个不相关领域。
这就好比某九段围棋选手,如果只会死记硬背棋谱,那他最多只能算是棋痴,但好巧不巧,他是真的懂棋,能够掌握棋局背后的博弈本质,哪怕让他换赛道去打扑克,也能拿到世界冠军。
所以更进一步说,真正的认知核心应该能被剥离出来——
轻量、可泛化、低成本。
这不仅是一家之言,OpenAI、谷歌DeepMind近来都在明显加强对多智能体协作、长期规划、世界模型和群体智能等方向的投入。