< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

黄仁勋说的Physical AI,被这家中国跨界选手带进了生命科学实验室

第三方测评超越OpenAI最强旗舰GPT-5.6 Sol

当AI公司还在读论文,Bio公司已经让AI做完了实验。

没错,又一热门AI赛道,被国产玩家率先跑通了——

AI for Bio,生命科学领域

时至今日,这个赛道几乎挤满了最不缺算力的一批硅谷玩家

OpenAI发GPT-Rosalind,专攻药物发现和基因组学;谷歌推Co-Scientist和ERA,把多Agent系统塞进科学推理流程;Anthropic上线面向科研流程的Claude Science工作台。

虽然大家想的都是让大模型读完论文后,写个「完美」的实验方案,再真正走进实验室,但奈何现实很骨感:

真正让AI接管实验室并跑通实验的?约等于无

就拿最接近终点的OpenAI和Ginkgo Bioworks的合作来说,GPT-5在那个项目里负责的是实验设计和参数探索,真正在实验台上执行的Catalyst protocols,全部由Ginkgo的人类工程师编写。

换句话说,强如OpenAI,模型也没有真正接触到「做实验」这一层。

△图源:OpenAI官网

不过现在,全球第一个补上这关键一步的来了。

华大智造子公司涌生智能×上海人工智能实验室,联合发布两项新成果

:一款由真实实验室场景驱动的自进化多智能体系统;

BioLab Bench

:生命科学领域首个从用户需求到设备可执行的全流程Agent评测体系。

从自然语言实验意图到湿实验物理执行,完整闭环,真实验证。

这一次,让AI「真正走进实验室」的不是哪家AI巨头,是一家跨界做AI的中国Bio公司。

这事估计连老黄都没想到:

年初他在CES上说,「Physical AI的ChatGPT时刻」到了,说的是机器人和自动驾驶。

第一个在生命科学实验室交出Physical AI答卷的,来自深圳

AI for Bio,到底卡在哪了

为什么硅谷这帮最不缺算力的玩家,集体卡在了实验室门口?

要回答这个问题,其实只需要弄清楚一件事:

从模型到实验室,这中间到底缺了什么?顶尖模型在手,怎么就跨不过这道坎呢?

让我们从AI for Bio这个赛道的真实进展说起。

过去几年,AI在生命科学领域的应用多聚焦于「理解」和「分析」。

文献阅读、知识问答、序列比对、蛋白质结构预测,模型确实博学,但它本质上是个坐在屏幕后面的助理。

它能帮你理解世界,但还没真正进入世界

Agent时代来了之后,事情开始变了。AI不再只满足于回答问题,它开始「设计和行动」。

应此潮流,以OpenAI、Anthropic为代表的前沿AI玩家,开始把目光投向更下游、更主动的方向:

假设生成、实验设计、参数空间探索、药物发现、蛋白工程、自动化实验。

听起来是不是已经很接近「让AI进实验室干活」了?

但现实情况是——还差得很远。

当下AI for Bio最真实的现状就一句话:

能力达到博士级水平的顶尖AI,确实能写出一段看起来专业的实验方案,但写得好≠跑得通。

这中间几乎隔着一整条转换链。ProtoPilot的论文拆得很清楚:

一个实验意图要变成湿实验台上的真实操作,需要穿过五层——科学意图、Protocol(方案设计)、SOP(标准操作流程)、设备代码,再到物理执行和反馈修正。

而每一层都要解决不同的模糊性,比如Protocol要表达生物逻辑、样本谱系和质控结构;SOP要把逻辑落到可操作的体积、浓度、耗材和温控条件上;设备代码要绑定deck布局、孔位映射、液体处理动作和厂商SDK指令……

就这一套下来,只要有任一环节出错,实验就可能失败。

所以,当AI for Bio的竞争从「模型能不能回答生命科学问题」转向「模型能不能走完从屏幕到实验台的全链路」时,行业真正缺的也就浮出水面了。

一块是「铲子」,能接住模型输出、连接专家、设备和湿实验反馈的Bio Agent Harness

没有这个,方案再漂亮也只能停在屏幕上。

一块是「尺子」,能评价Bio Agent真实实验链路能力的benchmark

不是考它做选择题,是看它生成的流程能不能在真实设备上跑得通。

现在公开的benchmark,比如ProtocolQA,考的还是阅读理解。

需要提醒,这两件事都不是坐在屏幕前就能凭空设计出来的,它们必须来自真实实验室:

真实任务、真实设备、真实约束、真实失败和真实专家判断。

作者 gjqs