GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

量子位 | 公众号 QbitAI

最近，清华教授、智谱灵魂人物

昨天先是畅聊AI认知，“AI的终局就是AGI，一场猎龙游戏”。引起广泛热议后，一觉醒来今天又在当众征集意见：

不过要说网友们为啥这么捧场，还得倒回去年GLM-4.6刚开源那会儿。

彼时唐杰也问过这么一回，评论区纷纷热情支招，一条条需求后来陆陆续续都在GLM后续版本中有所实现。

真·有求必应·阿拉丁。

所以这次他一张口，懂行的人立马团建去了～有po自己痛点的，也有智谱自家员工在下面留言。

比如这位网友直接列出了自己的愿望清单：更强的Agent能力、超长上下文保持质量、更灵活的API……

更有甚者诚恳祈祷：求你了GLM！做一个类似Codex的桌面应用！！

有趣的是，这次GLM-5.3的评论区，刷得最多的还是——

强到离谱！开源界AI编程第一、全球第二，仅屈居于大名鼎鼎的神话级模型Fable-5。

但要说痛点，很明显，也是真的痛：

，搞得动百万Token超长上下文和深度逻辑推理，但偏偏没搭载视觉编码器，看不了图也造不出图。

反观拿来对标的Fable-5，它是原生多模态模型，视觉能力应有尽有。

于是GLM用户双双流下羡慕的泪水：我也想拥有TT

。恰恰相反，今年4月智谱发过一个叫GLM-5V-Turbo的模型。

原生多模态的Coding基座，从预训练阶段就把视觉和文本揉在一起，能看懂设计稿、截图、网页界面，然后直接吐出能跑的代码，主打视觉+代码+Agent一体化。

再往前看，智谱也做过不少多模态模型，

视觉编码器就出自他们之手。唐杰本人发表过的视觉论文，更是一抓一大把。

所以问题压根不是有没有视觉能力，而是智谱没把视觉放进最强旗舰模型中去。

这一点从唐杰过往的发言中也可见一斑，比如去年底的大模型年终总结，他先是肯定

问题是，当下的多模态对提升AGI的智能上界，帮助有限。可能最有效的方式还是

，文本、多模态、多模态生成。当然适度的探索这三者的结合肯定能发现一些很不一样的能力，但这需要勇气和雄厚的资本支持。

唐杰这种冲在AI一线的科学家，盯着的始终还是第一性原理——

。视觉可以让模型更好用，但要让模型更聪明，靠的还是复杂推理那套硬功夫。

这就是用户和厂商的视角差异。

AGI对于用户太遥远了，所以用户更在乎的是，眼下贴张图模型能不能接住、截个屏模型能不能看懂。

于是就出现了这条推文里最微妙的拉扯。一边是科学家盯着智能的天花板，觉得视觉只是锦上添花；一边是全世界的开发者都在齐刷刷呼喊视觉。

Kimi K2.5今年1月就是原生多模态了，Qwen3.5-Omni三月份端到端把文本/图像/音频/视频全统一进一个模型，更别说国际上Gemini 3那种原生文图音视频一把抓的。

GLM旗舰款补足视觉，几乎是迫在眉睫。且等接下来端上桌的

One More Thing

最后再看看唐杰最近的一些分享吧，还挺值得琢磨的。

https://x.com/jietang/status/2071454597521215748?s=20

https://x.com/ZixuanLi_/status/2071491673511674059?s=20

https://m.weibo.cn/status/5247011059141988

OceanBase湖库一体，重新定义AI数据库

4秒出百万面！突破千万面精度+12K高清贴图，手握数亿的3D生成公司下一局怎么打？

哈？Q1狂烧250亿！OpenAI财报泄露全网炸锅

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

杭州在六小龙之后，又开始投资北京六小虎了

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

赶在2024年的最后一天

2年间AI大模型成本骤降万倍，商业化应用加速跑｜智谱张帆@MEET2025

智谱开源GLM-4.5工具调用超越Claude Opus 4.1，成本仅1.4%

还开启了高性价比AI编程计划

抢跑GPT-5，智谱开源新SOTA模型，一句话搞出能看视频、发弹幕的B站！

首次在一个模型里融合推理、代码和Agent

GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

作者gjqs

作者 gjqs

相关文章

OpenAI重返机器人赛道！四大核心岗位开招

机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑