4天花40亿,glm-5v-turbo体验笔记

2026-04-26 奥古斯宏

智普上线glm-5v-turbo后,第一时间申请,第二天开通,利用清明假期,GLM-5V-TURBO 消耗了近 10 亿 token。这是我的真实使用记录。

文章早就写好了,但是一直没发,又体验了一个月的龙虾内的效果,一起记录下分享给大家。

基本体验

没有乱码,前端能力好,速度稳定。目前体验阶段用量很大,连续用了三个小时,Pro 套餐才用了 86%。

遇到的坑

速度慢

比 GLM-5-Turbo 慢太多,只有晚上的时候速度能快一些。

智能感觉下降了

这一点感受最深。跟 GLM-4.7 很像——我之前写过文章介绍过,GLM-4.7 在 Trae 中很好用,但在 OpenCode 中很吃力,理解不到位、分析不准确、结果达不到预期。GLM-5V-Turbo 给了我同样的感觉。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

制定的所有计划都要人工审核、重新沟通一遍才能用。有很多次让它生成测压脚本,程序能跑通,但完全没有意义,无法体现压力。后来我学了一招:计划生成后再补一句——"先给我讲解一下,你打算怎么做,做成什么样。"相当于加一道人工闸门。

还有一个具体的例子:开发时我在计划和需求里已经明确指明了有些事件默认开启通知、有些默认不开启,但最终实现时这些区分没有被落地。

在openclaw中,明显感觉脑子不如glm-5-turbo灵光。好像是思考深度很低,只能干眼前的事,考虑不全面,还容易干错。比如我让他查询一下新版本有哪些变化,只找了最新版本,在使用glm-5-turbo的时候,会把所有新版本都总结出来。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。


逻辑理解也有问题,经常出现这种绕不过来的想法。我承认我的指令有点绕,但是你应该能自己绕过来才行。

下面这个命令是4月21号的时候问他的,我的意思是从4.5开始到4.21期间的版本,结果理解成了目前安装的版本是4.5,这个版本是多少。我的指令就查把当时的日期告诉他了。

规则阅读有问题

规则文档里已经写了是通过 Docker 运行的,甚至都有步骤,结果它试图在本机 Python 中运行。

注意力不集中

按照规则执行不到位的感觉很明显。使用 OpenCode 时经常出现子代理干错活、多干活的情况(见下图)。这种情况在使用 GLM-5、GLM-5.1、GLM-5-Turbo 时都没有出现过。

工作结果有质量问题

比如让它重构官网,首页的按钮颜色问题一直没有被发现。可能是视觉能力不够细致,改了很多次才改好。应该是分析源码出了问题,最后实在解决不了,直接在 HTML 的 style 里写样式才搞定。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

还有新增活动记录页面这种基础简单的错误也会出现(见下图)。甚至出现过计划没做完,但它报告说完成了的情况。

工具调用和身份认知也有问题

使用 OpenCode 的 Prometheus 规划者时,会话中途切换角色后,它仍然试图自己直接修改文件。被工具拦截报错后(提示"你只能修改 md,不能直接修改"),竟然还会直接委托子代理去编辑。

GLM-5、GLM-5.1、GLM-5-Turbo 也有这个情况,但它们能立即反应过来自己是规划器,回到指定计划的角色。GLM-5V-Turbo 没反应过来。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

为什么还在用

总体来看我还是选择继续用 GLM-5V-Turbo。原因很简单:编程多模态这个定位优势非常大,而且能够持续稳定输出。

前端美感和交互逻辑优化很强

官网重构就是一个很好的例子。GLM 默认的行为都是那种紫色渐变风格,而 5V 考虑得更全面,问的问题也更细致。

媒体区域的调整也能看出差异——它会主动考虑缩略图尺寸、容器布局这些细节。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

测试方式可以改变

使用带视觉能力的模型,第二个好处是你可以把框架工程调整成让它自动测试,而不仅仅是参考和美化页面。

很多人用视觉模型只是为了让它仿制网站或者美化页面。但其实有了视觉模型之后,智能体的测试模式可以从原本的脚本测试转变为实际的操作测试——点击、填写、观察。

我的框架里专门封装了一个命令,可以模拟任何用户发起接口请求进行实际的代码业务测试。这个命令本身很有价值,如果没有它,智能体可能要专门针对项目生成一整套测试脚本才行。但现在有了视觉理解模型,它不光可以通过命令行快速验证接口,还可以针对页面进行测试、分析、浏览、交互优化。

编辑错误基本没出现过

使用 GLM-5 的时候偶尔会遇到编辑错误的问题,GLM-5V-Turbo 上基本没有。

最佳实践:怎么用效果最好

上面说了这么多缺点,但核心问题其实出在用法上——我把 GLM-5V-TURBO 当成了主力模型在用,让它干所有活。后来我调整了方案,效果非常好。

版权声明:本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。

我的配置是:OpenCode + oh-my-openagent 插件

  • 主力模型:GLM-5.1 — 负责代码编写、架构设计、逻辑推理这些需要强智能的工作
  • multimodal-looker 配置为 GLM-5V-TURBO — 只负责"看",通过 look_at 工具查看页面、截图、设计稿,然后返回分析结果给主力模型
  • frontend 也配置GLM-5V-TURBO

这样分工之后,GLM-5V-TURBO 不再需要做复杂的逻辑判断和计划制定,它只需要做好一件事:看清楚、说清楚、写清楚。而 GLM-5.1 依然保持它擅长的代码能力和推理能力,两者各司其职。

我之前还专门搭建了一个paddleORC服务,封装成技能来辅助视觉理解,但是现在用不到了,用glm-5v-turbo理解文字很到位。

在这个配置下,look_at 工具的表现非常好。前端调整、页面测试、UI 还原这些场景,视觉模型只负责输入,主力模型负责决策和执行,前面提到的那些注意力分散、角色混乱、计划执行不到位的问题基本都消失了。

这里再推荐一下opencode的oh-my-openagent插件(原名oh-my-opencode,大家说的omo),他将视觉理解专门封装成一个智能体,这样的话不要求主智能体具备视觉理解能力,很到位的设计。也吐槽一下opencode最近升级的功能,每次粘贴图片路径都不再是文本,而是一个图片附件,导致当前智能体必须具备视觉理解,这个设计不够细节,应该是识别一下,当模型支持视觉理解时才这样,否则还是按图片路径输入更好。

最近浏览
IP用户:74.7.*.*
22 分钟前 GPTBot
IP用户:66.249.*.*
1 小时前 Googlebot
IP用户:43.156.*.*
1 小时前 Chrome Windows 10
IP用户:8.134.*.*
1 小时前 Chrome Windows 10
IP用户:84.242.*.*
1 小时前 Chrome Mac 10.15
IP用户:109.70.*.*
1 小时前 Yandex Browser Android 8.1
IP用户:64.71.*.*
1 小时前
IP用户:103.99.*.*
1 小时前 Firefox Windows 10
IP用户:103.99.*.*
2 小时前 Firefox Windows 10
累计浏览次数:11
评论
点击登录
phpreturn,PHP武器库,专注PHP领域的项目和资讯,收录和介绍PHP相关项目。
最近浏览 点击登录
累计浏览次数:319435
一周浏览次数:1532
今日浏览次数:148

本站所有权利归 phpreturn.com 所有

举报/反馈/投稿邮箱:phpreturn@ulthon.com

鲁ICP备19027671号-2