GLM-4.5V实测:多模态模型的惊喜与不足
昨天智谱发布了视觉推理模型 GLM-4.5V,与龙共弈就来测试一下实际效果。
1.哪个是投屏键?
我上传了刚刚拍的一张电脑键盘的图片,GLM-4.5V还真的可以找出功能按键来,而且还可以用红色框出来,这和人操作就很像了。我日常解答客户软件方面功能问题的时候就是这样回复客户问题的,这AI以后可以减轻很多售后人员的工作量了呀。
而且这图Gemini竟然都没有回答正确。
应该是F6上面的。
2.猜猜这是什么?
我上传了一张原图,应该很多人都不知道是什么,其他AI也基本回答不出来的东西。
知道的人应该不多吧?竟然GLM-4.5V分析出来了,确实让我意外。
3.网页复刻
简单的网页复刻,我知道是可以的,之前GLM-4.5非多模态已经试过了,我复刻过朋友圈等前端。GLM-4.5实测:围棋、CRM、朋友圈三大突破,国产大模型强势崛起!
这次我让他复刻金蝶云星辰的软件。操作了一分钟的财务录入界面视频上传给他。
通过视频的方式来复刻,而且难度提高的情况下,左边的功能模块是复刻出来了。
只是凭证录入的界面还不够完整,科目调用没有复现,看来还是有提高空间的。
4.发现不合理
我上传了一张AI出的图,他圈是圈对了,但是说人物腿部从膝盖以下至脚踝部分未显示,解释不对。还有多一只手也没发现,这个难题目前AI还是没有解决,其他AI也无法正确发现异常。
5,猜猜这是哪里?
我上传了一张图片,让他分析图片再哪里拍的。
结果是对的,但是理由好像不够充分
换了一个图
结果猜错了
GLM-4.5V和Gemini都猜的这个是成都银泰,看来还是分析不够到位,群友发现豆包是能正确分析出这个是上海靴子楼。
还试了几张简单点的,是可以正确分析出来的。
6.识别表格
我上传了一张产品报价表
问:账无忧,标准版,一百账套,购买2两年是多少钱?
现在AI都可以准确定位表格数据了,我记得年初还是什么时候测试过普通AI,对表格识别还是不擅长的,现在大家都进步了,AI可以做的事情越来越多了。
神龙摆尾
这次对 GLM-4.5V 的测试,让我感受到国产多模态模型在视觉推理上的跃升速度。
在按键识别、少见物体判断、网页结构还原、表格精确读取等方面,已经能做到接近人工甚至部分超越人工的水平,虽然在复杂逻辑推断和细节异常发现上仍有短板,但进步的势头很明显。
随着视频理解、跨模态推理、实时交互能力的不断优化,这类模型未来不仅能替代部分售后、前端、数据识别等重复性工作,还可能成为人类在信息分析、业务决策上的可靠辅助。
也许再过一两年,我们面对复杂视觉问题时,不是先找人帮忙,而是第一时间把任务交给 AI。
希望以后AI能给出一个既快又准的答案。
真正解决我们的实际问题。
相关文章

上传一张照片,就能生成属于你的原创音乐MV
生成的结果,不仅歌词我很喜欢,曲也好,宏大叙事风格很符合原曲的风格。

实测谷歌 Gemini2.5 Flash Image 是个又快又稳的nona-banana
5大领域实测 Gemini2.5 Flash Image。

AI识图 vs 微信隐藏功能:图片一键转Excel的两种神操作
今天同事发我一张图片,问我图片转换成excel表格,有没有哪个工具比较好用?

即梦智能多帧,让历史文明在指尖流动
即梦上线了智能多帧功能,可以一次上传多张图片,来生成一个视频。

当AI有了求生欲:我们该欣慰还是恐惧?
有三个AI价值观没对齐

免费使用所有顶尖AI模型,这网站太香了。
看到一个新闻,Nano-Banana的图像编辑AI新模型,在图像处理能力方面超越FLUX Kontext