GLM-4.5V实测：多模态模型的惊喜与不足

昨天智谱发布了视觉推理模型 GLM-4.5V，与龙共弈就来测试一下实际效果。

1.哪个是投屏键？

我上传了刚刚拍的一张电脑键盘的图片，GLM-4.5V还真的可以找出功能按键来，而且还可以用红色框出来，这和人操作就很像了。我日常解答客户软件方面功能问题的时候就是这样回复客户问题的，这AI以后可以减轻很多售后人员的工作量了呀。

而且这图Gemini竟然都没有回答正确。

应该是F6上面的。

2.猜猜这是什么？

我上传了一张原图，应该很多人都不知道是什么，其他AI也基本回答不出来的东西。

知道的人应该不多吧？竟然GLM-4.5V分析出来了，确实让我意外。

3.网页复刻

简单的网页复刻，我知道是可以的，之前GLM-4.5非多模态已经试过了，我复刻过朋友圈等前端。GLM-4.5实测：围棋、CRM、朋友圈三大突破，国产大模型强势崛起！

这次我让他复刻金蝶云星辰的软件。操作了一分钟的财务录入界面视频上传给他。

通过视频的方式来复刻，而且难度提高的情况下，左边的功能模块是复刻出来了。

只是凭证录入的界面还不够完整，科目调用没有复现，看来还是有提高空间的。

4.发现不合理

我上传了一张AI出的图，他圈是圈对了，但是说人物腿部从膝盖以下至脚踝部分未显示，解释不对。还有多一只手也没发现，这个难题目前AI还是没有解决，其他AI也无法正确发现异常。

5，猜猜这是哪里？

我上传了一张图片，让他分析图片再哪里拍的。

结果是对的，但是理由好像不够充分

换了一个图

结果猜错了

GLM-4.5V和Gemini都猜的这个是成都银泰，看来还是分析不够到位，群友发现豆包是能正确分析出这个是上海靴子楼。

还试了几张简单点的，是可以正确分析出来的。

6.识别表格

我上传了一张产品报价表

问：账无忧，标准版，一百账套，购买2两年是多少钱？

现在AI都可以准确定位表格数据了，我记得年初还是什么时候测试过普通AI，对表格识别还是不擅长的，现在大家都进步了，AI可以做的事情越来越多了。

神龙摆尾

这次对 GLM-4.5V 的测试，让我感受到国产多模态模型在视觉推理上的跃升速度。

在按键识别、少见物体判断、网页结构还原、表格精确读取等方面，已经能做到接近人工甚至部分超越人工的水平，虽然在复杂逻辑推断和细节异常发现上仍有短板，但进步的势头很明显。

随着视频理解、跨模态推理、实时交互能力的不断优化，这类模型未来不仅能替代部分售后、前端、数据识别等重复性工作，还可能成为人类在信息分析、业务决策上的可靠辅助。

也许再过一两年，我们面对复杂视觉问题时，不是先找人帮忙，而是第一时间把任务交给 AI。

希望以后AI能给出一个既快又准的答案。

真正解决我们的实际问题。

相关文章