首页/人工智能与龙共弈/GLM-4.5V实测:多模态模型的惊喜与不足

GLM-4.5V实测:多模态模型的惊喜与不足

作者:梅州与龙共弈
发布时间:2025年8月12日
阅读量:3
查看原文 ↗

昨天智谱发布了视觉推理模型 GLM-4.5V,与龙共弈就来测试一下实际效果。

1.哪个是投屏键?

我上传了刚刚拍的一张电脑键盘的图片,GLM-4.5V还真的可以找出功能按键来,而且还可以用红色框出来,这和人操作就很像了。我日常解答客户软件方面功能问题的时候就是这样回复客户问题的,这AI以后可以减轻很多售后人员的工作量了呀。

而且这图Gemini竟然都没有回答正确。

应该是F6上面的。

2.猜猜这是什么?

我上传了一张原图,应该很多人都不知道是什么,其他AI也基本回答不出来的东西。

知道的人应该不多吧?竟然GLM-4.5V分析出来了,确实让我意外。

3.网页复刻

简单的网页复刻,我知道是可以的,之前GLM-4.5非多模态已经试过了,我复刻过朋友圈等前端。GLM-4.5实测:围棋、CRM、朋友圈三大突破,国产大模型强势崛起!

这次我让他复刻金蝶云星辰的软件。操作了一分钟的财务录入界面视频上传给他。

通过视频的方式来复刻,而且难度提高的情况下,左边的功能模块是复刻出来了。

只是凭证录入的界面还不够完整,科目调用没有复现,看来还是有提高空间的。

4.发现不合理

我上传了一张AI出的图,他圈是圈对了,但是说人物腿部从膝盖以下至脚踝部分未显示,解释不对。还有多一只手也没发现,这个难题目前AI还是没有解决,其他AI也无法正确发现异常。

5,猜猜这是哪里?

我上传了一张图片,让他分析图片再哪里拍的。

结果是对的,但是理由好像不够充分

换了一个图

结果猜错了

GLM-4.5V和Gemini都猜的这个是成都银泰,看来还是分析不够到位,群友发现豆包是能正确分析出这个是上海靴子楼。

还试了几张简单点的,是可以正确分析出来的。

6.识别表格

我上传了一张产品报价表

问:账无忧,标准版,一百账套,购买2两年是多少钱?

现在AI都可以准确定位表格数据了,我记得年初还是什么时候测试过普通AI,对表格识别还是不擅长的,现在大家都进步了,AI可以做的事情越来越多了。

神龙摆尾

这次对 GLM-4.5V 的测试,让我感受到国产多模态模型在视觉推理上的跃升速度。

在按键识别、少见物体判断、网页结构还原、表格精确读取等方面,已经能做到接近人工甚至部分超越人工的水平,虽然在复杂逻辑推断和细节异常发现上仍有短板,但进步的势头很明显。

随着视频理解、跨模态推理、实时交互能力的不断优化,这类模型未来不仅能替代部分售后、前端、数据识别等重复性工作,还可能成为人类在信息分析、业务决策上的可靠辅助。

也许再过一两年,我们面对复杂视觉问题时,不是先找人帮忙,而是第一时间把任务交给 AI。

希望以后AI能给出一个既快又准的答案。

真正解决我们的实际问题。

相关文章