如何评价谷歌最新发布的Gemini 2.5 pro模型？

发布时间：

2025-04-10 13:21

阅读量：

似乎没人说啥呀，那就只能一个评价了：差强人意，勉勉强强吧。不是它不行，是市场已经麻木了，实现不了对前三的超越，就只能是这个情况。

大模型的IQ排名

GPQA（Graduate-Level Google-Proof Q&A Benchmark）是一个用于评估高级问答系统的基准数据集。该项目旨在提供一个具有挑战性的问答数据集，以测试和提升AI模型的问答能力。GPQA数据集包含复杂的问题和答案，适合研究生级别的学术研究和工业应用。

不过也有对它表扬的，它确实做智力测验比较擅长，看下这个：

大模型的智力测试

TrackingAI的测试方法比较行测化，用的是门萨智力测试题，类似下面这种的，感觉大模型也是要考公的，这个确实可以，小鲸鱼表示伤心啊。

来源：TrackingAI测试

但是OpenAI的o1也被拉过去测试过结果测得它的智商高达 120，远远超过了其他所有的大模型。具体来说，o1 在 35 个智商问题中答对了 25 个，远远高于大多数人类的表现，现在Gemini终于实现了碾压。

不过本人看来，智商测试是一种狭隘的衡量标准，要想真正评估人工智能进化，不是通过门萨测试，而是考察它们对于细微差别、背景和人类复杂性的理解，而这些是智商测试无法量化的，而且大模型这么强，还是不如一些高智商人类的，比如什么10岁小女孩智商高达162什么的。所以，对于Gemini 2.5的表现怎么说呢，勉勉强强，就那样吧。

上一篇：为什么云游戏这个概念几乎销声匿迹了？

下一篇：东部战区圆满完成位台岛周边联合演训各项任务，此次演训收获了哪些成果？有哪些亮点值得关注？

END