大模型再「战」高考:从一本直升 985

AI快讯 2025-06-27
过去一年,大模型技术迭代迅速,能力边界不断拓展,从写诗作画到视频生成和科学发现均有涉足。为精准、客观地衡量 AI 的能力,极客公园延续去年的传统,再次搭建「AI 高考」考场,让国内外主流大模型使用 2025 年新高考山东卷进行测试。此次参与测试的模型包括豆包、DeepSeek(R1 - 0528 版)、ChatGPT(o3)、元宝(Hunyuan t1)、Kimi(k1.5)、文心一言、通义千问等。


为保证测试的公平性与贴合实际使用场景,评测均在各模型的公开 PC 端进行,采取采样两次取平均分的形式。能关闭联网能力的产品统一关闭联网功能,默认开启深度思考模式但不开启研究模式。非选择题由两名专业同学打分,有较大分歧时引入第三人讨论定分,并邀请高中老师抽检。此外,特邀资深教师对 AI 作文进行匿名评审,由于无法获取英语听力试题,所有模型该项均计满分。


测试结果显示,AI 的综合能力有显著提升,首次展现出冲击顶尖学府的潜力。与 2024 年相比,所有参与测试的大模型在文理科成绩上均大幅飞跃。据估计,此次高考成绩最佳的豆包能排进山东省 500 - 900 名,有机会考入人大、复旦、上海交大、浙大等名校的人文社科类专业。


各大模型的文科总分平均增长 115.6 分,理科总分平均增长 147.4 分,虽然理科增速更快,但文科平均总分 228.33 分仍高于理科的 181.75 分,不过整体来看,大模型不再严重 “偏科”。


数学是本年度进步最显著的科目,平均分较去年提升了 84.25 分,甚至超过了语文和英语。这表明未来 AI 可能更擅长处理逻辑性强、有标准化解题路径的题目。例如,在总分为 150 分的数学考试中,表现最差的 AI 模型也拿下了 128.75 分的高分,而去年表现最好的模型也未达及格线。


多模态能力成为拉开差距的关键。与去年相比,模型的视觉理解能力显著提升,在包含大量图像题的物理、地理、生物学科中体现明显,这几科的平均分分别提升了约 20 分、20.3 分、15 分。化学科目整体表现稍弱,仅 “豆包” 模型及格,但全员平均分也比去年提高了 12.6 分。


尽管 AI 成绩进步明显,但在一些方面仍暴露出问题:


  • 数学基础题失误:在数学考试中,整体成绩出色的大模型却在一道基础向量加减法单选题上集体出错。原因是题目配图的视觉信息混乱,“脏数据” 导致大模型读取题目信息时出错,即便其背后数学推理能力强大,也无法正确作答。
  • 语文作文模板化:作为大语言模型,语文和英语曾是 AI 的传统强项,但如今其语文和英语能力在数理逻辑大幅进步的对比下,显得有些不足。在语文作文上,AI 作文平均分高于人类,但难有佳作。今年新课标卷的作文题,7 大模型整体均分 50.75 分, 均分区分度较低。AI 作文虽立意准确、语言流畅、论据丰富,但论述不深刻,举例雷同,缺少温度和共情,结尾升华也较为套路。
  • 英语作文受制约:AI 在英语科目上的表现进入平台期,所有参评模型的平均分仅比去年提高 3.2 分。作文题可能是主要拖累因素,一方面 80 词的微型写作对字数控制要求高,AI 难以精准把握;另一方面,AI 缺乏应试智慧,不会为得分刻意优化句式复杂度。此外,中外模型在作文上呈现 “主客场反转” 现象,中文作文中以 ChatGPT 为代表的 “洋考生” 表现出色,而在英文作文上,“中国考生” DeepSeek 和豆包则超越了 ChatGPT。
  • 理综仍有提升空间:理综三科有一定进步,所有模型都提分 10 - 20 分,但整体成绩仍在及格线附近徘徊。物理是进步最快的科目,平均分提升了 20.25 分,ChatGPT 和豆包在客观题和填空题上表现出色;化学成为拉低理综总分的 “重灾区”,整体得分偏低,仅有豆包勉强及格 ,主要因为化学题目高度依赖复杂图形,大模型理解困难,有机物大题更是所有大模型的软肋;生物科目则在需要严密逻辑推理的遗传题上表现不佳,如第 22 题遗传大题,得分最高的 ChatGPT 也仅拿到 9 分。
  • 文综仍是舒适区但有挑战:文科综合依然是 AI 的高分舒适区,元宝更是将文综最高分推升至 253.5 分。地理科目因多模态能力提升,平均分激增 20.3 分,但在高度专业的复杂图形理解上仍有困难;政治和历史科目分数基本处于高位平台期,AI 在精准理解考纲、运用学科语言、多维度深度分析等方面还需提升,如 DeepSeek - R1 因思路发散偏离考点失分,在历史小论文上,AI 普遍论述单薄。


此外,文章还设置了两个彩蛋测试:


  • AI 眼镜用于作弊的可行性测试:选择 ChatGPT 与元宝,用英语阅读题测试 AI 眼镜实时视频理解功能在考场作弊的可行性。结果发现存在严重幻觉问题、被动交互模式以及结果混乱等情况,表明当前视频大模型仍处于早期阶段,难以用于考场作弊。
  • 大模型审美偏好测试:让参与评测的大模型对彼此生成的作文交叉打分和排序,结果显示模型没有表现出对自家作品的特殊偏爱,且与人类判分员的审美大方向一致。


高考测试为 AI 的通用智能水平提供了参考,但随着 AI 能力的提升,未来高考可能不再能有效区分 AI 的能力。AI 的发展虽已逼近甚至超越普通人的能力边界,但发展并非线性,未来它将走向更复杂、更广阔的现实世界。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章