极客公园的最新年度AI高考测评揭示,主流大模型已从去年“勉强一本”跃升至“冲击985”顶尖学府的水平,尤其在数学和多模态理解上取得突破。然而,这份亮眼成绩单背后,仍隐藏着AI在复杂视觉感知、深层思辨和人类情境理解方面的固有盲区,预示着其发展路径的非线性特征及其对社会伦理的深远影响。
过去一年,人工智能领域的发展如同潮汐般汹涌,其能力边界以令人咋舌的速度不断外扩。从生成精妙的诗歌到构建复杂的视频内容,再到辅助前沿科学发现,大型语言模型(LLMs)的演进轨迹清晰可见。然而,如何为这种“狂飙”式的进步找到一个精准、客观的衡量标准,始终是业界与公众共同关注的焦点。在中国,没有什么比“高考”更能直抵人心,更能作为衡量认知能力的一把标尺。极客公园延续传统,再次搭建“AI高考”考场,让国内外主流大模型接受这场严格的智能考验,而今年,它们交出的答卷无疑令人震惊1。
智能跃迁:从“勉强达标”到“顶尖冲刺”
2024年的测评中,AI模型尚处于“摸到一本线”的优秀生阶段。然而,仅仅一年之后,这些“AI考生”们,包括豆包、DeepSeek、ChatGPT(o3)、元宝、Kimi、文心一言和通义千问,已经成长为足以冲击中国顶尖学府的“学霸”。它们的综合能力首次展现出考入如人大、复旦、上海交大、浙大等人文社科类专业的潜力,其中表现最佳的模型甚至能排进山东省全省500-900名。
这一显著飞跃的背后,核心驱动力在于大模型深度思考能力的质变。过往模型往往直接产出答案,而如今,它们能进行逐步分析、分解问题、检查中间结果,甚至自我修正。这种从“孩子”到“大人”的逻辑能力跃升,使得它们在数理考试中表现出惊人的提升。以数学为例,去年最佳模型仅得70分,而今年,即使是表现最差的AI模型,也能轻松拿下128.75分(总分150分),这在人类考生中已是顶尖水平。这一进步,即使面对今年被普遍认为难度极高、充斥“竞赛卷”风格的新课标一卷数学题,也显得游刃有余。
与此同时,多模态能力的成熟化成为拉开模型差距的另一关键因素。与去年多数模型尚不具备成熟图片识别能力不同,今年多模态已成为主流模型的标配。本次评测首次采用纯图片题目测试(除DeepSeek外),结果显示,视觉理解能力显著提升,尤其在包含大量图像题的物理、地理和生物科目中,平均分均有约20分、15分的提升。这无疑拓宽了AI处理现实世界复杂信息的边界。
能力边界与固有盲区:人机智能的异质性
尽管AI在高考中展现出前所未有的实力,但其发展并非线性,它能攻克人类眼中的难题,却也会在看似简单的题目上意外失足,暴露人机智能的异质性。
最令人费解的案例出现在数学科目中。在所有模型普遍数学逼近满分的情况下,它们却齐齐败在一道基础的向量加减法选择题上。这道题的数学原理极其简单,通过肉眼观察也能大致估算答案。然而,核心矛盾在于:题不难,但图难。图片中虚线、实线、坐标轴、数字、文字相互交织,甚至文字与关键线段多处重叠,这种视觉上的“脏数据”成为了AI精确识别的噩梦。豆包等模型在读取题目信息时就已出错,无论其后台数学推理能力如何强大,都无法得出正确答案。这生动地揭示了,即使AI的推理能力突飞猛进,其在复杂、模糊的视觉信息解析上的鲁棒性仍是短板,就像一个能解高等微积分的学者,却可能在一个被涂鸦的简单算术题前束手无策。
在传统强项——语文和英语上,AI的表现则进入了一个“平台期”。相较于数学的“一飞冲天”,语文平均分仅增长115.6分,英语仅提升3.2分,远低于理科的增速。尤其在作文方面,AI的创作仍延续去年的趋势:平均分高于人类,但难有真正的佳作。特邀阅卷老师指出,AI作文虽立意准确、语言流畅、论据丰富,但普遍存在论述不深刻、举例雷同、缺少温度和共情的问题,其结尾升华更是套路化明显。例如,在“民族魂”主题作文中,AI常用排比式的案例填充固定框架,最终导向僵化的升华。这揭示了AI在深层思辨、情感共鸣与原创性表达上的固有瓶子,它能模仿人类的写作结构和风格,但难以真正触及人心的复杂维度。
理综科目虽有进步,但整体表现仍挣扎在及格线附近,与顶尖人类考生存在明显能力鸿沟。尤其在化学科目上,其对复杂化学图形的高度依赖性(如实验装置、有机结构简式)成了“重灾区”,所有模型在有机化学大题上几乎全军覆没,未能正确生成结构简式。生物科目则折戟于遗传计算的严密逻辑推理,暴露了AI在抽象信息基础上进行多步、复杂推理的不足。这些都再次印证了,即使多模态能力解锁,AI“能看见”不等于“能看懂”或“能深层理解”。
超越考场:AI智能的社会映射与伦理审思
当AI的能力日益逼近甚至超越普通人的认知边界,其社会影响和伦理挑战也随之浮现。
一个直接的映射是,社会对AI潜在滥用的担忧。随着AI眼镜等“视觉AI硬件”的兴起,以及大模型实时视频理解功能的出现,高考考场安检门全面升级,旨在防范新型作弊工具。然而,目前的测试结果令人“安心”:当前的视频大模型(如GPT-4o、元宝)仍处于非常早期的阶段,存在严重的幻觉问题、被动的交互模式和混乱不稳定的结果。在实际模拟中,模型会凭空编造不存在的文章和题目,需要不断提示引导才能勉强作答,且结果受环境影响极大。这表明,依靠AI硬件在考场作弊目前仍是“科幻情节”,但未来的发展趋势无疑值得警惕与规制。
另一方面,一项有趣的交叉评测揭示,在作文互评中,AI模型并没有表现出对自家作品的特殊偏爱,有时甚至给自己打低分。AI与人类判分员的审美在大方向上保持一致。这或许意味着,在某些客观标准下,AI可以像人类专家一样具备跨平台、去偏见的“鉴赏”能力。
此次AI高考,不仅仅是一场对人类智慧与AI智慧的对比,更是一张刻度清晰、极具参考价值的AI通用智能水平“快照”。它清晰地展示了AI在特定场景下令人惊叹的进步,特别是在逻辑推理和数据处理上的优势。但同时,它也毫不留情地揭露了AI在处理模糊信息、进行深层情感与思辨、以及理解复杂情境化知识方面的局限性。这些局限并非简单的性能优化问题,而是触及了AI认知方式与人类认知方式的根本差异。
正如极客公园所言,今年或许是高考测试对大模型仍具挑战意义的最后一年。当AI已经能展现出冲击顶尖学府的实力时,这个人类社会的智能筛选器,可能未来不再能成为对AI有区分度的测试了。AI的下一站,终将是更复杂、更广阔的现实世界,而非标准化考试。这张“快照”,最终将成为它成长相册里,一张记录了进化途中的光荣与笨拙的泛黄旧照片。
引用
-
大模型再「战」高考:从一本直升 985·极客公园·Li Yuan(2025/6/26)·检索日期2024/7/12 ↩︎