如果AI参加今年高考,能考出什么样的成绩?近日,在2025年高考进入志愿填报阶段的同时,字节跳动Seed团队公布了豆包、DeepSeek、Gemini等5款大模型的高考成绩单:文科总分均在625分以上,理科有3款大模型总成绩超600分,较去年实现跨越式提升,部分模型高考分数预估排名甚至可冲击清华北大。一年时间进步飞速,AI“考生”们有哪些涨分秘籍?
AI高考成绩单出炉
分数飙升,有望冲击清北
近日,各地高考成绩陆续公布,高考也进入志愿填报阶段。一份特殊的“考生”成绩单引发广泛关注——字节跳动Seed团队公布了包括豆包Seed 1.6-Thinking、DeepSeek-R1-0528、Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416在内的5个知名大模型参加2025 年山东高考全科试卷的测评结果。若按照传统文理科划分,这5个大模型的文科总分均超过625,其中豆包“考”出了683的最高分。在理科考试中,也有3个大模型总分在600分以上,Gemini 2.5 Pro 以655 分位列第一。
*字节跳动Seed团队公布的2025年5款大模型高考“成绩单”
而去年极客公园使用2024年高考新课标Ⅰ卷的测试结果显示,9个大模型的文科成绩最高为562 分,理科成绩最高则只有478.5分,相比之下,今年AI“考生”们的分数集体大涨。参加了两次考试的豆包和ChatGPT的成绩均表现出明显进步,ChatGPT文科总分从562上涨至625,理科总分也从469.5涨至579,豆包的文科总分提高了140分,理科更是上涨超过180分。这意味着AI在高考测试中的表现,已经从勉强踩到一本线,进步至能够录取211,甚至重点985高校的水平。
AI“考生”们的分数究竟处于什么水平?山东高考目前采用“3+3”模式,考生自选的3门学科采用赋分制。以豆包的成绩为例,省内多位高三带班经验丰富的资深教师表示,根据过往经验,3门自选科目的赋分相比原始分会有一定程度的提高,预估豆包赋分成绩最高能超过690分。根据最新公布的山东高考成绩一分一段表,690分排名全省前80,而今年清华和北大两所高校在山东的招生总人数预计超过150名。
值得注意的是,高考是一个较好的评估大模型能力的测试场景。高考题目覆盖学科全面,任务形式多样,题型创新性强,能有效检验模型对未见过题目的泛化推理能力。此次大模型在高考成绩上的显著提升,是大模型综合能力进步直观体现。
从数学“学渣”逆袭“学霸”
文理“偏科”问题改善明显
今年AI“考生”们在哪些科目上“提分”显著?对比两年测试结果来看,语数英三门主科中,大模型在语文和英语两科依然发挥稳定,普遍较去年分数略有提升,除o3 由于语文作文跑题仅得95分外,其余模型成绩基本接近优秀考生水平。数学成绩上,大模型则展现出惊人进步,去年参与测试的9个大模型数学平均分不到47分,最高分仅66分;而今年5个大模型数学平均分已飙升至138分,其中豆包、DeepSeek、Gemini的分数均突破140分,彻底完成了从数学“学渣”到“学霸”的蜕变。
*AI“考生”两年高考成绩对比
根据去年测试情况,大模型数学分数普遍低主要有三个原因,一是只能进行简单的逻辑推理和计算,无法有效处理复杂的推导和证明问题,二是存在把简单问题复杂化的情况,常常在解题过程中陷入死循环,三是缺乏反思能力,无法检查并修正推理计算中的错误。从今年答题情况看,参加测试的大模型均已显著改善这些问题,逻辑推理能力大幅提升,能够有条不紊地分析、推理并解决复杂数学问题。而今年AI“考生”们集体失分的高考数学第6题选择题,主要原因是图像中有方框、虚线、箭头、汉字等多种元素混合,模型难以准确识别出图像信息,反映出大模型在图像识别和理解上仍有提升空间。
*高考数学新一卷单选第6题。
此外,今年测评的大模型在物理、化学、生物三门理科,以及地理这门“文科中的理科”上均提分明显。去年测试中,几乎参与测试的所有大模型的理科成绩都比文科成绩低 70至80 分,文科中的地理科目也仅ChatGPT、豆包等三个大模型达到了及格线。其主要原因可能是,物、化、生、地这四门科目较为考验逻辑推理、计算能力,且试题中含有较多的图片信息,这都是传统大语言模型的短板。而今年,随着多模态能力的提升,大模型们成功弥补了地理这一文科短板,豆包、Claude、ChatGPT地理分数均在90分及以上。理科成绩整体上也从“不及格”进步至“良好”水平,其中豆包和Gemini 的物理成绩甚至达到90分左右。
不过,高考测试也同样暴露出现阶段大模型仍存在的一些缺陷。如语文作文论述深度不足,缺乏温度和共情;难度最高的数学压轴大题,多款模型也无法一次性完美解答,容易出现漏掉证明过程、推导不严谨的扣分情况,表明深度逻辑推理能力仍需加强;化学和生物科目中涉及图像的问题对模型挑战较大,整体成绩相对较低,表明其图像识别与理解能力还有进一步提升空间。
深度思考增强推理能力
多模态能力提升激发模型潜力
今年大模型“考生”们的成绩为何能突飞猛进?其提分秘籍是什么?
一方面,关键在于大模型普遍具备了深度思考能力。专家指出,大语言模型本质上是基于海量资料预测下一个最可能词句的“文字接龙”。这意味着AI是运用概率运算模拟推理,快速输出答案。然而,理科考试特别考验严谨的推理和计算能力,人类考生通常会在草稿纸上理清思路、分步计算,并具备回头检查、修正错误的能力;而传统大模型只是依次生成文本,缺乏这种“打草稿”和主动纠错的机制。而当大模型具备深度思考能力后,推理过程就更接近人类,并能够以每秒50字-100字的速度写出上万字的“草稿”,利用长思维链,将复杂问题层层拆解为子问题,逐步进行推理、验证和反思,从而显著提升解题准确率。
另一方面,大模型的多模态能力也得到显著提升,开始具有图像识别、理解和视觉推理能力。例如今年 3 月谷歌推出的 Gemini 2.5 Pro能够处理来自文本、音频、图像、视频和大型数据集的输入,OpenAI 的ChatGPT o3 将图像融入其思维链中,可以通过裁切、放大等图像处理技术,辅助进行图像识别、理解和推理。今年的高分“考生”豆包Seed1.6 大模型,也是通过多模态混合持续训练,提升了文本数据的知识和推理密度,增加了学科、代码、推理类数据的占比,同时加入了视觉模态的数据,和高质量文本数据混合训练,使得模型能力维度上深度融合了 VLM(视觉语言模型),从而获得了清晰的视觉理解力。字节跳动Seed团队测试发现,使用更高清试题图片并以图文交织方式测试后,豆包在依赖图片理解的生物和化学科目上的总分可再提升近30分,进一步说明结合文本和图片进行全模态推理可以更大程度激发模型的潜力。
目前,仍有一些因素制约大模型在高考场景中拿更高分数。例如部分试题对计算精度要求较高,而模型在多步骤连续计算过程中仍可能出错;大模型的上下文信息处理能力还存在一定局限性,可能出现前文计算结果在后文被错误引用的情况。随着技术的飞速迭代,明年高考时,AI或许又将迎来新突破。