2026高考数学AI评测

过去两天是2026年高考的日子。昨晚睡前想到让AI模型来做今年的数学题,看看它们水平如何。

题目与提示词

网上能够找到的真题不多,最后选择了这个图片版(新高考一卷)。

由于部分模型仅支持文本输入,首先将图像内容转换为文本,数学公式用LaTeX标记。

例如第12题:双曲线 \(5x^2 - 6y^2 = 1\) 的离心率为 \(\underline{\quad\quad\quad}\)

然后用OpenCode接入各家模型API做测试,每轮独立session、只换model参数。

允许模型调用Wolfram MCP计算;但禁止联网搜索答案。以下是统一使用的提示词。

你正在参加高考数学考试。请严格遵循以下规则:
1. 读取题目文件,回答试卷中的全部问题,不要遗漏。
2. 输出使用 Markdown 文件,数学公式使用 LaTeX。
3. 思考过程使用中文,展示完整的推理、计算或证明步骤。
4. 可以使用 Wolfram MCP 工具进行数值或符号计算。
5. 不要访问网络,尤其不允许搜索网页信息获取现成答案。
6. 对于选择题和填空题,在最终答案处用 标记。
7. 对于解答题,写出文字说明、证明过程或演算步骤。
8. 时间限制:只有120分钟完成全卷。第1-14题必须在60分钟内完成。
9. 如果某题思考后不确定,请给出最佳猜测并继续,不要反复推理。
现在,请读取 2026_gaokao_math.md,并回答全部问题。

评测结果

1
opencode-cli --model deepseek/deepseek-v4-pro --prompt gaokao.txt
DeepSeek-V4-Pro output

逐个运行测试,依模型不同、等待5-10分钟出结果。5款国产大模型对比如下。

模型 答对 得分 错题 用时/分钟 tokens/K API费用/元
DeepSeek-V4-Pro 14 73 (100%) 5 184 0.35
Kimi K2.6 14 73 (100%) 10 206 1.02
Qwen3.7-Max 13 67 (91.8%) 11 9 283 0.62 (5折)
Doubao Seed2.0-Pro 12 62 (84.9%) 10、14 5 382 0.73
GLM-5.1 12 61 (83.5%) 10、11 10 90 0.97

这次只测客观题(选择+填空),14题共73分。解答题评分有主观性,暂时跳过。

DeepSeek-V4-Pro和Kimi K2.6都得了满分,其余三家均在多选题上失分。

第14题有个小插曲:原始图片里数组下标有误,应为3n。首次测试DeepSeek在这道题反复纠结了半小时,我手工中止后,修正了题目,并在提示词里追加了时间限制。

测试成本

上文表格中的API费用一栏,基于以下模型定价得出。单位:元/百万token。

模型 输入 缓存命中 输出 备注
DeepSeek-V4-Pro 3 0.025 6
Doubao Seed2.0-Pro 3.2 0.64 16 输入<32K
GLM-5.1 6 1.3 24 输入<32K
Kimi K2.6 6.5 1.1 27
Qwen3.7-Max 12 2.4 36 可限时5折

我让AI写了个脚本,从opencode.db提取token数据计算成本。

试题、提示词、各模型输出及token计算脚本已提交GitHub,欢迎复现。

https://github.com/moiLaird/Gaokao-Math-LLM