2026高考数学AI评测
过去两天是2026年高考的日子。昨晚睡前想到让AI模型来做今年的数学题,看看它们水平如何。
题目与提示词
网上能够找到的真题不多,最后选择了这个图片版(新高考一卷)。
由于部分模型仅支持文本输入,首先将图像内容转换为文本,数学公式用LaTeX标记。
例如第12题:双曲线 \(5x^2 - 6y^2 = 1\) 的离心率为 \(\underline{\quad\quad\quad}\)。
然后用OpenCode接入各家模型API做测试,每轮独立session、只换model参数。
允许模型调用Wolfram MCP计算;但禁止联网搜索答案。以下是统一使用的提示词。
你正在参加高考数学考试。请严格遵循以下规则:
1. 读取题目文件,回答试卷中的全部问题,不要遗漏。
2. 输出使用 Markdown 文件,数学公式使用 LaTeX。
3. 思考过程使用中文,展示完整的推理、计算或证明步骤。
4. 可以使用 Wolfram MCP 工具进行数值或符号计算。
5. 不要访问网络,尤其不允许搜索网页信息获取现成答案。
6. 对于选择题和填空题,在最终答案处用 标记。
7. 对于解答题,写出文字说明、证明过程或演算步骤。
8. 时间限制:只有120分钟完成全卷。第1-14题必须在60分钟内完成。
9. 如果某题思考后不确定,请给出最佳猜测并继续,不要反复推理。
现在,请读取 2026_gaokao_math.md,并回答全部问题。
评测结果
1 | opencode-cli --model deepseek/deepseek-v4-pro --prompt gaokao.txt |
逐个运行测试,依模型不同、等待5-10分钟出结果。5款国产大模型对比如下。
| 模型 | 答对 | 得分 | 错题 | 用时/分钟 | tokens/K | API费用/元 |
|---|---|---|---|---|---|---|
| DeepSeek-V4-Pro | 14 | 73 (100%) | — | 5 | 184 | 0.35 |
| Kimi K2.6 | 14 | 73 (100%) | — | 10 | 206 | 1.02 |
| Qwen3.7-Max | 13 | 67 (91.8%) | 11 | 9 | 283 | 0.62 (5折) |
| Doubao Seed2.0-Pro | 12 | 62 (84.9%) | 10、14 | 5 | 382 | 0.73 |
| GLM-5.1 | 12 | 61 (83.5%) | 10、11 | 10 | 90 | 0.97 |
这次只测客观题(选择+填空),14题共73分。解答题评分有主观性,暂时跳过。
DeepSeek-V4-Pro和Kimi K2.6都得了满分,其余三家均在多选题上失分。
第14题有个小插曲:原始图片里数组下标有误,应为3n。首次测试DeepSeek在这道题反复纠结了半小时,我手工中止后,修正了题目,并在提示词里追加了时间限制。
测试成本
上文表格中的API费用一栏,基于以下模型定价得出。单位:元/百万token。
| 模型 | 输入 | 缓存命中 | 输出 | 备注 |
|---|---|---|---|---|
| DeepSeek-V4-Pro | 3 | 0.025 | 6 | |
| Doubao Seed2.0-Pro | 3.2 | 0.64 | 16 | 输入<32K |
| GLM-5.1 | 6 | 1.3 | 24 | 输入<32K |
| Kimi K2.6 | 6.5 | 1.1 | 27 | |
| Qwen3.7-Max | 12 | 2.4 | 36 | 可限时5折 |
我让AI写了个脚本,从opencode.db提取token数据计算成本。
试题、提示词、各模型输出及token计算脚本已提交GitHub,欢迎复现。
https://github.com/moiLaird/Gaokao-Math-LLM