2026高考数学AI评测

发表于 2026-06-09 分类于 Mathematics 阅读次数：

过去两天是2026年高考的日子。昨晚睡前想到让AI模型来做今年的数学题，看看它们水平如何。

题目与提示词

网上能够找到的真题不多，最后选择了这个图片版（新高考一卷）。

由于部分模型仅支持文本输入，首先将图像内容转换为文本，数学公式用LaTeX标记。

例如第12题：双曲线 \(5x^2 - 6y^2 = 1\) 的离心率为 \(\underline{\quad\quad\quad}\)。

然后用OpenCode接入各家模型API做测试，每轮独立session、只换model参数。

允许模型调用Wolfram MCP计算；但禁止联网搜索答案。以下是统一使用的提示词。

你正在参加高考数学考试。请严格遵循以下规则：
1. 读取题目文件，回答试卷中的全部问题，不要遗漏。
2. 输出使用 Markdown 文件，数学公式使用 LaTeX。
3. 思考过程使用中文，展示完整的推理、计算或证明步骤。
4. 可以使用 Wolfram MCP 工具进行数值或符号计算。
5. 不要访问网络，尤其不允许搜索网页信息获取现成答案。
6. 对于选择题和填空题，在最终答案处用标记。
7. 对于解答题，写出文字说明、证明过程或演算步骤。
8. 时间限制：只有120分钟完成全卷。第1-14题必须在60分钟内完成。
9. 如果某题思考后不确定，请给出最佳猜测并继续，不要反复推理。
现在，请读取 2026_gaokao_math.md，并回答全部问题。

评测结果

1	opencode-cli --model deepseek/deepseek-v4-pro --prompt gaokao.txt

逐个运行测试，依模型不同、等待5-10分钟出结果。5款国产大模型对比如下。

模型	答对	得分	错题	用时/分钟	tokens/K	API费用/元
DeepSeek-V4-Pro	14	73 (100%)	—	5	184	0.35
Kimi K2.6	14	73 (100%)	—	10	206	1.02
Qwen3.7-Max	13	67 (91.8%)	11	9	283	0.62 (5折)
Doubao Seed2.0-Pro	12	62 (84.9%)	10、14	5	382	0.73
GLM-5.1	12	61 (83.5%)	10、11	10	90	0.97

这次只测客观题（选择+填空），14题共73分。解答题评分有主观性，暂时跳过。

DeepSeek-V4-Pro和Kimi K2.6都得了满分，其余三家均在多选题上失分。

第14题有个小插曲：原始图片里数组下标有误，应为3n。首次测试DeepSeek在这道题反复纠结了半小时，我手工中止后，修正了题目，并在提示词里追加了时间限制。

测试成本

上文表格中的API费用一栏，基于以下模型定价得出。单位：元/百万token。

模型	输入	缓存命中	输出	备注
DeepSeek-V4-Pro	3	0.025	6
Doubao Seed2.0-Pro	3.2	0.64	16	输入<32K
GLM-5.1	6	1.3	24	输入<32K
Kimi K2.6	6.5	1.1	27
Qwen3.7-Max	12	2.4	36	可限时5折

我让AI写了个脚本，从opencode.db提取token数据计算成本。

试题、提示词、各模型输出及token计算脚本已提交GitHub，欢迎复现。

https://github.com/moiLaird/Gaokao-Math-LLM