分享

用AI做考研数学一,我得了136分

 考研竞赛数学 2024-12-30 发布于湖南
技术进步,特别是AI,已经在很多领域带来了革命性的变化。现在有很多人对于大模型的应用还存在有一定的排斥,尤其在日常的大学数学学习与教学中,认为大模型的出现不利于学生更扎实、认真地的学习。其实,任何技术的出现都有其双面性,在大学数学基础课的学习过程中,我们认为,好的大模型对于咱们更好地理解问题,打牢基础,解题能力和学习效率的提升还是具有很大作用的,尤其能够弥补像高等数学、线性代数、概率论与数理统计这样的大班教学与学习环节中的实时反馈的不足,针对学生日常遇到的基础、常规性的问题能够提供及时的互动。
当前国产大模型的大学数学基础课程的解题能力究竟如何,它们又能怎样促进我们解题能力的提升,及时帮助我们解决学习中遇到的问题呢?我们借助2025年考研数学一试卷(相对来说考研数学一、二、三中,应该数学一最难,覆盖内容最广),一起来测试一下当前具有代表性的四家国产大模型,看看它们的真实智商水平到底如何。我们选择的四家大模型及版本如下(都选择电脑网页版):
  • Kimi:点选新推出的Kimi k1 视觉思考版,如下图,打开网站后点击下面的“Kimi k1 视觉思考模型抢先体验”,进入最新的思考模型版本。网址:
https://kimi.
  • DeepSeek:打开“深度思考”,如下图,打开网站后点击下面的“深度思考”开关,使其从黑色变为蓝色即为打开状态。网址:
https://chat.
  • 字节豆包:处理方式没有选择,选用默认模式。可以在操作时点击列出的“解题答疑”,如下图,也可以不选择直接输入。网址
https://www./chat
  • 文心一言:非会员默认为文心大模型3.5,为了测试的公正性,咱们选择了会员版的最高级版本:文心大模型4.0 Turbo.  同样输入会话框没有选择,采用默认模式。网址:
https://yiyan.baidu.com
2025年考研数学一试卷的测试题目来源于公众号:考研竞赛数学 排版推送的推文,在以图片方式输入时使用的是带有水印的图片,答案也对照推文中的答案(点击查看).  
那么,这些大模型在解题过程中给出的步骤究竟如何,能够给与我们怎样的解题、学习,答疑解惑的提示呢?哪个模型给出的解题思路更完整、更规范,哪个的参考性与实用性最大呢?我们分两种方式一起来测试一下。
批量问题求解风格对比
首先,我们将所有选择题集中到一张图片来测试四个大模型的图片识别与批量解题能力,提示词统一为:给出这10个选择题的求解过程与正确选项。上传的图片如下:
测试过程中对于结果对的直接给5分;对于得到了可以直接判定结果的表达式,而选项错误的题目给2.5分,过程没有直接可以得到结果的表达式和答案都错的给0分。最终四个模型分数(总分50分)及对比分析如下:

  • Kimi视觉思考版(37.5)
    两次测试综合得分37.5分,Kimi最大的优势是针对每个题目都提供了详细的探索过程,批量图片识别和解题能力还是比较完美和值得肯定的。尤其是每个题目都给出了必要的分析、求解过程,既使没有做对,也可以给与我们解题过程一定的启示。如下图。

  • DeepSeek深度思考模型(15分)
    不管是深度思考过程和解答过程都非常简单,没有必要的求解步骤和过程,最终得分也不是很理想,得分仅仅15分。

  • 豆包(10分)
    求解过程相对于DeepSeek有所完善,但是正确率不高,综合得分10分。

  • 文心一言
    对于这样批量输入一次求解基本上没法执行,每个题目都没有明确的结果,给出的说明、提示也模棱两可,完全需要用户重新思考与探索。

对于批量题目图片上传测试结果来看,Kimi视觉思考版结果相对来说还是比较满意的,对比而言优势比较明显。那么,对于单个题目它们的表现如何呢,我们也一起来测试对比一下。
单个题目求解分数对比
测试说明:为了真实测试四个大模型的真实数学解题能力,我们以完整题目的Latex文本格式,或者单个题目图片上传的方式逐题进行测试,对于四个大模型采取了两次测试的方式获取分数,如果第一次就测试正确,则不使用第二次;如果第一次不正确,则重新做一遍,两次不对就不再测试。对于简答题,根据解答过程给出了步骤分,而对于19题的证明题,导数单调证明不等式成立的过程都比较严谨,第二步的证明大体都差不多,所以统一给出了6分。最终分数对比如下:
最终的测试结果来看,本次考研数学初试数学成绩,Kimi视觉思考模型、DeepSeek深度思考模型达到了不可思议的130分以上,豆包92分也及格了,文心一言82分也接近及格。
我记得今年年初的时候,感觉一些大模型做数学题还完全不尽人意,经常答非所问,没想到到了今年年底,却有如此进步,确实难得!
对于单个题目的求解风格,我们在选择题(概率论与数理统计题)、填空题(线性代数题)、解答题(高等数学题)中各选题目的解答过程对比一起来分析一下。

单个题模型解题风格对比

1、选择题测试选择题第8题

Kimi视觉思考版解答过程:
DeepSeek深度思考模型解答过程
豆包解答过程
文心一言解答过程
测试结果点评对于概率论与数理统计的考研题,四个模型解答过程、结果都不错,而且都是一次答对!这也反映出历届考研试题中出现的概率统计题应该普遍都是比较经典的问题,题型、解题方法比较固定!具体表现如下:
  • Kimi解答过程规范,过程详尽,可阅读性强,比较符合咱们的自己常见的求解思路与过程。有些求解过程有明确的解题步骤提示,思路过程分析,具有自我纠错和结果验证过程,对于我们日常解题训练具有比较好的指导意义和参考价值
  • DeepSeek:最终给出的过程简明扼要,不足的是最终的结果显示为一个代码。而其深度思考、分析过程则非常详尽,并且给出了结果的检验过程和各种情况的讨论,对于其中涉及到的知识点、方法有一定的启示意义。最终给出的过程选择的最值确定方法和Kimi思路一致。可阅读性需要进一步加强,尤其是最终结果的显示一般为Latex文本。
  • 豆包:豆包给出的过程步骤明确,并且附带了相关知识点、公式的回顾,然后代入公式计算得到结果,其最值的确定则选用了均值不等式,简明扼要,也不缺少必要的步骤。
  • 文心一言:步骤过程简明扼要,只是排版不是很规范,选用的最值确定方法与豆包相同。

2、填空题测试填空题第11题

Kimi视觉思考版解答过程:
DeepSeek深度思考模型解答过程
豆包解答过程
文心一言解答过程
测试结果点评:对于线性代数的考研题,可能这个题目原因,条件理解的复杂性,模型对问题的理解不是很到位,虽然三个模型做对,但是解答过程不是很符合题目的条件,也不完全符合填空题的求解思路。
  • Kimi:题目意思理解不完全正确。但是给出的讨论步骤却还可以。行列式的计算采用降阶法,利用行列式等于0得到了结果。不过后面又多了很多冗余的步骤,当然,自己也说明了自己的讨论可能没有必要!最后进一步明确了结果,总体来说,还不错
  • DeepSeek:深度思考和最终给出的过程比Kimi相对简明扼要,当然也出现了多余的讨论步骤,同样的不足的是最终的结果显示为一个代码。其求解分析步骤和Kimi差不多,不过Kimi降阶法的过程更详细,对于我们理解这一方法更有实际意义
  • 豆包:对于这个题目的表现应该来说还不错,其给出的过程有助于我们进一步了解两个方程组的解的关系的判定。行列式的计算同样选择了降阶法,并且给出了详细步骤,它的第2步完全可以作为这个题目的求解过程使用
  • 文心一言:弯弯绕绕分析一大堆,最终没有给出需要的结果,对于这个题目的求解应该来说完全失败,而且分析过程也不完整,让人总感觉意犹未尽!而且两次测试都做错,并且得到的结果都是负1.
3、简答题测试
简答题第17题:
Kimi视觉思考版解答过程:
DeepSeek深度思考模型解答过程
豆包解答过程
文心一言解答过程
测试结果点评:对于这个高等数学的考研题,应该是非常经典的问题,有理函数的定积分。总体来说前三个模型表现不错,给出正确求解过程对于这类问题的求解具有参考借鉴意义!
  • Kimi过程规范,完全可以作为这个题目的标准解答过程
  • DeepSeek:过程相对规范,不过给出的最终解答过程没有Kimi详细,对于有一定基础的同学能够直接理解其各中间过程,其思路方法、包括深度思考分析也和Kimi差不多。
  • 豆包:同样对于这个题目的表现应该来说还不错,其给出的过程虽然稍显啰嗦,但是对于对于相关步骤的理解具有一定的参考意义
  • 文心一言:最大的失误竟然是部分分式分解错误. 如果这个部分不错,后面的积分过程还是一个有效过程,个人认为这是一个不应该出现的错误,毕竟属于初等数学的内容!而且两次测试都出错了!
对于四个模型Kimi和DeepSeek对于解题相对来说过程一般就题论题,解答过程比较专业、严谨,正确率比较高!测试过程中表现出来的解题思路,两个模型的相似度比较大而豆包与文心一言的解题过程与步骤则有类似的地方,不过豆包相对来说比文心一言表现要好!它们两个最大的一个不同就是,在题目的最后给出了与当前问题密切相关的知识点、方法扩展性内容提示。
比如点击豆包后面的“常用的积分方法有哪些?”,系统会给出一些常用的计算方法的基本原理适用的情况,如下图。
这些总结性的内容对于我们加强相关知识点的复习很有参考价值,而且还会继续给出相关内容的提示与引导,从而在层层推进中更加系统化深入理解某些专题内容。
在测试过程中还发现一个有意思的过程:Kimi的多次验证确保正确的过程分析
这样的过程不是针对于每个题目都会出现,而且每次测试的时候返回的结果与过程也不一样!不过对于这个题目一般都可以得到正确的结果!这样的分析过程对于相关问题的求解思路方法的理解,使用过程中要注意的事项都提供了一个比较好的分析
同样过程也出现在DeepSeek的深度思考过程中,并且通过对比分析最终选择一个相对有效的过程给出解答过程!而这样的过程在豆包和文心一言中不会出现,一般都是相对比较直接的得到结果。

总  结

通过全套试卷的测试对比,可以看到:
  • Kimi视觉思考版和DeepSeek的深度思考模型:在批量题目的解答上,Kimi的优势非常明显,解答过程也更规范,排版效果非常直观,对于有些题目的执行过程还有自我纠错、结果验算的过程;而DeepSeek的深度思考过程,也给出解答过程的思路分析和探索过程,最终给出的答案是经过多重遴选的结果。

    总的来说,Kimi的思路探索、解题步骤,尤其是对图片的识别表现非常出色,136分的表现令人惊喜

  • 豆包和文心一言:豆包相对来说表现比较稳定,给出的推导步骤相对来说比较简洁,正确率还是有一定的保证。同时,对于有些问题的求解条理非常清晰,过程步骤比较明显,很多时候还给出了知识点提示。相对来说,文心一言可能侧重点不同,对于一些非常常规的问题能够给出简要解答过程和正确结果,但是对于一些简单问题也不能完成基本的计算,另外不同的一点是,不像Kimi和DeepSeek,在做不出来的时候,它们会进行各种尝试,可以说会穷举很多与问题相关的方法,尽一切可能来探索问题的求解思路,而文心一言则仅仅给出文字思路提示,告诉我们它做不下去了!

    不过豆包和文心一言比较的好的地方是,它们在解答之后会给出进一步探讨的三个提示词链接,点击可以进一步了解与问题相关的知识点、方法,有助于咱们进一步加强与提交问题相关的内容的理解与系统化学习。

以上是咱号对于四个大模型的比较分析,其中优劣应该从以上的测试结果和对比分析中应该有所认识,实际效果需要学友们进一步自行检测,毕竟每次提交可能结果都可能不相同,有时候还会差别比较大!以上测试过程除了文心一言使用的是会员版的模型外,其他模型只要注册就可以免费使用,至少在测试过程中貌似没有任何限制。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多