刚刚,DeepSeek开发了新模型,并获得了数学奥林匹克竞赛的冠军。

11月17日,心源知动系《知动知》作者李水清编辑报道,DeepSeek今日开源了具有强大定理证明功能的“数学奥运金牌”模型DeepSeekMath-V2。 DeepSeekMath-V2在2025年国际数学奥林匹克竞赛(I​​MO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)上取得金牌级成绩。而在2024年普特南学院数学竞赛(Putnam 2024)中,他取得了近乎满分(118/120分)的成绩,超越了人类最高分90分。如下图所示,DeepSeekMath-V2 的性能比 Google 荣获 IMO 金牌的 DeepThink 模型高出 10%。 ▲DeepSeekMath-V2 在数学竞赛中的表现 ▲DeepSeekMath-V2 在 IMO-ProofBench 中的评估结果 上述结果表明,自我验证的数学推理是一个可行的研究方向,可能有助于开发更强大的 AI 数学系统。抱脸地址:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2 文章地址:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf 一如既往,DeepSeek经常直接在DeepSeek上在线发布新的开源模型,我们想第一时间体验一下。首先,DeepSeek 被要求证明一个相对简单的问题:“证明数字 2 的根是一个无理数。” DeepSeek立即给出了正确答案。当Zhidong输入一个测试问题“证明哪个有更多的奇数还是更多的整数”时,DeepSeek也显示了正确的测试过程和答案。大多数人应该能够理解这个测试过程。当然,奥运会级别的测试问题更为复杂。如果有读者能理解这些问题,我想了解更多。您可以进行试用测试。让我们回到模型背后的研发挑战,并仔细研究一下该文档。从现有研究来看,在数值推理领域,传统强化学习(RL)技术足以在主要评估最终答案的数学竞赛(例如 AIME 和 HMMT)中实现非常高水平的大规模模型。然而,这种奖励机制有两个基本局限性。一方面,传统方法无法可靠地表示推论的正确性,模型可以通过有缺陷的逻辑或幸运的错误得出正确的答案。其次,虽然问题可能不需要以数值形式产生最终答案,但它不适合主要目标是精确推导的定理证明任务。为了实现这一目标,DeepSeek提出基于DeepSeek-V3.2开发大规模语言模型中的证明验证功能。 -Exp-Base 开发了 DeepSeekMath-V2。这些为模型提供了奖励函数的明确知识,并允许模型通过有意识的推理而不是盲目的试错来最大化奖励。 DeepSeek 制定了先进的评分标准r 测试评估模拟数学专家的评估过程,并训练测试人员根据这些评分标准评估测试。基于DeepSeek-V3.2-Exp-SFT版本,使用强化学习训练模型以生成测试分析。训练过程使用两个奖励部分:格式奖励和分数奖励。接下来是构建强化学习数据集。 DeepSeek 基于 17503 个测验问题、DeepSeek-V3.2-Exp-Thinking 生成的候选测试以及随机选择的专家评分测试样本创建了初始强化学习训练的数据集。接下来,设置强化学习目标和强化学习目标来训练验证器。具体来说,它是基于DeepSeek-V3.2-Exp-SFT版本,通过强化学习训练模型产生测试分析。我会的。训练过程使用两个奖励部分:格式奖励和分数奖励。训练验证器的强化学习目标是通过以下功能实现:为了解决训练过程中验证者在捏造不存在问题的同时通过预测正确分数获得全额奖励的漏洞,DeepSeek引入了元验证这一二次评估过程,以提高验证者问题识别的保真度。在测试生成阶段,DeepSeek训练测试生成器通过自我验证来提高其推理能力,解决了当模型需要一次性生成和分析自己的测试时,生成器在外部验证者出错的情况下仍声称测试正确的问题。最后,DeepSeek 证明了验证器和生成器形成了一个协作循环。验证器改进了生成器,并且随着生成器的改进,它会生成挑战验证器当前功能的新测试。这些挑战还提供了宝贵的培训数据来增强验证者本身。简单地说,DeepSeekMath-V2模型检查器可以完成逐步的验证过程,并且生成器将纠正其自身的错误。从实验结果来看,如图1所示,在CNML级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekMath-V2在一步生成结果的评估中始终优于GPT-5-Thinking-High和Gemini 2.5-Pro,在各个领域表现出更好的定理证明能力。在不断优化 2024 年 IMO 替代问题后,具有自我验证的顺序优化证明了质量的提高。最佳自选测试的验证分数明显高于线程平均值。这表明生成器能够准确评估测试的质量。这些结果表明,生成器可以可靠地区分高质量证据和有缺陷的证据,并且这种自我知识可以用于系统地识别证据。已证明可以有效提高推理能力。对于密集的计算探索,DeepSeek 扩展了验证和生产计算。他们的方法解决了 2025 年的 6 个 IMO 问题中的 5 个,以及 2024 年的 4 个 CMO 问题。另一个问题获得了部分分数,在两项主要高中比赛中达到了金牌水平,在基础组中超越了 DeepMind 的 DeepThink(IMO 金牌级别),并且在高级组中保持竞争力的同时显着优于所有其他基础模型。然而,DeepSeek 发现,IMO 级别上最困难的问题仍然对其模型构成挑战。特别是,对于未完全解决的问题,DeepSeek 的生成器通常可以在测试过程中识别出实际问题,并且完全解决的问题通过了全部 64 次验证尝试。这表明验证者 p They 可以成功地基于大规模语言模型进行训练,以评估以下测试:以前被认为难以自动验证。在验证器的指导下,DeepSeek 模型增加了测试期间的计算量,使它们能够解决人类竞争对手需要数小时才能解决的问题。底线:自我验证的人工智能系统距离解决研究级数学问题又近了一步。总的来说,DeepSeek 提出了一个可以生成和验证数学证明的模型。该团队克服了基于最终答案的奖励机制的局限性,并转向自我验证的数学推理。这项研究表明,大规模语言模型可以为复杂的推理任务开发显着的自我评估能力。尽管仍然存在重大挑战,但预计这一研究方向有助于实现创建可在研究层面解决数学问题的自我验证人工智能系统的目标。
特别提示:以上内容(包括图片和视频,如有)为上传发布由自有媒体平台“网易账号”的用户发布。本平台仅提供信息存储服务。
注:以上内容(图片及(包括视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传和发布。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注