当前位置:首页 > Deepseek应用场景 > 正文内容

AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!

3个月前 (05-01)Deepseek应用场景280

就在所有人都在期待DeepSeek官宣R2大模型之际,公司却出其不意地在"五一"前夕投下了另一枚技术炸弹。

4月30日,DeepSeek在Hugging Face平台上悄然开源了其最新模型——DeepSeek-Prover-V2-671B,一个专注于数学定理证明的大语言模型,专门针对形式化数学证明任务进行优化。

DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,参数高达6710亿,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。

模型使用了更高效的safetensors文件格式,同时支持BF16、FP8、F32等多种计算精度,这使得模型可以更快、更省资源地进行训练和部署。据OSCHINA分析,该模型分为163个分片,每个分片大小约为4.3GB,充分证明了其规模之庞大。

值得注意的是,3月发布的V3-0324版本已被业内视为未来R2的基础模型。这一版本通过6850亿参数的MoE架构升级,代码能力获得相比显著增强。

数学AI的重磅升级:DeepSeek再开源6710亿参数模型

从技术层面来看,DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。更令人惊叹的是,其最大位置嵌入达到了16.38万,这意味着它能够处理极其复杂的数学证明问题。

DeepSeek-Prover是DeepSeek团队开发的一系列专注于数学定理证明的开源大语言模型,通过大规模合成数据训练并结合强化学习(RL)与蒙特卡洛树搜索(MCTS)等优化技术,在形式化定理证明领域取得了显著进展。

DeepSeek-Prover通过创新的训练框架与高效的推理策略,在形式化数学证明领域树立了新标杆。其结合合成数据、强化学习与树搜索的技术路径,不仅提升了模型性能,也为AI在严谨数学推理中的应用开辟了新方向。

OSCHINA分析称,新模型具有以下特点:

模型规模巨大:参数量约为 671B(6710 亿参数),这从模型分片数量(163 个)和每个分片大小(约 4.3GB)可以看出

使用了 DeepSeek-V3 的架构:采用 MoE(混合专家)模式,具有 61 层 Transformer 层,7168 维隐藏层

专为数学定理证明优化:从名称 "Prover"(证明者)可以看出,这是一个专注于数学推理和定理证明的专业模型

支持超长上下文:最大位置嵌入达 163840,使其能处理复杂的数学证明

采用 FP8 量化:通过量化技术减小模型大小,提高推理效率

DeepSeekR2 还会远吗?

DeepSeek创始人梁文锋曾表示:“中国也要逐步成为创新贡献者,而不是一直搭便车。” 他将探索通用人工智能的本质作为核心使命。

根据《中国企业家》的报道,DeepSeek创始人梁文锋带领的AI团队一直保持着与国际巨头同步的产品迭代节奏——2024年9月推出V2.5版本,12月发布V3基础架构,次年3月升级至V3-0324版本,形成每季度重大更新的开发范式。

值得注意的是,3月发布的V3-0324版本已被业内视为未来R2的基础模型。这一版本通过6850亿参数的MoE架构升级,代码能力获得显著增强。

如此稳健而高效的产品迭代节奏,不禁让人思考:传言已久的DeepSeek R2大模型还会远吗?这款新的数学模型是否只是DeepSeek即将发布更大规模通用模型的前奏?

在社交平台X上,有网友表示:

“R2 指日可待......”

“昨天 Qwen 3,今天 DeepSeek Prover V2...”

还有测评称,在实际效果上,“在高中数学题测试中,成功率从 50% 提高到了 63.5%。”

“V1.5还只是参数只有7B的小模型,这次直接升到大模型。”

“中国的 AI 初创公司永远不会让人失望!他们真的在改变整个游戏规则!”

“中国最近正在将一些功夫应用于 AI”

“这是个令人兴奋的消息!”


“AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!” 的相关文章

DeepSeek谈艺 | 耿翊:构筑精神的诗性寓言

DeepSeek谈艺 | 耿翊:构筑精神的诗性寓言

新春以来,DeepSeek成为各个行业所聚焦的热点话题。这个融合了人工智能与大数据分析的前沿平台,正逐步揭开其神秘面纱,展现出对各行各业颠覆性的潜力。随着DeepSeek技术的不断成熟与普及,我们正站...

部署智慧新赛道!DeepSeek落地吴江!

部署智慧新赛道!DeepSeek落地吴江!

在DeepSeek爆火出圈的同时,各地的本地化部署已然争相展开。日前,江苏吴江区数据局正式引入并本地化部署DeepSeek智能平台,标志着吴江在数字城市建设与人工智能技术应用领域迈出关键一步。目前,吴...

仙乐健康:接入DeepSeek大模型 布局智能配方设计

仙乐健康:接入DeepSeek大模型 布局智能配方设计

仙乐健康(300791)近日宣布已完成DeepSeek大模型的战略接入,仙乐健康旨在通过接入DeepSeek打造独有的智能配方设计系统。...

突传重磅,获顶级域名认可!DeepSeek引爆“新生意”,已有上千人购买

突传重磅,获顶级域名认可!DeepSeek引爆“新生意”,已有上千人购买

春节期间,在杭州的梁文锋打破了世界科技舞台上沉默许久的平静,也给全球资本市场带来了巨大扰动,特别是对以英伟达为代表的美股巨头造成了直接冲击,一度引发硅谷“恐慌”。DeepSeek的横空出世,对靠AI产...

地方政府热捧DeepSeek 市场追逐AI政务潮

地方政府热捧DeepSeek 市场追逐AI政务潮

财联社2月21日讯(记者 郭松峤)“目前模型的知识储备主要基于已有政务事项数据,部分复杂或特殊场景的知识覆盖仍需完善。”北京市丰台区政务服务和数据管理局相关负责人对财联社记者表示。不过,这不足以阻挡地...

DeepSeek创始人梁文锋入选《时代》周刊公布的“2025年全球最具影响力100人”

DeepSeek创始人梁文锋入选《时代》周刊公布的“2025年全球最具影响力100人”

上证报中国证券网讯 近日,美国《时代》周刊公布了2025年百大人物。榜单信息显示,DeepSeek创始人梁文锋入选了该杂志“2025年全球最具影响力100人”榜单。《时代》周刊如此评价道:通过更高效地...