当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构

3小时前Deepseek最新资讯18

  8月21日,DeepSeek正式发布其最新版本DeepSeek-V3.1,该版本采用了UE8M0 FP8 Scale的参数精度。据悉,这一技术规格专门为即将发布的下一代国产芯片进行优化设计。

  新版本在技术架构方面实现重要突破,引入了混合推理架构设计。该架构允许单一模型同时支持思考模式与非思考模式两种运行状态。用户可通过官方应用程序或网页端的深度思考按钮自由切换不同模式。

  与此同时,V3.1版本在运行效率方面取得显著提升。相比前代DeepSeek-R1-0528,新版本能够在更短时间内提供响应结果。通过思维链压缩训练技术,模型在输出token数量减少20%至50%的情况下,仍能保持相同的任务表现水平。

  在智能体能力方面,V3.1通过后训练优化实现了质的飞跃。新模型在工具使用、编程任务以及复杂搜索等智能体相关任务中表现获得较大幅度提升。在代码修复测评SWE与命令行终端环境测试中,该模型展现出更强的处理能力。

  技术规格方面,V3.1版本将上下文窗口扩展至128K,并新增对Anthropic API格式的支持。API接口同步升级deepseek,提供deepseek-chat与deepseek-reasoner两个不同接口,分别对应非思考模式和思考模式。

  值得注意的是,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。这些调整旨在更好地适配即将推出的国产芯片硬件环境。

  官方应用程序与网页端模型已同步升级为DeepSeek-V3.1版本。据了解,公司计划于2025年9月6日起执行新的API定价方案并取消夜间优惠政策。原文出处:DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构” 的相关文章

DeepSeek崩了引热议,官方深夜回应:网页API已恢复

DeepSeek崩了引热议,官方深夜回应:网页API已恢复

  8月11日,DeepSeek服务突遭全面宕机,API接口、网页平台以及App均无法访问或响应。许多网友也通过微博话题”DeepSeek崩了“反馈服务异常。根据DeepSeek在官网发布...

乔丹当年有没有退役巡演?詹姆斯会否学他

乔丹当年有没有退役巡演?詹姆斯会否学他

  你说的是碧昂丝和jayz吧,因为吹牛老爹的事受点舆论牵连,蕾哈娜和ASAP rocky没听说受啥影响啊。   你说的是碧昂丝和jayz吧,因为吹牛老爹的事受点舆论牵连...

【新思想引领新征程】文化的力量——习近平文化思想在浙江的溯源与实践

【新思想引领新征程】文化的力量——习近平文化思想在浙江的溯源与实践

  习近平总书记高度重视文化建设,早在二十多年前,他在浙江工作时对文化就有着深刻的思考与实践,他将“加快建设文化大省”列为“八八战略”重要内容,部署实施了文化大省建设“八项工程”,为浙江文...

金融何以打通穿越周期的逻辑?

金融何以打通穿越周期的逻辑?

  在这里,一批龙头产业孕育而出:宁德的锂电、晋江的鞋、福州的玻璃,产业集群效应日益凸显;一批极具影响力的企业家从这片沃土走出:曾毓群、张一鸣、王兴……   成立于202...

备件管理准确率98%!AI如何重塑高效售后服务?

备件管理准确率98%!AI如何重塑高效售后服务?

  晚上9点半,广州,某知名新茶饮品牌门店内,店长小林接到了平云小匠工程师的电话。确认其在店及报修情况后,工程师半小时内携备件到达门店,根据标准作业程序操作,完成签到、检测、维修、确认核销...

数智津门:伙伴+华为赋能下的新质生产力全球样本

数智津门:伙伴+华为赋能下的新质生产力全球样本

  作为“九河下梢”与“河海要冲”的天津,自古以来就是贯通南北商贸的关键节点。当数字化浪潮席卷全球,这座城市再次展现出锐意进取、敢为人先的开拓精神。   前不久的“华为中...