当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

4个月前 (02-26)DeepSeek技术交流228

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

学而思学练机接入DeepSeek,AI学习进入“深度思考”时代

学而思学练机接入DeepSeek,AI学习进入“深度思考”时代

在当下教育与科技加速融合的大环境里,学而思学练机凭借一系列务实又极具创新性的举措,正逐步改变着学生日常的学习模式。它积极拥抱前沿技术,在教育AI化的进程中不断探索,力求为广大学生带来更高效、更智能的学...

加速行业智能化升级,能科科技受邀参加华为温州站 DeepSeek 思享会

加速行业智能化升级,能科科技受邀参加华为温州站 DeepSeek 思享会

5月13日,“DeepSeek+昇腾”加速行业智能化升级——华为DeepSeek思享会在温州国际云软件谷圆满举办。大会就人工智能前沿技术与行业应用展开深入探讨,共商产业智能化升级发展新路径。能科科技(...

长城汽车新增“DeepSeek概念”

长城汽车新增“DeepSeek概念”

2025年4月18日,长城汽车(601633)新增“DeepSeek概念”。据同花顺数据显示,入选理由是:根据2025年4月17日互动易:DeepSeek demo 已完成上车验证,融入到长城汽车自研...

汉王科技:公司的电纸本全系产品已经接入Deepseek-R1和V3模型

汉王科技:公司的电纸本全系产品已经接入Deepseek-R1和V3模型

有投资者向汉王科技提问, 公司对DEEPSEEK评估完成了吗,现已接入了吗公司回答表示,您好,目前公司的电纸本全系产品已经接入Deepseek-R1和V3模型,除此之外,暂无其他合作。谢谢关注。...

DeepSeek助攻年轻人的口腔护理,一刷一含一漱健康从“齿”开始

DeepSeek助攻年轻人的口腔护理,一刷一含一漱健康从“齿”开始

你是不是也有这样的困扰:早上刷牙时牙龈出血,喝冰咖啡时牙齿敏感,吃完火锅后口腔异味挥之不去……别急,这些问题,DeepSeek用大数据告诉你:90%的年轻人都中招了!但好消息是,解决这些问题其实很简单...

外媒:从DeepSeek到《哪吒2》 中国不断突破科技创新与艺术创造极限

外媒:从DeepSeek到《哪吒2》 中国不断突破科技创新与艺术创造极限

国际在线专稿:美国《欧亚评论》网站近日刊发学者伊姆兰·哈立德署名文章《从电影票房到人工智能:中国重新定义全球叙事》。文章聚焦近期火爆出圈的两大“中国智造”——国产AI大模型DeepSeek和国产动画影...