当前位置：首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？

8个月前 (02-26)DeepSeek技术交流605

一开始，我还以为 DeepSeek 会走传统路线，比如大厂常见的蒸馏技术，搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求，但缺点也很明显，就是小模型再怎么优化，和大模型比起来，性能还是会有损失结果 DeepSeek 完全没按套路出牌，它不是去压缩模型，而是换了个角度，直接假设未来算力足够，然后想办法更高效地用好现有显卡架构。换句话说，不是缩小参数规模，而是在同等规模下优化计算方式，让计算更具性价比这种思路比纯工程优化要“硬核”得多。一般来说，搞小模型是比较务实的工程方案，但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容，而且即使以后显卡更强、模型规模更大，这套技术依然能继续用，不会过时

标签: DeepSeek DeepGEMM

返回列表

上一篇：怎么评估 Deepseek 模型的性能？

下一篇：Deepseek的「深度思考」和「联网搜索」有什么区别，怎么使用？

“DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？” 的相关文章

总编视点｜DeepSeek能给运营带来多大“深度”

总编视点｜DeepSeek能给运营带来多大“深度”

运营商的终极目标不应是“引入一个DeepSeek”，而是将自身重塑为AI原生企业。DeepSeek的横空出世，不仅打破美国企图在算力上卡中国“脖子”的局面，更推动算力普惠千行百业。在这样的背景下，国内...

DeepSeek新数学模型刷爆记录！7B小模型发现671B模型不会的新技能

DeepSeek新数学模型刷爆记录！7B小模型发现671B模型不会的新技能

梦晨西风发自凹非寺量子位 | 公众号 QbitAIDeepSeek放大招！新模型专注数学定理证明，大幅刷新多项高难基准测试。在普特南测试上，新模型DeepSeek-Prover-V2直接把记录刷...

大火、环保、核电与DeepSeek，欧洲对AI追赶之道的思考

大火、环保、核电与DeepSeek，欧洲对AI追赶之道的思考

这是2月10日在法国巴黎大皇宫拍摄的人工智能行动峰会现场。新华社图巴黎的大皇宫，是法国为了1900年的世博会而专门修建的。当时的法国，还处在美好年代的顶峰，是数一数二的世界强国，也是科技大国。一百多...

警惕不法分子借DeepSeek热度研发出的新型骗局

警惕不法分子借DeepSeek热度研发出的新型骗局

紧急预警广大市民朋友：近期，DeepSeek的热度持续居高不下，这款全能型工具各领域分析处理能力都令人大开眼界。然而，DeepSeek的火爆也让不法分子利用用户渴望尝试DeepSeek却认知不足...

广州津虹YY直播深度融合 DeepSeek，“YYDS”打造智能社区新生态

广州津虹YY直播深度融合 DeepSeek，“YYDS”打造智能社区新生态

DeepSeek热度攀升，广州津虹携“YYDS”开启智能社区新篇在当今科技飞速发展的时代，开源大模型领域风起云涌，DeepSeek作为其中的重要产品，凭借其卓越的技术优势与出色的性能表现，犹如一颗璀璨...

DeepSeek助攻年轻人的口腔护理，一刷一含一漱健康从“齿”开始

DeepSeek助攻年轻人的口腔护理，一刷一含一漱健康从“齿”开始

你是不是也有这样的困扰：早上刷牙时牙龈出血，喝冰咖啡时牙齿敏感，吃完火锅后口腔异味挥之不去……别急，这些问题，DeepSeek用大数据告诉你：90%的年轻人都中招了！但好消息是，解决这些问题其实很简单...