当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

8个月前 (02-26)DeepSeek技术交流605

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

总编视点|DeepSeek能给运营带来多大“深度”

总编视点|DeepSeek能给运营带来多大“深度”

运营商的终极目标不应是“引入一个DeepSeek”,而是将自身重塑为AI原生企业。DeepSeek的横空出世,不仅打破美国企图在算力上卡中国“脖子”的局面,更推动算力普惠千行百业。在这样的背景下,国内...

DeepSeek新数学模型刷爆记录!7B小模型发现671B模型不会的新技能

DeepSeek新数学模型刷爆记录!7B小模型发现671B模型不会的新技能

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAIDeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。在普特南测试上,新模型DeepSeek-Prover-V2直接把记录刷...

大火、环保、核电与DeepSeek,欧洲对AI追赶之道的思考

大火、环保、核电与DeepSeek,欧洲对AI追赶之道的思考

这是2月10日在法国巴黎大皇宫拍摄的人工智能行动峰会现场。新华社 图巴黎的大皇宫,是法国为了1900年的世博会而专门修建的。当时的法国,还处在美好年代的顶峰,是数一数二的世界强国,也是科技大国。一百多...

警惕不法分子借DeepSeek热度研发出的新型骗局

警惕不法分子借DeepSeek热度研发出的新型骗局

紧 急 预 警广大市民朋友:近期,DeepSeek的热度持续居高不下,这款全能型工具各领域分析处理能力都令人大开眼界。然而,DeepSeek的火爆也让不法分子利用用户渴望尝试DeepSeek却认知不足...

广州津虹YY直播深度融合 DeepSeek,“YYDS”打造智能社区新生态

广州津虹YY直播深度融合 DeepSeek,“YYDS”打造智能社区新生态

DeepSeek热度攀升,广州津虹携“YYDS”开启智能社区新篇在当今科技飞速发展的时代,开源大模型领域风起云涌,DeepSeek作为其中的重要产品,凭借其卓越的技术优势与出色的性能表现,犹如一颗璀璨...

DeepSeek助攻年轻人的口腔护理,一刷一含一漱健康从“齿”开始

DeepSeek助攻年轻人的口腔护理,一刷一含一漱健康从“齿”开始

你是不是也有这样的困扰:早上刷牙时牙龈出血,喝冰咖啡时牙齿敏感,吃完火锅后口腔异味挥之不去……别急,这些问题,DeepSeek用大数据告诉你:90%的年轻人都中招了!但好消息是,解决这些问题其实很简单...