当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

7个月前 (02-25)Deepseek最新资讯341

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。

据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。

贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。

上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

这场科技盛会将启幕,为何DeepSeek让业内兴奋又“焦虑”

这场科技盛会将启幕,为何DeepSeek让业内兴奋又“焦虑”

“这次DeepSeek横空出世,让AI从业者既兴奋又‘焦虑’。”上海库帕思科技有限公司CEO黄海清认为,DeepSeek最核心的点在于技术创新,为中国大模型公司和产业的发展提供了一个较好的“换道超车”...

超越DeepSeek?巨头们不敢说的技术暗战

超越DeepSeek?巨头们不敢说的技术暗战

无可置疑的,DeepSeek-R1模型的面世使中国AI技术发展有了极大的优势侧,也标志着人工智能领域的里程碑式突破。这款具有颠覆性意义的推理模型不仅在研发效率上展现出显著优势,其性能指标可与OpenA...

DeepSeek“五一礼包”来了!新开源模型数学推理能力大提升|附实测细节

DeepSeek“五一礼包”来了!新开源模型数学推理能力大提升|附实测细节

赶在五一假期前夕,DeepSeek给我们送出一份惊喜大礼。延续一贯的开源节奏,DeepSeek在Hugging Face正式发布DeepSeek-Prover-V2,并同步上线模型卡及示例代码。此次共...

当环评拥抱DeepSeek:30分钟出报告、5分钟生成准入意见 | 智能环评篇

当环评拥抱DeepSeek:30分钟出报告、5分钟生成准入意见 | 智能环评篇

让环评“拥抱”智能化手段为生态环境治理体系和治理能力现代化建设注入全新活力已成为各地开展环评改革工作的重要关注点浙江杭州30分钟自动生成环评报告表15分钟完成智能审查以往建设单位需要委托环评中介机构查...

华为云广东DeepSeek思享会·珠海站成功举办——共话AI浪潮下行业深度应用新路径

华为云广东DeepSeek思享会·珠海站成功举办——共话AI浪潮下行业深度应用新路径

当下,人工智能技术日新月异,对各行业的渗透与变革正以前所未有的速度展开,成为推动经济发展和社会进步的关键力量。今年年初DeepSeek爆火,以其独特的技术优势和创新能力,受到了社会各界高度关注。为了进...

航宇科技携手涵道科技实现DeepSeek本地化部署

航宇科技携手涵道科技实现DeepSeek本地化部署

每经AI快讯,2月27日,贵州航宇科技发展股份有限公司公众号消息,航宇科技与涵道空天(上海)智能科技有限公司达成深度合作,通过本地化部署 DeepSeek 智能系统致力于实现从研发、生产到服务的全链条...