当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

7个月前 (02-24)Deepseek最新资讯351

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

梁文锋署名DeepSeek新论文:公开V3大模型降本方法

梁文锋署名DeepSeek新论文:公开V3大模型降本方法

还有对下一代AI的期待梁文锋亲自参与的DeepSeek最新论文,来了!这一次,团队把DeepSeek-V3在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。具体而言,DeepSeek-V3之所...

DeepSeek点燃物流行业AI竞技场新烽火

DeepSeek点燃物流行业AI竞技场新烽火

在科技日新月异的当下,人工智能领域不断传来重磅消息。国产AI企业深度求索(DeepSeek)发布了新一代推理大模型DeepSeek-R1,宛如一颗投入平静湖面的巨石,瞬间掀起了物流行业AI竞技场的新浪...

TCL实业全面接入DeepSeek

TCL实业全面接入DeepSeek

公司动态经济观察网讯 2月17日,TCL科技宣布,TCL实业正式接入DeepSeek,将为TCL的智能家居、移动通讯、内部研发等产品线和业务注入AI能力。(编辑:万佳)...

优刻得与百事通战略合作 合力推进DeepSeek一体机司法领域应用

优刻得与百事通战略合作 合力推进DeepSeek一体机司法领域应用

人民财讯4月9日电,记者从优刻得获悉,优刻得与上海百事通信息技术股份有限公司达成战略合作。双方将携手推出DeepSeek一体机司法解决方案,实现“高安全国产算力+垂直领域数据资源”的技术融合,为司法行...

电信科技+DeepSeek云智赋能福建漳州,让基层治理更有温度!

电信科技+DeepSeek云智赋能福建漳州,让基层治理更有温度!

AI出手,智解千千结!电信科技+DeepSeek云智赋能福建漳州,为基层工作者打造24小时在线的“智能助手”,让基层治理更有温度!...

希荻微:办公系统已接入基于Deepseek模型的提效工具

希荻微:办公系统已接入基于Deepseek模型的提效工具

金融界3月10日消息,有投资者在互动平台向希荻微提问:董秘您好!请问贵公司是否已经部署了DeepSeek?如果已经部署了,请问主要应用于哪些具体的业务?公司接入DeepSeek有哪些成本、收益方面的考...