当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek超越“开放权重”AI,计划发布源代码

4个月前 (02-25)Deepseek最新资讯200

上个月,DeepSeek 通过发布一个新的、具有竞争力的模拟推理模型,在 AI 领域掀起了轩然大波。该模型可以在 MIT 许可证下免费下载和使用。现在,该公司正准备让这个模型背后的底层代码更加透明,承诺从下周开始发布五个开源代码库。

在周四晚间的社交媒体帖子中,DeepSeek 表示,其计划的"开源周"每日发布将提供对"这些在我们在线服务中的基础模块的可见性,它们已经过文档记录、部署和生产环境的实战测试。作为开源社区的一份子,我们相信每一行共享的代码都将成为推动我们共同前进的动力。"

虽然 DeepSeek 对将要分享的代码类型并未具体说明,但其配套的 GitHub 页面 "DeepSeek Open Infra" 承诺即将发布的内容将涵盖"推动我们这个小小月球计划前进的代码",并"完全透明地分享我们微小但真诚的进展"。该页面还引用了一份 2024 年的论文,详细介绍了 DeepSeek 的训练架构和软件栈。

这一举措可能会加大 DeepSeek 与 OpenAI 之间的差异,后者的市场领先产品 ChatGPT 模型仍然完全专有,其内部运作对外部用户和研究人员来说依然不透明。尽管 DeepSeek 的移动应用因隐私问题面临国际限制,但这次开源发布可能有助于提供更广泛和更便捷的访问途径。

开放究竟有多开放?

DeepSeek 最初的模型发布已经包含了所谓的"开放权重"访问权限,可以访问代表模型数十亿模拟神经元之间连接强度的底层数据。这种发布方式允许终端用户通过额外的训练数据轻松微调这些模型参数,以满足更具针对性的目的。

包括 Google 的 Gemma、Meta 的 Llama,甚至 OpenAI 早期发布的 GPT2 等主要模型都采用了这种开放权重结构。这些模型通常也会发布开源代码,涵盖响应查询时运行的推理时间指令。

目前尚不清楚 DeepSeek 计划的开源发布是否也将包括团队在训练模型时使用的代码。这种训练代码对于满足开源研究所 (OSI) 去年最终确定的"开源 AI"正式定义来说是必需的。根据 OSI 的标准,一个真正开放的 AI 还必须包括"关于用于训练系统的数据的充分详细信息,使得技术熟练的人能够构建一个实质上等效的系统"。

完全开源发布(包括训练代码)可以让研究人员更清楚地了解模型在核心层面是如何工作的,可能揭示出模型架构而非参数权重固有的偏见或局限性。完整的源代码发布还可以让人们更容易从头开始复制模型,如有必要,甚至可以使用全新的训练数据。

Elon Musk 的 xAI 在今年 3 月发布了 Grok 1 的开源推理时间代码版本,最近还承诺在未来几周内发布 Grok 2 的开源版本。但该公司表示,最近发布的 Grok 3 将暂时保持专有状态,仅供 X Premium 订阅用户使用。

本月早些时候,HuggingFace 在 OpenAI 发布专有的 "Deep Research" 功能几小时后就发布了其开源克隆版本。HuggingFace 的 Aymeric Roucher 告诉 Ars Technica,该克隆版本在发布时使用闭源权重模型"仅仅是因为它运行良好",但源代码的"开放管道"可以根据需要轻松切换到任何开放权重模型。


“DeepSeek超越“开放权重”AI,计划发布源代码” 的相关文章

DeepSeek R1模型已完成小版本试升级

DeepSeek R1模型已完成小版本试升级

每经快讯,5月28日,DeepSeek官方宣布DeepSeek R1模型已完成小版本试升级,欢迎前往官方网页、APP、小程序测试(打开深度思考),API 接口和使用方式保持不变。每日经济新闻...

国家广电总局广科院、当虹科技等单位发起成立DeepSeek传媒行业应用创新联盟

国家广电总局广科院、当虹科技等单位发起成立DeepSeek传媒行业应用创新联盟

证券时报e公司讯,2月11日举办的DeepSeek大模型传媒行业应用研讨会上,当虹科技与国家广电总局广科院等多家单位联合发起成立DeepSeek传媒行业应用创新联盟,共同迈进“DeepSeek+传媒应...

从仿冒域名到仿冒程序恶意软件“蹭热度”瞄上DeepSeek

从仿冒域名到仿冒程序恶意软件“蹭热度”瞄上DeepSeek

伴随DeepSeek热度狂飙,各种仿冒网站、钓鱼网站也趁机“搭车”。安全专家提醒,这些“山寨网站”极易令不明真相的网友蒙受损失,甚至会肆意传播恶意软件,广大用户需加强终端安全防护,避免因误装恶意程序而...

弘信电子:全资子公司安联通已经推出安联云业务,安联云可一键部署DeepSeek系列镜像

弘信电子:全资子公司安联通已经推出安联云业务,安联云可一键部署DeepSeek系列镜像

每经AI快讯,有投资者在投资者互动平台提问:子公司安联通是否有云计算业务?弘信电子(300657.SZ)3月31日在投资者互动平台表示,公司全资子公司安联通已经推出安联云业务,安联云平台配备GPU的云...

卓创资讯:完成DeepSeek系列大模型的本地化部署

卓创资讯:完成DeepSeek系列大模型的本地化部署

每经快讯,卓创资讯官微2月18日消息,近日,卓创资讯完成DeepSeek系列大模型的本地化部署,成功实现从技术引入到落地应用。卓创资讯通过DeepSeek系列大模型与公司已应用大模型的深度融合,形成协...

DeepSeek“引爆”博鳌!AI将像水电一样人人可用

DeepSeek“引爆”博鳌!AI将像水电一样人人可用

当时间步入博鳌亚洲论坛2025年年会第二天,这场盛会迎来议程最繁忙的阶段,人工智能毫无悬念地成为中外嘉宾瞩目的“C位”。从现场令人惊叹的科技展示,到分论坛上唇枪舌剑的思想交锋,AI热度持续飙升。有嘉宾...