【民生AI体验官】DeepSeek v3.2实现国产AI的伟大“闭环”
据深度求索微信公众号,9月29日,深度求索团队正式发布 DeepSeek-V3.2-Exp 模型在最后阶段,以 TileLang 作为精度基线,逐步使用底层语言实现更高效的版本。因此,本次开源的主要算子包含 TileLang 与 CUDA 两种版本。同时,
TileLang是由Tile-AI社区发起的Tile-level的类Python的AI编程语言(DSL)项目,在Tile粒度上进行编程和编译,简化高性能 GPU/CPU 内核(例如 GEMM、Dequant GEMM、FlashAttention、LinearAttention)的开发,实现模型算子和硬件的高效协同。Tilelang 采用 Python 式语法,并在TVM之上构建底层编译器基础架构,使开发者能够专注于提高生产力,而无需牺牲实现最佳性能所需的底层优化。
1)简化NPU算子编程复杂度:Tilelang采用类Python语法,大大降低NPU算子开发门槛,封装调度空间为自定义原语,开发者更加关注数据流本身。
2)支持灵活扩展:实现调度空间与数据流解耦,NPU算子优化由编译器自动完成,同时充分利用NPU底层硬件特性。
3)高性能:Tilelang可以实现高性能NPU算子,允许用户感知NPU硬件特性,相较Triton理论上可以获得更好的性能。
多级Lowering转换:TileLang算子根据NPU硬件特性进行多级降级,生成针对昇腾硬件优化的TensorIR表示,
动态库编译:通过毕昇编译器(bisheng)将AscendC代码编译成动态链接库(.so文件)。
执行调用:用户以普通Python函数方式调用,提供输入张量即可在昇腾NPU上执行计算并获得结果。
部署阶段:支持 GPU(NVIDIA A100/H100)、NPU(华为昇腾 910)等硬件,部署效率较手工优化提升 5 倍。
研究团队通过在不同硬件平台和工作负载上进行一系列全面的数值实验,对 TileLang 的性能进行了评估。我们的目标是证明 TileLang 在优化构成现代机器学习工作负载核心的关键运算符计算核方面的有效性、通用性和可扩展性。
现代AI工作负载的训练与推理过程,在很大程度上依赖于经过优化的计算核。这些人工智能计算核遵循定义明确的数据流模式,并对这些数据块执行一系列计算操作。尽管这些模式清晰易懂,但编写高性能计算核仍然面临诸多复杂挑战。要实现峰值性能,就必须进行细致的、以硬件为核心的优化,从而充分发挥现代加速器的性能潜力。尽管领域专用编译器试图减轻编写高性能计算核的负担,但它们仍会将大部分底层优化与计算核实现紧密耦合,在易用性和表达能力方面往往存在不足。
TileLang 将调度空间(线程绑定、数据布局、张量化和流水线)与数据流解耦,并将其封装为一组可定制的注解和原语。这种方法使得用户能够将精力集中在计算核的数据流本身,而将其他大部分优化工作交由编译器完成。
通过独特的框架设计,Tilelang能够为不同代码能力的开发者提供个性化的服务:如果你是一名专家(Expert),即很懂 CUDA 或是很懂硬件,则可以直接写很底层的代码;如果你是一名开发者(Developer),即会写 Triton、懂 Tile、寄存器等概念,则可以像写 Triton 那样去写一个 Tile 级别的程序;如果你是一个完全不懂硬件只懂算法的初学者(Beginner),那你可以像写 TRL 那样写一个高级的表达式,再通过 Auto Schedule 进行 Lower 成对应的代码。
1)类 Python 设计:与 Python 生态系统无缝集成,提供熟悉的编码体验,降低学习难度;
2)以数据流为中心:让用户主要关注数据流,同时抽象底层调度的复杂性。它将线程绑定、内存布局、张量化和流水线等调度相关方面与数据流解耦,并将其封装为一组可定制的注解和原语,以提高可编程性和可维护性;
本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并登记为注册分析师,基于认真审慎的工作态度、专业严谨的研究方法与分析逻辑得出研究结论,独立、客观地出具本报告,并对本报告的内容和观点负责。本报告清晰准确地反映了研究人员的研究观点,结论不受任何第三方的授意、影响,研究人员不曾因、不因、也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。
《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号/本账号发布的观点和信息仅供民生证券的专业投资者参考,完整的投资观点应以民生证券研究院发布的完整报告为准。若您并非民生证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号/本账号推送内容而视相关人员为客户;市场有风险,投资需谨慎。
本报告仅供本公司境内客户使用。本公司不会因接收人收到本报告而视其为客户。本报告仅为参考之用,并不构成对客户的投资建议,不应被视为买卖任何证券、金融工具的要约或要约邀请。本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,客户应当充分考虑自身特定状况,不应单纯依靠本报告所载的内容而取代个人的独立判断。在任何情况下,本公司不对任何人因使用本报告中的任何内容而导致的任何可能的损失负任何责任。
本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、意见及预测仅反映本公司于发布本报告当日的判断,且预测方法及结果存在一定程度局限性。在不同时期,本公司可发出与本报告所刊载的意见、预测不一致的报告,但本公司没有义务和责任及时更新本报告所涉及的内容并通知客户。
在法律允许的情况下,本公司及其附属机构可能持有报告中提及的公司所发行证券的头寸并进行交易,也可能为这些公司提供或正在争取提供投资银行、财务顾问、咨询服务等相关服务,本公司的员工可能担任本报告所提及的公司的董事。客户应充分考虑可能存在的利益冲突,勿将本报告作为投资决策的唯一参考依据deepseek。
若本公司以外的金融机构发送本报告,则由该金融机构独自为此发送行为负责。该机构的客户应联系该机构以交易本报告提及的证券或要求获悉更详细的信息。本报告不构成本公司向发送本报告金融机构之客户提供的投资建议。本公司不会因任何机构或个人从其他机构获得本报告而将其视为本公司客户。原文出处:【民生AI体验官】DeepSeek v3.2实现国产AI的伟大“闭环”,感谢原作者,侵权必删!