摩尔线程开源 MT_八大胜在线体育

合作交流

学术交流

学术交流

摩尔线程开源 MT

作者：admin日期：2025/03/18 浏览：

IT之家 3 月 17 日新闻，摩尔线程官方本日发文发布，已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两年夜 AI 框架。这两年夜框架经由过程深度融会 FP8 混杂练习战略跟高机能算子库，在国产全功效 GPU 上实现混杂并行练习跟推理，晋升了练习效力与稳固性。

据先容，MT-MegatronLM 是面向全功效 GPU 的开源混杂并行练习框架，支撑 dense 模子、多模态模子及 MoE（混杂专家）模子的高效练习；MT-TransformerEngine 重要用于 Transformer 模子的练习与推理优化，经由过程算子融会、并行减速战略等技巧，开释摩尔线程全功效 GPU 高密度盘算的潜力跟 memory bound 算子效力。两年夜框架的技巧冲破表现在硬件适配与算法翻新的深度协同：混杂并行练习：支撑 Dense、多模态及 MoE 模子的混杂并十大滚球体育app入口行练习，可机动应答差别模子架构的庞杂运算场景；FP8 混杂练习战略：联合摩尔线程 GPU 原生支撑的 FP8 混杂精度练习战略，可能无效晋升练pg电子娱乐平台习效力；高机能算子库：经由过程高机能算子库 muDNN 与通讯库 MCCL 的深度集成，体系性优化了盘算麋集型义务与多卡协同的通讯开支；同时联合摩尔线程开源 Simumax 库，可主动停止并行战略搜寻，并针对差别模子跟减速情况 spec 最年夜化并行练习机能；异样练习处置：框架内置的 rewind 异样规复机制，可主动回滚至近来稳固节点持续练习，年夜幅晋升年夜范围练习的稳固性；完全的兼容性：两个框架兼容 GPU 主流生态，既保证了现有生态的腻滑迁徙，也为开辟者构建自有的 AI 技巧栈供给了底层支持。现实利用后果如下：高效练习：在全功效 GPU 集群上，Llama3 8B 模子的练习义务，能够应用 FP8 在 loss 多少乎无损的情形下 MFU 到达 90% 以上；（如下图所示） ▲ 利用摩尔线程 FP8 混合精度加速技术在 loss 无损的情况下得到 28% 的加速

▲ 利用摩尔线程 FP8 混合精度加速技术在 loss 无损的情况下得到 28% 的加速

▲ 应用摩尔线程 FP8 混杂精度减速技巧在 loss 无损的情形下失掉 28% 的减速复现 DeepSeek 满血版练习：摩尔线程已深度集成并开源对 DeepSeek 并行算法 DualPipe 的高效支撑，MT-DualPipe 能够完全接入 MT-Megatron 框架跟 MT-TransformerEngine 框架，胜利实现 DeepSeek V3 练习流程的完全复现，支撑 MLA、MTP 及多种专家均衡战略；机能年夜幅优化：经由过程多种 Transformer 算子融会技巧，明显晋升了内存带宽应用率，无效缓解 memory bound 瓶颈，进一步开释国产 GPU 的硬件潜力。摩尔线程官方表现将连续优化 MT-MegatronLM 与 MT-TransformerEngine 框架，并引入系列功效，详细如下：Dual Pipe / Zer欧洲杯足球oBubble 并行战略：进一步下降气泡率，晋升并行练习效力；多种 FP8 优化战略：首创的 FP8 优化战略，进步练习的机能跟稳固性；异步 checkpoint 战略：进步练习进程中的容错才能跟效力；优化后的重盘算战略：增加盘算跟显存开支，进步练习速率；容错练习战略：首创的容错练习算法，加强练习进程中的容错才能；集成摩尔线程 FlashMLA 跟 DeepGemm 库：进一步开释摩尔线程 GPU 的算力跟 FP8 盘算才能，晋升盘算机能跟效力。IT之家附开源地点如下：MT-MegatronLM 开源地点：https://github.com/MooreThreads/MT-MegatronLMMT-TransformerEngine 开源地点：https://github.com/MooreThreads/MT-TransformerEngine摩尔线程 Simumax 开源地点：https://github.com/MooreThreads/SimuMax

上一篇：竞分游戏哪个好下载量高的竞分游戏推举
下一篇：没有了