Skip to content

【Hackathon 10th Spring No.47】MiniMax-M1 模型设计文档#1338

Open
bobby-cloudforge wants to merge 1 commit intoPaddlePaddle:masterfrom
CloudForge-Solutions:task/h10-047-rfc-minimax-m1-1
Open

【Hackathon 10th Spring No.47】MiniMax-M1 模型设计文档#1338
bobby-cloudforge wants to merge 1 commit intoPaddlePaddle:masterfrom
CloudForge-Solutions:task/h10-047-rfc-minimax-m1-1

Conversation

@bobby-cloudforge
Copy link
Copy Markdown
Contributor

概述

本 RFC 为 FastDeploy 新增 MiniMax-M1 模型推理支持的设计文档。

核心挑战

MiniMax-M1 (456B MoE, 45.9B active) 采用 80 层混合架构(10 层标准 GQA + 70 层 Lightning Attention 线性注意力),需要:

  1. Lightning Attention Triton 内核移植:5 个 @triton.jit 内核从 vLLM 移植至 FastDeploy Triton 兼容层
  2. 混合注意力调度:逐层通过 attn_type_list 选择 GQA 或线性注意力
  3. MoE + DeepNorm 集成:32 专家 Top-2 路由 + 独立 alpha/beta 缩放

方案选型

利用 FastDeploy 已有的 enable_compat_on_triton_kernel 装饰器实现 Paddle 张量 ↔ Triton 指针的隐式转换,直接移植 Triton 内核,维护成本远低于 CUDA C++ 翻译路线。

复用与新增

  • 复用:GQA 注意力、FusedMoE、RoPE、并行线性层、量化框架
  • 新增:Lightning Attention Triton 内核(可复用于后续 Lightning Attention 模型)

相关链接

@paddle-bot
Copy link
Copy Markdown

paddle-bot Bot commented Apr 20, 2026

你的PR提交成功,感谢你对开源项目的贡献!
请检查PR提交格式和内容是否完备,具体请参考示例模版
Your PR has been submitted. Thanks for your contribution!
Please check its format and content. For this, you can refer to Template and Demo.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant