# MiniMax-M2.5 ## 论文 [MiniMax-M2.5](https://www.minimax.io/news/forge-scalable-agent-rl-framework-and-algorithm) ## 模型简介 MiniMax-M2.5 在数十万个复杂真实世界环境中经过强化学习的广泛训练,在代码编写、智能体工具使用与搜索、办公任务以及一系列其他具有经济价值的任务上达到当前最先进(SOTA)水平,在多项基准测试中取得了优异成绩:SWE-Bench Verified 得分 80.2%、Multi-SWE-Bench 得分 51.3%、BrowseComp(含上下文管理)得分 76.3%。 MiniMax-M2.5自主研发了一套智能体原生的 RL 框架,名为 Forge。该框架引入了一个中间层,将底层的训练-推理引擎与智能体完全解耦,支持任意智能体的集成,能够优化模型在不同智能体架构和工具上的泛化能力。为提升系统吞吐量,优化了异步调度策略,在系统吞吐量与样本偏离策略程度之间取得平衡,并设计了一种树状结构的训练样本合并策略,实现了约 40 倍的训练加速。
在算法方面,继续采用去年初提出的 CISPO 算法,以确保 MoE 模型在大规模训练过程中的稳定性。为应对智能体 rollout 中长上下文带来的信用分配挑战,模型引入了一种过程奖励机制,用于端到端监控生成质量。此外,为了深度对齐用户体验,我们通过智能体轨迹评估任务完成时间,在模型智能性与响应速度之间实现了最佳权衡。
## 环境依赖 | 软件 | 版本 | | :------: |:---------:| | DTK | 26.04 | | python | 3.10.12 | | transformers | 4.57.6 | | vllm | 0.11.0+das.opt1.rc3.dtk2604 | | torch | 2.5.1+das.opt1.dtk2604.20260116.g78471bfd | 推荐使用镜像: harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.11.0-ubuntu22.04-dtk26.04-0130-py3.10-20260202 - 挂载地址`-v` 根据实际模型情况修改 ```bash docker run -it \ --shm-size 60g \ --network=host \ --name minimax-m2.5 \ --privileged \ --device=/dev/kfd \ --device=/dev/dri \ --device=/dev/mkfd \ --group-add video \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ -u root \ -v /opt/hyhal/:/opt/hyhal/:ro \ -v /path/your_code_data/:/path/your_code_data/ \ harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.11.0-ubuntu22.04-dtk26.04-0130-py3.10-20260202 bash ``` 更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。 关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装,vllm包需要替换安装: ``` pip uninstall vllm pip install vllm-0.11.0+das.opt1.rc3.dtk2604-cp310-cp310-linux_x86_64.whl ``` ## 数据集 暂无 ## 训练 暂无 ## 推理 1. 将FP8模型权重转换成BF16,转换方法如下: ```bash python cast_model_dtype/fp8_cast_bf16.py --input-fp8-hf-path /path/of/MiniMax/MiniMax-M2.5/ --output-bf16-hf-path /path/of/MiniMax/MiniMax-M2.5-bf16 ``` 2. 相关模型文件拷贝: ```bash cp /path/of/MiniMax/MiniMax-M2.5/config.json /path/of/MiniMax/MiniMax-M2.5-bf16 cp /path/of/MiniMax/MiniMax-M2.5/chat_template.jinja /path/of/MiniMax/MiniMax-M2.5-bf16 cp /path/of/MiniMax/MiniMax-M2.5/configuration.json /path/of/MiniMax/MiniMax-M2.5-bf16 cp /path/of/MiniMax/MiniMax-M2.5/generation_config.json /path/of/MiniMax/MiniMax-M2.5-bf16 cp /path/of/MiniMax/MiniMax-M2.5/configuration_minimax_m2.py /path/of/MiniMax/MiniMax-M2.5-bf16 cp /path/of/MiniMax/MiniMax-M2.5/tokenizer* /path/of/MiniMax/MiniMax-M2.5-bf16 cp /path/of/MiniMax/MiniMax-M2.5/vocab.json /path/of/MiniMax/MiniMax-M2.5-bf16 ``` **删掉 `/path/of/MiniMax/MiniMax-M2-bf16/config.json` 中的 `quantization_config` 字段内容,如图所示**
### vllm #### 单机推理 ```bash ## serve启动 vllm serve /path/of/MiniMax/MiniMax-M2.5-bf16 \ --trust-remote-code \ --served-model-name minimax-m2.5 \ --max-model-len 32768 \ --dtype bfloat16 \ -tp 8 \ --port 8001 \ --enable-auto-tool-choice \ --tool-call-parser minimax-m2 \ --enable-expert-parallel ## client访问 curl http://localhost:8001/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "minimax-m2.5", "messages": [ { "role": "user", "content": "牛顿提出了哪三大运动定律?请简要说明。" } ] }' ``` ## 效果展示
### 精度 DCU与GPU精度一致,推理框架:vllm。 ## 预训练权重 | 模型名称 | 权重大小 | DCU型号 | 最低卡数需求 |下载地址| |:----------------------:|:----:|:----------:|:------:|:----------:| | MiniMax-M2.5 | 229B | BW1000 | 8 | [Hugging Face](https://huggingface.co/MiniMaxAI/MiniMax-M2.5) | ## 源码仓库及问题反馈 - https://developer.sourcefind.cn/codes/modelzoo/minimax-m2.5_vllm ## 参考资料 - https://github.com/MiniMax-AI/MiniMax-M2.5