[性能]Qwen3-Next-80B-A3B-Thinking在通过docker-compose命令启动时比在容器内手动执行时显著降低了代吞吐量 (#3) · Issues · ModelZoo / Qwen3-Next_sglang

[性能]Qwen3-Next-80B-A3B-Thinking在通过docker-compose命令启动时比在容器内手动执行时显著降低了代吞吐量

1. 问题描述 在同一台机器、同一镜像、同一模型权重、同一启动脚本的情况下，仅启动方式不同（docker-compose 自动启动 vs 容器内手动启动），模型推理性能存在明显差异。 docker-compose 自动启动模型时： gen throughput (token/s) ≈ 7 进入容器后手动执行同一个启动脚本： gen throughput (token/s) ≈ 16 差异接近 2×，可稳定复现。

2. 环境信息 Model: Qwen3-Next-80B-A3B-Thinking； Framework: sglang（基于 qwen3-next-sglang 官方手册）； GPU: 海光 K100 AI × 4； OS: 统信 UOS1070a； Docker version: Docker version 20.10.7, build f0df350； Image: 0.9.2-ubuntu22.04-dtk25.04.1-rc5-rocblas101839-0811-das1.6-py3.10-20250908-rc1-next80b-only-fixed（手册镜像 + 下载安装sglang + 安装Python包二次构建）

3. 启动方式对比

方式一：docker-compose 自动启动（性能较低） qwen3-next.yml 中模型服务启动方式如下：

容器启动后模型自动拉起，请求推理时：

方式二：容器内手动启动（性能正常） docker exec -it <container_id> bash, sh /workspace/vLLm/qwen3-next.sh 相同测试请求下：

4. 其他说明 两种方式使用完全相同的启动脚本启动参数、模型权重路径、GPU 数量、请求方式均一致问题在多次重启、重复测试中均可复现

5. 期望行为 docker-compose 自动启动与容器内手动启动在性能表现上应保持一致

6. 请求协助 希望社区协助确认：

是否为已知问题或设计预期行为
是否有推荐的 docker / compose 启动方式或参数
是否需要在 compose 中显式设置环境变量、entrypoint 或 runtime 参数