Qwen3.5_vllm

Qwen3.5 相对于 Qwen3 系列模型，其 Post-training 性能提升主要来自于对各类 RL 任务和环境的全面扩展，更加强调 RL 环境的难度与可泛化性，而非针对特定指标或狭隘类别的 query 进行优化。