Qwen3.5 相对于 Qwen3 系列模型,其 Post-training 性能提升主要来自于对各类 RL 任务和环境的全面扩展,更加强调 RL 环境的难度与可泛化性,而非针对特定指标或狭隘类别的 query 进行优化。