_fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32768512]) _fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32768512]) _fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32768512]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32768512]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32768512]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32768512]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32768512]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32768512]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.0._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.1._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.2._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.3._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.4._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.5._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.6._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.7._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.8._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.9._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.10._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.11._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.12._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.13._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.14._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.15._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.16._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.17._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.18._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.19._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.20._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.21._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.22._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.23._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.24._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.25._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.26._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.27._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 5 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 2 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 1 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 3 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 4 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.28._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 7 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.29._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.30._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([181408768]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.q_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.k_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.v_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([4096]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.self_attn.o_proj.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.gate.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([32]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.0.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.1.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.2.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.3.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.4.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.5.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 0 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.6.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w1.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w2.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_A.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([16384]) _fsdp_wrapped_module.base_model.model.model.layers.31._fsdp_wrapped_module.block_sparse_moe.experts.7.w3.lora_B.default._fsdp_wrapped_module._flat_param: cpu ; current_device: 6 ; Size: torch.Size([57344])