fix: Update free_gpu_memory_fraction for llama4 Maverick to avoid OOM in multinode setup (#7090)

f4e20810 · Indrajit Bhosale · GitHub · 48eb52e7 · f4e20810 · f4e20810
Unverified Commit f4e20810 authored Mar 09, 2026 by Indrajit Bhosale Committed by GitHub Mar 10, 2026
2 changed files
--- a/examples/backends/trtllm/engine_configs/llama4/multimodal/decode.yaml
+++ b/examples/backends/trtllm/engine_configs/llama4/multimodal/decode.yaml
@@ -15,14 +15,14 @@
 tensor_parallel_size: 8
 moe_expert_parallel_size: 1
 enable_attention_dp: false
-max_num_tokens: 8192
-max_batch_size: 16
+max_num_tokens: 4096
+max_batch_size: 8
 trust_remote_code: true
 backend: pytorch
 enable_chunked_prefill: true
 disable_overlap_scheduler: false
 kv_cache_config:
-  free_gpu_memory_fraction: 0.30
+  free_gpu_memory_fraction: 0.20
  enable_block_reuse: false

 cache_transceiver_config:

--- a/examples/backends/trtllm/engine_configs/llama4/multimodal/prefill.yaml
+++ b/examples/backends/trtllm/engine_configs/llama4/multimodal/prefill.yaml
@@ -15,8 +15,8 @@
 tensor_parallel_size: 8
 moe_expert_parallel_size: 1
 enable_attention_dp: false
-max_num_tokens: 8192
-max_batch_size: 16
+max_num_tokens: 4096
+max_batch_size: 8
 trust_remote_code: true
 backend: pytorch
 enable_chunked_prefill: true
@@ -24,7 +24,7 @@ enable_chunked_prefill: true
 disable_overlap_scheduler: true

 kv_cache_config:
-  free_gpu_memory_fraction: 0.30
+  free_gpu_memory_fraction: 0.20
  enable_block_reuse: false

 cache_transceiver_config: