refactor: Move TRTLLM example to the component/backends (#1976)

4ad281f2 · Tanmay Verma · GitHub · 57d24a18 · 4ad281f2 · 4ad281f2
Unverified Commit 4ad281f2 authored Jul 16, 2025 by Tanmay Verma Committed by GitHub Jul 16, 2025
20 changed files
--- a/examples/tensorrt_llm/README.md
+++ b/examples/tensorrt_llm/README.md
@@ -123,13 +123,13 @@ This figure shows an overview of the major components to deploy:

 #### Aggregated
 ```bash
-cd $DYNAMO_ROOT/examples/tensorrt_llm
+cd $DYNAMO_HOME/components/backends/trtllm
 ./launch/agg.sh
 ```

 #### Aggregated with KV Routing
 ```bash
-cd $DYNAMO_ROOT/examples/tensorrt_llm
+cd $DYNAMO_HOME/components/backends/trtllm
 ./launch/agg_router.sh
 ```

@@ -139,7 +139,7 @@ cd $DYNAMO_ROOT/examples/tensorrt_llm
 > Disaggregated serving supports two strategies for request flow: `"prefill_first"` and `"decode_first"`. By default, the script below uses the `"decode_first"` strategy, which can reduce response latency by minimizing extra hops in the return path. You can switch strategies by setting the `DISAGGREGATION_STRATEGY` environment variable.

 ```bash
-cd $DYNAMO_ROOT/examples/tensorrt_llm
+cd $DYNAMO_HOME/components/backends/trtllm
 ./launch/disagg.sh
 ```

@@ -149,13 +149,13 @@ cd $DYNAMO_ROOT/examples/tensorrt_llm
 > Disaggregated serving with KV routing uses a "prefill first" workflow by default. Currently, Dynamo supports KV routing to only one endpoint per model. In disaggregated workflow, it is generally more effective to route requests to the prefill worker. If you wish to use a "decode first" workflow instead, you can simply set the `DISAGGREGATION_STRATEGY` environment variable accordingly.

 ```bash
-cd $DYNAMO_ROOT/examples/tensorrt_llm
+cd $DYNAMO_HOME/components/backends/trtllm
 ./launch/disagg_router.sh
 ```

 #### Aggregated with Multi-Token Prediction (MTP) and DeepSeek R1
 ```bash
-cd $DYNAMO_ROOT/examples/tensorrt_llm
+cd $DYNAMO_HOME/components/backends/trtllm

 export AGG_ENGINE_ARGS=./engine_configs/deepseek_r1/mtp/mtp_agg.yaml
 export SERVED_MODEL_NAME="nvidia/DeepSeek-R1-FP4"

--- a/examples/tensorrt_llm/components/worker.py
+++ b/examples/tensorrt_llm/components/worker.py
--- a/examples/tensorrt_llm/engine_configs/agg.yaml
+++ b/examples/tensorrt_llm/engine_configs/agg.yaml
--- a/examples/tensorrt_llm/engine_configs/decode.yaml
+++ b/examples/tensorrt_llm/engine_configs/decode.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/mtp/mtp_agg.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/mtp/mtp_agg.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/mtp/mtp_decode.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/mtp/mtp_decode.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/mtp/mtp_prefill.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/mtp/mtp_prefill.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/simple/agg.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/simple/agg.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/simple/decode.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/simple/decode.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/simple/prefill.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/simple/prefill.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/dep16_agg.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/dep16_agg.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/eplb.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/eplb.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/wide_ep_agg.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/wide_ep_agg.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/wide_ep_decode.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/wide_ep_decode.yaml
--- a/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/wide_ep_prefill.yaml
+++ b/examples/tensorrt_llm/engine_configs/deepseek_r1/wide_ep/wide_ep_prefill.yaml
--- a/examples/tensorrt_llm/engine_configs/llama4/eagle/eagle_agg.yaml
+++ b/examples/tensorrt_llm/engine_configs/llama4/eagle/eagle_agg.yaml
--- a/examples/tensorrt_llm/engine_configs/llama4/eagle/eagle_decode.yaml
+++ b/examples/tensorrt_llm/engine_configs/llama4/eagle/eagle_decode.yaml
--- a/examples/tensorrt_llm/engine_configs/llama4/eagle/eagle_prefill.yaml
+++ b/examples/tensorrt_llm/engine_configs/llama4/eagle/eagle_prefill.yaml
--- a/examples/tensorrt_llm/engine_configs/prefill.yaml
+++ b/examples/tensorrt_llm/engine_configs/prefill.yaml
--- a/examples/tensorrt_llm/kv-cache-tranfer.md
+++ b/examples/tensorrt_llm/kv-cache-tranfer.md