完善释放包括cpu和tensor_id释放

bfe12894 · xuxzh1 · 0627b53a · bfe12894
Commit bfe12894 authored Sep 14, 2025 by xuxzh1 🎱
Hide whitespace changes
Inline Side-by-side

Showing with 12 additions and 3 deletions

vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py ...ted/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py +12 -3

No files found.
--- a/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/p2p/p2p_nccl_connector.py
@@ -215,9 +215,18 @@ class P2pNcclConnector(KVConnectorBase_V1):
                inject_kv_into_layer(kv_cache_layer, kv_cache,
                                     request.slot_mapping, request.request_id)
-                tensor = self.p2p_nccl_engine.recv_store.pop(request.request_id + "#" + layer_name, None)
+                tensor_id = request.request_id + "#" + layer_name
-                if tensor is not None:
+                if tensor_id in self.p2p_nccl_engine.recv_store:
-                    del tensor
+                    tensor = self.p2p_nccl_engine.recv_store.pop(tensor_id, None)
+                    self.p2p_nccl_engine.send_request_id_to_tensor_ids.pop(
+                                request.request_id, None)
+                    self.p2p_nccl_engine.recv_request_id_to_tensor_ids.pop(
+                                request.request_id, None)
+                    addr = 0
+                    if isinstance(tensor, tuple):
+                        addr, _, _ = tensor
+                        self.p2p_nccl_engine.pool.free(addr)
    def wait_for_layer_load(self, layer_name: str) -> None:
        """Blocking until the KV for a specific layer is loaded into vLLM's