• laibao's avatar
    • perf(v1): 增加可选的快速 token-id 拷贝路径 · d3a95d54
    laibao authored
      - 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`(默认关闭)
      - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids(numpy 数组)
      - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids
    d3a95d54
gpu_input_batch.py 44.3 KB