-
laibao authored
- 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`(默认关闭) - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids(numpy 数组) - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids
d3a95d54
- 新增环境变量 `VLLM_V1_FAST_TOKEN_ID_COPY`(默认关闭) - 在 `CachedRequestState` 中缓存 int32 的 prompt token ids(numpy 数组) - 开启后在 `InputBatch` 中使用 `np.copyto` 拷贝 prompt/output token ids