• laibao's avatar
    V1 采样器:新增 reduced top-k/top-p 采样路径 · 9b1e03d4
    laibao authored
    新增环境变量 VLLM_V1_USE_REDUCED_TOPK_TOPP_SAMPLER 用于开关控制
    扩展 SamplingMetadata,增加 max_top_k 与 has_any_no_top_k
    在 InputBatch 侧计算 top-k 的主机端汇总信息,避免 device 同步
    更新 Sampler/TopKTopPSampler 传递并使用新参数以启用优化采样
    9b1e03d4
metadata.py 1.43 KB