K

kvpress-TOVA-Qwen3-8B_pytorch

TOVA将Transformer视为一个无界多状态RNN,通过限制每层token数量来转换成有界RNN,允许动态驱逐最近缓存,根据当前查询需求调整保留窗口实现剪枝。