Explore GitLab
Discover projects, groups and snippets. Share your projects with others
-
-
DCU 视频编解码框架ffmpeg python api demo
-
FINCH将context分成多块,然后依次与prompt拼接输入模型并级联起来推理,从而把完整context切小来减小显存占用。
-
-
PyramidKV构建金字塔形缓存结构,低层分配更多缓存,高层分配较少缓存,从而减少显存占用。
-
-
Knorm将key进行L_2 Norm获得scores实现剪枝,英伟达官方默认的基准算法。
-
TOVA将Transformer视为一个无界多状态RNN,通过限制每层token数量来转换成有界RNN,允许动态驱逐最近缓存,根据当前查询需求调整保留窗口实现剪枝。
-
SnapKV采用近期query与key点积再池化的topk scores进行剪枝。
-
-
-
-
-
FSMN-Monophone VAD用于检测输入音频中有效语音的起止时间点信息,并将检测出来的有效音频片段输入识别引擎进行识别,减少无效语音带来的识别错误。
-
-
-
-