Explore GitLab
Discover projects, groups and snippets. Share your projects with others
-
用DeepStream进行视频推理的应用示例。
-
-
-
-
-
-
DTK-compatible Spack configs.
-
-
Step 3.5 Flash专为极致效率而生,具备前沿的推理能力和卓越的智能体(Agent)性能。
-
-
-
-
-
DCU 视频编解码框架ffmpeg python api demo
-
FINCH将context分成多块,然后依次与prompt拼接输入模型并级联起来推理,从而把完整context切小来减小显存占用。
-
-
PyramidKV构建金字塔形缓存结构,低层分配更多缓存,高层分配较少缓存,从而减少显存占用。
-
-
Knorm将key进行L_2 Norm获得scores实现剪枝,英伟达官方默认的基准算法。
-
TOVA将Transformer视为一个无界多状态RNN,通过限制每层token数量来转换成有界RNN,允许动态驱逐最近缓存,根据当前查询需求调整保留窗口实现剪枝。