Blame · src/fastertransformer/models/llama/prefix_cache.h · fe46dac2c2ea1a988929fba05e9d3d3c9b11dfd7 · OpenDAS / Lmdeploy · GitLab

Switch branch/tag

lmdeploy

src

fastertransformer

models

llama

prefix_cache.h
Find file
Normal viewHistoryPermalink

prefix_cache.h

343 Bytes

Newer

Older

check-in fastertransformer (#7)

Li Zhang
committed
Jun 20, 2023

// Copyright (c) OpenMMLab. All rights reserved.

#include <cuda_fp16.h>

template<typename T>
void invokeInsertKeyCache(T* key_cache, const T* src, int L, int H, int Dx, int s, int X, int S, cudaStream_t st);

template<typename T>

Add lint action (#32)

AllentDan
committed
Jul 01, 2023

void invokeInsertValueCache(T* value_cache, const T* src, int L, int H, int s, int D, int S, cudaStream_t st);