Blame · src/fastertransformer/models/llama/llama_decoder_kernels.h · 2700abb30758b78d19a532fcf1503d73fcdc61c8 · OpenDAS / Lmdeploy · GitLab

Switch branch/tag

lmdeploy

src

fastertransformer

models

llama

llama_decoder_kernels.h
Find file
Normal viewHistoryPermalink

llama_decoder_kernels.h

323 Bytes

Newer

Older

check-in fastertransformer (#7)

Li Zhang
committed
Jun 20, 2023

// Copyright (c) OpenMMLab. All rights reserved.

#include <cuda_runtime.h>

namespace fastertransformer {

template<typename T>

Support attention bias (#14)

Li Zhang
committed
Jun 24, 2023

void invokeFusedAddBiasResidualRMSNorm(
    T* residual, T* inout, const T* bias, const T* scale, float eps, int batch_size, int n_dims, cudaStream_t stream);

check-in fastertransformer (#7)

Li Zhang
committed
Jun 20, 2023

}  // namespace fastertransformer