set smem size for repetition penalty kernel (#818)

d5a89465 · Li Zhang · GitHub · a54b16a2 · d5a89465
Unverified Commit d5a89465 authored Dec 11, 2023 by Li Zhang Committed by GitHub Dec 11, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 0 deletions

src/turbomind/kernels/sampling_penalty_kernels.cu src/turbomind/kernels/sampling_penalty_kernels.cu +6 -0

No files found.
--- a/src/turbomind/kernels/sampling_penalty_kernels.cu
+++ b/src/turbomind/kernels/sampling_penalty_kernels.cu
@@ -446,10 +446,16 @@ void invokeBatchApplyRepetitionPenalty(T*                    logits,
    dim3   grid(local_batch_size);
    size_t smem_size = step * (sizeof(float) + sizeof(int));
    if (penalty_type == RepetitionPenaltyType::Additive) {
+        check_cuda_error(cudaFuncSetAttribute(batchApplyRepetitionPenalty<T, RepetitionPenaltyType::Additive>,
+                                              cudaFuncAttributeMaxDynamicSharedMemorySize,
+                                              smem_size));
        batchApplyRepetitionPenalty<T, RepetitionPenaltyType::Additive><<<grid, block, smem_size, stream>>>(
            logits, penalties, output_ids, batch_size, vocab_size, input_lengths, max_input_length, step);
    }
    else if (penalty_type == RepetitionPenaltyType::Multiplicative) {
+        check_cuda_error(cudaFuncSetAttribute(batchApplyRepetitionPenalty<T, RepetitionPenaltyType::Multiplicative>,
+                                              cudaFuncAttributeMaxDynamicSharedMemorySize,
+                                              smem_size));
        batchApplyRepetitionPenalty<T, RepetitionPenaltyType::Multiplicative><<<grid, block, smem_size, stream>>>(
            logits, penalties, output_ids, batch_size, vocab_size, input_lengths, max_input_length, step);
    }