Adapt to rocm FT的修改补充

40e07381 · xiabo · ab8c95cb · 40e07381
Commit 40e07381 authored Nov 18, 2023 by xiabo
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

src/turbomind/triton_backend/llama/LlamaTritonModel.cc src/turbomind/triton_backend/llama/LlamaTritonModel.cc +2 -1

No files found.
--- a/src/turbomind/triton_backend/llama/LlamaTritonModel.cc
+++ b/src/turbomind/triton_backend/llama/LlamaTritonModel.cc
@@ -209,7 +209,8 @@ std::unique_ptr<LlamaTritonSharedModelInstance<T>> LlamaTritonModel<T>::createSh
    ft::check_cuda_error(cudaGetDeviceProperties(cuda_device_prop_ptr.get(), device_id));
    if (std::is_same<T, half>::value) {
-        cublas_wrapper->setGemmConfig(CUDA_R_16F, CUDA_R_16F, CUDA_R_16F, CUDA_R_32F);
+        // cublas_wrapper->setGemmConfig(CUDA_R_16F, CUDA_R_16F, CUDA_R_16F, CUDA_R_32F);
+        cublas_wrapper->setGemmConfig(CUDA_R_16F, CUDA_R_16F, CUDA_R_16F, CUDA_R_16F);
    }
    else if (std::is_same<T, float>::value) {
        cublas_wrapper->setFP32GemmConfig();