#include "hip/cublas_wrappers.h"

int cublas_gemm_ex(rocblas_handle handle,
                   rocblas_operation transa,
                   rocblas_operation transb,
                   int m,
                   int n,
                   int k,
                   const float* alpha,
                   const float* beta,
                   const float* A,
                   const float* B,
                   float* C,
                   //cublasGemmAlgo_t algo)
                   rocblas_gemm_algo algo)
{
    rocblas_status status = rocblas_gemm_ex(handle,
                                         transa,
                                         transb,
                                         m,
                                         n,
                                         k,
                                         (const void*)alpha,
                                         (const void*)A,
                                         rocblas_datatype_f32_r,
                                         (transa == rocblas_operation_none) ? m : k,
                                         (const void*)B,
                                         rocblas_datatype_f32_r,
                                         (transb == rocblas_operation_none) ? k : n,
                                         (const void*)beta,
                                         C,
                                         rocblas_datatype_f32_r,
                                         m,
                                         C,
                                         rocblas_datatype_f32_r,
                                         m,
                                         rocblas_datatype_f32_r,
                                         algo,
                                         0,
                                         0);

    if (status != rocblas_status_success) {
        fprintf(stderr,
                "!!!! kernel execution error. (m: %d, n: %d, k: %d, error: %d) \n",
                m,
                n,
                k,
                (int)status);
        return EXIT_FAILURE;
    }
    return 0;
}

int cublas_gemm_ex(rocblas_handle handle,
                   rocblas_operation transa,
                   rocblas_operation transb,
                   int m,
                   int n,
                   int k,
                   const float* alpha,
                   const float* beta,
                   const __half* A,
                   const __half* B,
                   __half* C,
                   //cublasGemmAlgo_t algo)
                   rocblas_gemm_algo algo)
{
    rocblas_status status = rocblas_gemm_ex(handle,
                                         transa,
                                         transb,
                                         m,
                                         n,
                                         k,
                                         (const void*)alpha,
                                         (const void*)A,
                                         rocblas_datatype_f16_r,
                                         (transa == rocblas_operation_none) ? m : k,
                                         (const void*)B,
                                         rocblas_datatype_f16_r,
                                         (transb == rocblas_operation_none) ? k : n,
                                         (const void*)beta,
                                         (void*)C,
                                         rocblas_datatype_f16_r,
                                         m,
                                         (void*)C,
                                         rocblas_datatype_f16_r,
                                         m,
                                         rocblas_datatype_f16_r,
                                         algo,
                                         0,
                                         0);

    if (status != rocblas_status_success) {
        fprintf(stderr,
                "!!!! kernel execution error. (m: %d, n: %d, k: %d, error: %d) \n",
                m,
                n,
                k,
                (int)status);
        return EXIT_FAILURE;
    }
    return 0;
}

int cublas_strided_batched_gemm(rocblas_handle handle,
                                int m,
                                int n,
                                int k,
                                const float* alpha,
                                const float* beta,
                                const float* A,
                                const float* B,
                                float* C,
                                rocblas_operation op_A,
                                rocblas_operation op_B,
                                int stride_A,
                                int stride_B,
                                int stride_C,
                                int batch,
                                rocblas_gemm_algo algo)
{
    rocblas_status status = rocblas_gemm_strided_batched_ex(handle,
                                                       op_A,
                                                       op_B,
                                                       m,
                                                       n,
                                                       k,
                                                       alpha,
                                                       A,
                                                       rocblas_datatype_f32_r,
                                                       (op_A == rocblas_operation_none) ? m : k,
                                                       stride_A,
                                                       B,
                                                       rocblas_datatype_f32_r,
                                                       (op_B == rocblas_operation_none) ? k : n,
                                                       stride_B,
                                                       beta,
                                                       C,
                                                       rocblas_datatype_f32_r,
                                                       m,
                                                       stride_C,
                                                       C,
                                                       rocblas_datatype_f32_r,
                                                       m,
                                                       stride_C,
                                                       batch,
                                                       rocblas_datatype_f32_r,
                                                       algo,
                                                       0,
                                                       0);

    if (status != rocblas_status_success) {
        fprintf(stderr,
                "!!!! kernel execution error. (batch: %d, m: %d, n: %d, k: %d, error: %d) \n",
                batch,
                m,
                n,
                k,
                (int)status);
        return EXIT_FAILURE;
    }
    return 0;
}

int cublas_strided_batched_gemm(rocblas_handle handle,
                                int m,
                                int n,
                                int k,
                                const float* alpha,
                                const float* beta,
                                const __half* A,
                                const __half* B,
                                __half* C,
                                rocblas_operation op_A,
                                rocblas_operation op_B,
                                int stride_A,
                                int stride_B,
                                int stride_C,
                                int batch,
                                rocblas_gemm_algo algo)
{
    rocblas_status status = rocblas_gemm_strided_batched_ex(handle,
                                                       op_A,
                                                       op_B,
                                                       m,
                                                       n,
                                                       k,
                                                       alpha,
                                                       A,
                                                       rocblas_datatype_f16_r,
                                                       (op_A == rocblas_operation_none) ? m : k,
                                                       stride_A,
                                                       B,
                                                       rocblas_datatype_f16_r,
                                                       (op_B == rocblas_operation_none) ? k : n,
                                                       stride_B,
                                                       beta,
                                                       C,
                                                       rocblas_datatype_f16_r,
                                                       m,
                                                       stride_C,
                                                       C,
                                                       rocblas_datatype_f16_r,
                                                       m,
                                                       stride_C,
                                                       batch,
                                                       rocblas_datatype_f16_r,
                                                       algo,
                                                       0,
                                                       0);

    if (status != rocblas_status_success) {
        fprintf(stderr,
                "!!!! kernel execution error. (m: %d, n: %d, k: %d, error: %d) \n",
                m,
                n,
                k,
                (int)status);
        return EXIT_FAILURE;
    }

    return 0;
}