Apply clang-format rules (#1678)

4955d136 · Matthew Douglas · GitHub · 61db0859 · 4955d136 · 4955d136
Unverified Commit 4955d136 authored Jun 13, 2025 by Matthew Douglas Committed by GitHub Jun 13, 2025
11 changed files
--- a/csrc/common.cpp
+++ b/csrc/common.cpp
@@ -26,10 +26,12 @@ void quantize_block(const quantize_block_args& args) {
        if (idx < 255) {
            float dist_left = fabs(normed_value - (args.code[idx]));
            float dist_right = fabs(normed_value - (args.code[idx + 1]));
-            if (dist_right < dist_left) { idx += 1; }
+            if (dist_right < dist_left) {
+                idx += 1;
+            }
        }

        // 5. store index
-        args.out[i] = (unsigned char) idx;
+        args.out[i] = (unsigned char)idx;
    }
 }
--- a/csrc/common.cuh
+++ b/csrc/common.cuh
@@ -2,47 +2,48 @@

 // TODO: Let's make some of these constexpr and put in a namespace.

-#define BNB_CC_MAXWELL          500
-#define BNB_CC_MAXWELL2         520
-#define BNB_CC_MAXWELL2_X1      530
-#define BNB_CC_PASCAL           600
-#define BNB_CC_PASCAL_X2        620
-#define BNB_CC_VOLTA            700
-#define BNB_CC_VOLTA_XAVIER     720
-#define BNB_CC_TURING           750
-#define BNB_CC_AMPERE           800
-#define BNB_CC_AMPERE2          860
-#define BNB_CC_AMPERE2_ORIN     870
-#define BNB_CC_ADA              890
-#define BNB_CC_HOPPER           900
-#define BNB_CC_BLACKWELL        1000
+#define BNB_CC_MAXWELL 500
+#define BNB_CC_MAXWELL2 520
+#define BNB_CC_MAXWELL2_X1 530
+#define BNB_CC_PASCAL 600
+#define BNB_CC_PASCAL_X2 620
+#define BNB_CC_VOLTA 700
+#define BNB_CC_VOLTA_XAVIER 720
+#define BNB_CC_TURING 750
+#define BNB_CC_AMPERE 800
+#define BNB_CC_AMPERE2 860
+#define BNB_CC_AMPERE2_ORIN 870
+#define BNB_CC_ADA 890
+#define BNB_CC_HOPPER 900
+#define BNB_CC_BLACKWELL 1000

-#define BNB_FP16_AVAILABLE      (__CUDA_ARCH__ >= BNB_CC_MAXWELL2_X1)
-#define BNB_FP16_MMA_AVAILABLE  (__CUDA_ARCH__ >= BNB_CC_VOLTA)
-#define BNB_INT8_MMA_AVAILABLE  (__CUDA_ARCH__ >= BNB_CC_VOLTA_XAVIER)
-#define BNB_BF16_AVAILABLE      (__CUDA_ARCH__ >= BNB_CC_AMPERE)
-#define BNB_FP8_AVAILABLE       (__CUDA_ARCH__ >= BNB_CC_ADA)
+#define BNB_FP16_AVAILABLE (__CUDA_ARCH__ >= BNB_CC_MAXWELL2_X1)
+#define BNB_FP16_MMA_AVAILABLE (__CUDA_ARCH__ >= BNB_CC_VOLTA)
+#define BNB_INT8_MMA_AVAILABLE (__CUDA_ARCH__ >= BNB_CC_VOLTA_XAVIER)
+#define BNB_BF16_AVAILABLE (__CUDA_ARCH__ >= BNB_CC_AMPERE)
+#define BNB_FP8_AVAILABLE (__CUDA_ARCH__ >= BNB_CC_ADA)

-#define BNB_WARP_SIZE   32
+#define BNB_WARP_SIZE 32

 // The maximum number of resident threads per SM varies by arch.
 // For A100/H100 and all prior to Turing, it is 2048, which allows
 // for 2 full blocks of 1024 threads per SM.
-// Reference: https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#features-and-technical-specifications-technical-specifications-per-compute-capability
+// Reference:
+// https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#features-and-technical-specifications-technical-specifications-per-compute-capability
 #if __CUDA_ARCH__ == 750
-#define BNB_MAX_THREADS_PER_SM      1024
+#define BNB_MAX_THREADS_PER_SM 1024
 #elif __CUDA_ARCH__ >= 860 && __CUDA_ARCH__ <= 890
-#define BNB_MAX_THREADS_PER_SM      1536
+#define BNB_MAX_THREADS_PER_SM 1536
 #else
-#define BNB_MAX_THREADS_PER_SM      2048
+#define BNB_MAX_THREADS_PER_SM 2048
 #endif

 // Maximum resident warps per SM is always directly related to the number of threads.
-#define BNB_MAX_WARPS_PER_SM        ((BNB_MAX_THREADS_PER_SM) / (BNB_WARP_SIZE))
+#define BNB_MAX_WARPS_PER_SM ((BNB_MAX_THREADS_PER_SM) / (BNB_WARP_SIZE))

 // Maximum resident blocks per SM may vary.
 #if __CUDA_ARCH__ == 860 || __CUDA_ARCH__ == 870
-#define BNB_MAX_BLOCKS_PER_SM       16
+#define BNB_MAX_BLOCKS_PER_SM 16
 #else
-#define BNB_MAX_BLOCKS_PER_SM       ((BNB_MAX_WARPS_PER_SM) / 2)
+#define BNB_MAX_BLOCKS_PER_SM ((BNB_MAX_WARPS_PER_SM) / 2)
 #endif
--- a/csrc/common.h
+++ b/csrc/common.h
@@ -5,21 +5,18 @@

 using namespace BinSearch;

-#define BLOCK_SIZE 16384
-
 struct quantize_block_args {
-    BinAlgo<Scalar, float, Direct2> *bin_searcher;
-    float *code;
-    float *A;
-    float *absmax;
-    unsigned char *out;
+    BinAlgo<Scalar, float, Direct2>* bin_searcher;
+    float* code;
+    float* A;
+    float* absmax;
+    unsigned char* out;
    long long block_end;
    long long block_idx;
    long long threadidx;
-		long long blocksize;
+    long long blocksize;
 };

-
 void quantize_block(const quantize_block_args& args);

 #endif
--- a/csrc/cpu_ops.cpp
+++ b/csrc/cpu_ops.cpp
@@ -4,7 +4,7 @@

 using namespace BinSearch;

-void dequantize_cpu(float *code, unsigned char *A, float *absmax, float *out, long long blocksize, long long n) {
+void dequantize_cpu(float* code, unsigned char* A, float* absmax, float* out, long long blocksize, long long n) {
    for (long long block_idx = 0; block_idx < n; block_idx += blocksize) {
        long long valid_items = n - block_idx >= blocksize ? blocksize : n - block_idx;
        long long block_end = block_idx + valid_items;
@@ -13,8 +13,7 @@ void dequantize_cpu(float *code, unsigned char *A, float *absmax, float *out, lo
    }
 }

-void quantize_cpu(float *code, float *A, float *absmax, unsigned char *out, long long blocksize, long long n)
-{
+void quantize_cpu(float* code, float* A, float* absmax, unsigned char* out, long long blocksize, long long n) {

    // the default code is has range [-0.993, 1.0] which can cause an error in the binary search algorithm used below
    code[0] = -1.0f;
@@ -28,36 +27,35 @@ void quantize_cpu(float *code, float *A, float *absmax, unsigned char *out, long
    int thread_wave_size = 256;
    // we chunk the threads into waves of 256 since the max limit is
    // between 16k and 64k on Linux (we reach this when running BLOOM-176B with a large batch size)
-    for(long long offset = 0; offset < num_blocks; offset+=thread_wave_size)
-    {
-      long long valid_chunks = num_blocks - offset >= thread_wave_size ? thread_wave_size : num_blocks - offset;
-      std::vector<std::thread> threads(valid_chunks);
-      std::vector<quantize_block_args> args(valid_chunks);
-
-      int chunks_processed = 0;
-      for(long long block_idx = offset*blocksize; block_idx < n; block_idx += blocksize)
-      {
-          long long valid_items = n - block_idx >= blocksize ? blocksize : n - block_idx;
-          long long block_end = block_idx + valid_items;
-
-          struct quantize_block_args& arg = args[chunks_processed];
-          arg.bin_searcher = &bin_searcher;
-          arg.code = code;
-          arg.A = A;
-          arg.absmax = absmax;
-          arg.out = out;
-          arg.block_end = block_end;
-          arg.block_idx = block_idx;
-          arg.threadidx = block_idx / blocksize;
-          arg.blocksize = blocksize;
-
-          threads[chunks_processed] = std::thread([arg] { quantize_block(arg); });
-          chunks_processed += 1;
-          if(chunks_processed == valid_chunks){ break; }
-      }
-
-      for (int i = 0; i < valid_chunks; i++)
-          threads[i].join();
+    for (long long offset = 0; offset < num_blocks; offset += thread_wave_size) {
+        long long valid_chunks = num_blocks - offset >= thread_wave_size ? thread_wave_size : num_blocks - offset;
+        std::vector<std::thread> threads(valid_chunks);
+        std::vector<quantize_block_args> args(valid_chunks);
+
+        int chunks_processed = 0;
+        for (long long block_idx = offset * blocksize; block_idx < n; block_idx += blocksize) {
+            long long valid_items = n - block_idx >= blocksize ? blocksize : n - block_idx;
+            long long block_end = block_idx + valid_items;
+
+            struct quantize_block_args& arg = args[chunks_processed];
+            arg.bin_searcher = &bin_searcher;
+            arg.code = code;
+            arg.A = A;
+            arg.absmax = absmax;
+            arg.out = out;
+            arg.block_end = block_end;
+            arg.block_idx = block_idx;
+            arg.threadidx = block_idx / blocksize;
+            arg.blocksize = blocksize;
+
+            threads[chunks_processed] = std::thread([arg] { quantize_block(arg); });
+            chunks_processed += 1;
+            if (chunks_processed == valid_chunks) {
+                break;
+            }
+        }
+
+        for (int i = 0; i < valid_chunks; i++)
+            threads[i].join();
    }
-
 }
--- a/csrc/cpu_ops.h
+++ b/csrc/cpu_ops.h
@@ -4,7 +4,7 @@
 #include <iostream>
 #include <stdio.h>

-void quantize_cpu(float *code, float *A, float *absmax, unsigned char *out, long long blocksize, long long n);
-void dequantize_cpu(float *code, unsigned char *A, float *absmax, float *out, long long blocksize, long long n);
+void quantize_cpu(float* code, float* A, float* absmax, unsigned char* out, long long blocksize, long long n);
+void dequantize_cpu(float* code, unsigned char* A, float* absmax, float* out, long long blocksize, long long n);

 #endif
--- a/csrc/kernels.cu
+++ b/csrc/kernels.cu
--- a/csrc/kernels.cuh
+++ b/csrc/kernels.cuh
@@ -9,116 +9,129 @@
 #ifndef kernels
 #define kernels

-
-__global__ void kQuantize(float * code, float * __restrict__ const A, unsigned char *out, const int n);
-__global__ void kDequantize(float *code, unsigned char *A, float *out, const int n);
-
-template<typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC, int DATA_TYPE> __global__ void kQuantizeBlockwise(float * code, T * __restrict__ const A, float *absmax, unsigned char *out, float * __restrict__ const rand, const int rand_offset, const int n);
-template<typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH, int DATA_TYPE> __global__ void kDequantizeBlockwise(float *code, unsigned char * A, float * absmax, T *out, const int blocksize, const int n);
-
-template<typename T, int OPTIMIZER, int BLOCK_SIZE, int NUM_VALS>
-__global__ void kPreconditionOptimizer32bit2State(T* g, T* p,
-                float* state1, float* state2, float *unorm,
-                const float beta1, const float beta2, const float eps, const float weight_decay,
-                const int step, const float lr, const float gnorm_scale, const int n);
-
-template<typename T, int OPTIMIZER>
-__global__ void kOptimizer32bit2State(T* g, T* p,
-                float* state1, float* state2, float *unorm, const float max_unorm, const float param_norm,
-                const float beta1, const float beta2, const float beta3, const float alpha,
-                const float eps, const float weight_decay,
-                const int step, const float lr, const float gnorm_scale, const bool skip_zeros, const int n);
-
-template<typename T, int OPTIMIZER, int BLOCK_SIZE, int NUM_VALS>
-__global__ void kPreconditionOptimizer32bit1State(T* g, T* p,
-                float* state1, float *unorm,
-                const float beta1, const float beta2, const float eps, const float weight_decay,
-                const int step, const float lr, const float gnorm_scale, const int n);
-
-template<typename T, int OPTIMIZER>
-__global__ void kOptimizer32bit1State(T* g, T* p,
-                float* state1,  float *unorm, const float max_unorm, const float param_norm,
-                const float beta1, const float beta2, const float eps, const float weight_decay,
-                const int step, const float lr, const float gnorm_scale, const bool skip_zeros, const int n);
-
-template<typename T, int OPTIMIZER>
-__global__ void
-kPreconditionOptimizerStatic8bit1State(T* p, T* __restrict__ const g, unsigned char*__restrict__  const state1,
-                float *unorm,
-                const float beta1, const float beta2,
-                const float eps, const int step,
-                float* __restrict__ const quantiles1,
-                float* max1, float* new_max1,
-                const float weight_decay,
-                const float gnorm_scale, const int n);
-
-
-template<typename T, int OPTIMIZER>
-__global__ void
-kOptimizerStatic8bit1State(T* p, T* const g, unsigned char* state1,
-                const float *unorm, const float max_unorm, const float param_norm,
-                const float beta1, const float beta2,
-                const float eps, const int step, const float lr,
-                float* __restrict__ const quantiles1,
-                float* max1, float* new_max1,
-                float weight_decay, const float gnorm_scale, const int n);
-
-
-
-template<typename T, int OPTIMIZER>
-__global__ void
-kPreconditionOptimizerStatic8bit2State(T* p, T* __restrict__ const g, unsigned char*__restrict__  const state1, unsigned char* __restrict__ const state2,
-                float *unorm,
-                const float beta1, const float beta2,
-                const float eps, const int step,
-                float* __restrict__ const quantiles1, float* __restrict__ const quantiles2,
-                float* max1, float* max2, float* new_max1, float* new_max2,
-                const float gnorm_scale, const int n);
-
-
-template<typename T, int OPTIMIZER>
+__global__ void kQuantize(float* code, float* __restrict__ const A, unsigned char* out, const int n);
+__global__ void kDequantize(float* code, unsigned char* A, float* out, const int n);
+
+template <typename T, int BLOCK_SIZE, int NUM_PER_TH, int STOCHASTIC, int DATA_TYPE>
+__global__ void kQuantizeBlockwise(
+    float* code, T* __restrict__ const A, float* absmax, unsigned char* out, float* __restrict__ const rand,
+    const int rand_offset, const int n
+);
+template <typename T, int BLOCK_SIZE, int THREADS, int NUM_PER_TH, int DATA_TYPE>
 __global__ void
-kOptimizerStatic8bit2State(T* p, T* const g, unsigned char* state1, unsigned char* state2,
-                const float *unorm, const float max_unorm, const float param_norm,
-                const float beta1, const float beta2,
-                const float eps, const int step, const float lr,
-                float* __restrict__ const quantiles1, float* __restrict__ const quantiles2,
-                float* max1, float* max2, float* new_max1, float* new_max2,
-                float weight_decay, const float gnorm_scale, const int n);
-
-template<typename T, int OPTIMIZER, int BLOCK_SIZE, int N_PER_TH> __global__ void kOptimizerStatic8bit2StateBlockwise(
-		T* p, T* __restrict__ const g, unsigned char* state1, unsigned char* state2,
-                const float beta1, const float beta2, const float beta3, const float alpha, const float eps, const int step, const float lr,
-                float* __restrict__ const quantiles1, float* __restrict__ const quantiles2,
-                float* absmax1, float* absmax2, float weight_decay, const float gnorm_scale, const bool skip_zeros, const int n);
-
-template<typename T, int OPTIMIZER, int BLOCK_SIZE, int N_PER_TH> __global__ void kOptimizerStatic8bit1StateBlockwise(
-		T* p, T* __restrict__ const g, unsigned char* state1,
-                const float beta1, const float beta2,
-                const float eps, const int step, const float lr,
-                float* __restrict__ const quantiles1,
-                float* absmax1,
-                float weight_decay,
-                const float gnorm_scale, const bool skip_zeros, const int n);
-
-
-template<typename T, int BLOCK_SIZE, int NUM_VALS> __global__ void kPercentileClipping(T * __restrict__ g, float *gnorm_vec, int step, const int n);
-
-template <typename T, int SPMM_ITEMS, int BITS> __global__ void kspmm_coo_very_sparse_naive(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, T *B, half *out,  float * __restrict__ const dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
-
-template <int ITEMS_PER_THREAD, int THREADS>__global__ void kdequant_mm_int32_fp16(
-  int *__restrict__ const A, float *__restrict__ const rowStats, float *__restrict__ const colStats,
-  half *out, half * __restrict__ const bias, const int numRows, const int numCols, const int n);
-
-template<typename T, int THREADS, int SPARSE_DECOMP> __global__ void kgetRowStats(T * __restrict__ A, float *rowStats, float threshold, int rows, int cols);
-template<typename T, int THREADS, int SPARSE_DECOMP> __global__ void kInt8VectorQuant(T * __restrict__ A, int8_t *out, float *rowStats, float threshold, int rows, int cols);
-
-template <int THREADS, int ITEMS_PER_THREAD, int TILE_ROWS, int TILE_COLS, int TRANSPOSE, int FORMAT> __global__ void kTransformRowToFormat(char *__restrict__ const A, char *out, int rows, int cols, int tiledCols, int outRows, int outCols);
-
-template <typename T, int BITS, int THREADS> __global__ void gemm_device(int M, int N, int K, T * __restrict__ const A,  T* B,  T * out,  int lda, int ldb, int ldc);
-template <typename T, int THREADS> __global__ void kgemm_4bit_inference(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize);
-template <typename T, int THREADS, int BITS> __global__ void kgemm_4bit_inference_naive(int M, int N, int K, T * __restrict__ const A, unsigned char *B,  float *absmax, const float *datatype, T * out,  int lda, int ldb, int ldc, int blocksize);
-
-template <typename T, int FUNC> __global__ void kfunc(T *A, T *B, T value, long n);
+    kDequantizeBlockwise(float* code, unsigned char* A, float* absmax, T* out, const int blocksize, const int n);
+
+template <typename T, int OPTIMIZER, int BLOCK_SIZE, int NUM_VALS>
+__global__ void kPreconditionOptimizer32bit2State(
+    T* g, T* p, float* state1, float* state2, float* unorm, const float beta1, const float beta2, const float eps,
+    const float weight_decay, const int step, const float lr, const float gnorm_scale, const int n
+);
+
+template <typename T, int OPTIMIZER>
+__global__ void kOptimizer32bit2State(
+    T* g, T* p, float* state1, float* state2, float* unorm, const float max_unorm, const float param_norm,
+    const float beta1, const float beta2, const float beta3, const float alpha, const float eps,
+    const float weight_decay, const int step, const float lr, const float gnorm_scale, const bool skip_zeros,
+    const int n
+);
+
+template <typename T, int OPTIMIZER, int BLOCK_SIZE, int NUM_VALS>
+__global__ void kPreconditionOptimizer32bit1State(
+    T* g, T* p, float* state1, float* unorm, const float beta1, const float beta2, const float eps,
+    const float weight_decay, const int step, const float lr, const float gnorm_scale, const int n
+);
+
+template <typename T, int OPTIMIZER>
+__global__ void kOptimizer32bit1State(
+    T* g, T* p, float* state1, float* unorm, const float max_unorm, const float param_norm, const float beta1,
+    const float beta2, const float eps, const float weight_decay, const int step, const float lr,
+    const float gnorm_scale, const bool skip_zeros, const int n
+);
+
+template <typename T, int OPTIMIZER>
+__global__ void kPreconditionOptimizerStatic8bit1State(
+    T* p, T* __restrict__ const g, unsigned char* __restrict__ const state1, float* unorm, const float beta1,
+    const float beta2, const float eps, const int step, float* __restrict__ const quantiles1, float* max1,
+    float* new_max1, const float weight_decay, const float gnorm_scale, const int n
+);
+
+template <typename T, int OPTIMIZER>
+__global__ void kOptimizerStatic8bit1State(
+    T* p, T* const g, unsigned char* state1, const float* unorm, const float max_unorm, const float param_norm,
+    const float beta1, const float beta2, const float eps, const int step, const float lr,
+    float* __restrict__ const quantiles1, float* max1, float* new_max1, float weight_decay, const float gnorm_scale,
+    const int n
+);
+
+template <typename T, int OPTIMIZER>
+__global__ void kPreconditionOptimizerStatic8bit2State(
+    T* p, T* __restrict__ const g, unsigned char* __restrict__ const state1, unsigned char* __restrict__ const state2,
+    float* unorm, const float beta1, const float beta2, const float eps, const int step,
+    float* __restrict__ const quantiles1, float* __restrict__ const quantiles2, float* max1, float* max2,
+    float* new_max1, float* new_max2, const float gnorm_scale, const int n
+);
+
+template <typename T, int OPTIMIZER>
+__global__ void kOptimizerStatic8bit2State(
+    T* p, T* const g, unsigned char* state1, unsigned char* state2, const float* unorm, const float max_unorm,
+    const float param_norm, const float beta1, const float beta2, const float eps, const int step, const float lr,
+    float* __restrict__ const quantiles1, float* __restrict__ const quantiles2, float* max1, float* max2,
+    float* new_max1, float* new_max2, float weight_decay, const float gnorm_scale, const int n
+);
+
+template <typename T, int OPTIMIZER, int BLOCK_SIZE, int N_PER_TH>
+__global__ void kOptimizerStatic8bit2StateBlockwise(
+    T* p, T* __restrict__ const g, unsigned char* state1, unsigned char* state2, const float beta1, const float beta2,
+    const float beta3, const float alpha, const float eps, const int step, const float lr,
+    float* __restrict__ const quantiles1, float* __restrict__ const quantiles2, float* absmax1, float* absmax2,
+    float weight_decay, const float gnorm_scale, const bool skip_zeros, const int n
+);
+
+template <typename T, int OPTIMIZER, int BLOCK_SIZE, int N_PER_TH>
+__global__ void kOptimizerStatic8bit1StateBlockwise(
+    T* p, T* __restrict__ const g, unsigned char* state1, const float beta1, const float beta2, const float eps,
+    const int step, const float lr, float* __restrict__ const quantiles1, float* absmax1, float weight_decay,
+    const float gnorm_scale, const bool skip_zeros, const int n
+);
+
+template <typename T, int BLOCK_SIZE, int NUM_VALS>
+__global__ void kPercentileClipping(T* __restrict__ g, float* gnorm_vec, int step, const int n);
+
+template <typename T, int SPMM_ITEMS, int BITS>
+__global__ void kspmm_coo_very_sparse_naive(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, T* B, half* out,
+    float* __restrict__ const dequant_stats, int nnz, int rowsA, int rowsB, int colsB
+);
+
+template <int ITEMS_PER_THREAD, int THREADS>
+__global__ void kdequant_mm_int32_fp16(
+    int* __restrict__ const A, float* __restrict__ const rowStats, float* __restrict__ const colStats, half* out,
+    half* __restrict__ const bias, const int numRows, const int numCols, const int n
+);
+
+template <typename T, int THREADS, int SPARSE_DECOMP>
+__global__ void kgetRowStats(T* __restrict__ A, float* rowStats, float threshold, int rows, int cols);
+template <typename T, int THREADS, int SPARSE_DECOMP>
+__global__ void kInt8VectorQuant(T* __restrict__ A, int8_t* out, float* rowStats, float threshold, int rows, int cols);
+
+template <int THREADS, int ITEMS_PER_THREAD, int TILE_ROWS, int TILE_COLS, int TRANSPOSE, int FORMAT>
+__global__ void kTransformRowToFormat(
+    char* __restrict__ const A, char* out, int rows, int cols, int tiledCols, int outRows, int outCols
+);
+
+template <typename T, int BITS, int THREADS>
+__global__ void gemm_device(int M, int N, int K, T* __restrict__ const A, T* B, T* out, int lda, int ldb, int ldc);
+template <typename T, int THREADS>
+__global__ void kgemm_4bit_inference(
+    int M, int N, int K, T* __restrict__ const A, unsigned char* B, float* absmax, T* out, int lda, int ldb, int ldc,
+    int blocksize
+);
+template <typename T, int THREADS, int BITS>
+__global__ void kgemm_4bit_inference_naive(
+    int M, int N, int K, T* __restrict__ const A, unsigned char* B, float* absmax, const float* datatype, T* out,
+    int lda, int ldb, int ldc, int blocksize
+);
+
+template <typename T, int FUNC> __global__ void kfunc(T* A, T* B, T value, long n);

 #endif
--- a/csrc/mps_ops.mm
+++ b/csrc/mps_ops.mm
@@ -5,63 +5,58 @@
 #define NUM 4
 #define NUM_BLOCK 4096

-static inline MPSGraph* get_graph()
-{
-  static MPSGraph* cur = nil;
-  if(!cur) {
-    cur = [[MPSGraph alloc] init];
-  }
-  return cur;
+static inline MPSGraph* get_graph() {
+    static MPSGraph* cur = nil;
+    if (!cur) {
+        cur = [[MPSGraph alloc] init];
+    }
+    return cur;
 }

-static inline id<MTLDevice> get_device()
-{
-  NSError *error = nil;
-  static id<MTLDevice> device = nil;
-  if(!device) {
-    device = MTLCreateSystemDefaultDevice();
-  }
-  if(!device) {
-    NSLog(@"Failed to get MPS device");
-    abort();
-  }
-  return device;
+static inline id<MTLDevice> get_device() {
+    NSError* error = nil;
+    static id<MTLDevice> device = nil;
+    if (!device) {
+        device = MTLCreateSystemDefaultDevice();
+    }
+    if (!device) {
+        NSLog(@"Failed to get MPS device");
+        abort();
+    }
+    return device;
 }

-static inline id<MTLLibrary> get_library()
-{
-  NSError *error = nil;
-  static id<MTLLibrary> library = nil;
-  if(!library) {
-    library = [get_device() newLibraryWithURL:[NSURL fileURLWithPath:@"bitsandbytes.metallib"] error:&error];
-  }
-  if(!library) {
-    NSLog(@"Failed to load bitsandbytes.metallib");
-    abort();
-  }
-  return library;
+static inline id<MTLLibrary> get_library() {
+    NSError* error = nil;
+    static id<MTLLibrary> library = nil;
+    if (!library) {
+        library = [get_device() newLibraryWithURL:[NSURL fileURLWithPath:@"bitsandbytes.metallib"] error:&error];
+    }
+    if (!library) {
+        NSLog(@"Failed to load bitsandbytes.metallib");
+        abort();
+    }
+    return library;
 }

 /*MPSGraphTensor* dequantize_mps(MPSGraphTensor* code, MPSGraphTensor* A, int n)
 {
-  id out = [get_graph() dequantizeTensor:(MPSGraphTensor*)A scaleTensor:(MPSGraphTensor*)code zeroPoint:0.0 dataType:MPSDataTypeInt8 axis:0 name:@"out"];
-  return out;
+  id out = [get_graph() dequantizeTensor:(MPSGraphTensor*)A scaleTensor:(MPSGraphTensor*)code zeroPoint:0.0
+dataType:MPSDataTypeInt8 axis:0 name:@"out"]; return out;
 }*/

-
 // MPSGraph function for quantize
-extern "C" MPSGraphTensor* quantize_mps(MPSGraph* graph, MPSGraphTensor* code, MPSGraphTensor* A, int n)
-{
-  id<MTLDevice> device = get_device();
-  id<MTLLibrary> library = get_library();
-  static id<MTLFunction> kernel = nil;
-  if(!kernel) {
-    kernel = [library newFunctionWithName:@"quantize"];
-    if(!kernel) {
-      NSLog(@"Failed to load bitsandbytes.metallib");
-      abort();
+extern "C" MPSGraphTensor* quantize_mps(MPSGraph* graph, MPSGraphTensor* code, MPSGraphTensor* A, int n) {
+    id<MTLDevice> device = get_device();
+    id<MTLLibrary> library = get_library();
+    static id<MTLFunction> kernel = nil;
+    if (!kernel) {
+        kernel = [library newFunctionWithName:@"quantize"];
+        if (!kernel) {
+            NSLog(@"Failed to load bitsandbytes.metallib");
+            abort();
+        }
    }
-  }
-  NSLog(@"Not implemented");
-  return nil;
+    NSLog(@"Not implemented");
+    return nil;
 }
--- a/csrc/ops.cu
+++ b/csrc/ops.cu
@@ -3,175 +3,195 @@
 // This source code is licensed under the MIT license found in the
 // LICENSE file in the root directory of this source tree.

-#include <ops.cuh>
-#include <kernels.cuh>
-#include <cub/device/device_scan.cuh>
-#include <limits>
 #include <BinSearch.h>
 #include <cassert>
 #include <common.h>
+#include <cub/device/device_scan.cuh>
+#include <kernels.cuh>
+#include <limits>
+#include <ops.cuh>

 #define ERR_NOT_IMPLEMENTED 100

-
 using namespace BinSearch;
 using std::cout;
 using std::endl;

-
-void quantize(float *code, float *A, unsigned char *out, int n)
-{
-  int num_blocks = n/1024;
-  num_blocks = n % 1024 == 0 ? num_blocks : num_blocks + 1;
-  kQuantize<<<num_blocks, 1024>>>(code, A, out, n);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+void quantize(float* code, float* A, unsigned char* out, int n) {
+    int num_blocks = n / 1024;
+    num_blocks = n % 1024 == 0 ? num_blocks : num_blocks + 1;
+    kQuantize<<<num_blocks, 1024>>>(code, A, out, n);
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-void dequantize(float *code, unsigned char *A, float *out, int n, cudaStream_t stream)
-{
-  int num_blocks = n/1024;
-  num_blocks = n % 1024 == 0 ? num_blocks : num_blocks + 1;
-  kDequantize<<<num_blocks, 1024, 0, stream>>>(code, A, out, n);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+void dequantize(float* code, unsigned char* A, float* out, int n, cudaStream_t stream) {
+    int num_blocks = n / 1024;
+    num_blocks = n % 1024 == 0 ? num_blocks : num_blocks + 1;
+    kDequantize<<<num_blocks, 1024, 0, stream>>>(code, A, out, n);
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-template <typename T, int STOCHASTIC, int DATA_TYPE> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float *rand, int rand_offset, int blocksize, const int n)
-{
-  int num_blocks = n/blocksize;
-  num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
-
-  if(blocksize == 4096)
-    kQuantizeBlockwise<T, 4096, 4, STOCHASTIC, DATA_TYPE><<<num_blocks, 1024>>>(code, A, absmax, out, rand, rand_offset, n);
-  else if(blocksize == 2048)
-    kQuantizeBlockwise<T, 2048, 4, 0, DATA_TYPE><<<num_blocks, 512>>>(code, A, absmax, out, rand, rand_offset, n);
-  else if(blocksize == 1024)
-    kQuantizeBlockwise<T, 1024, 4, 0, DATA_TYPE><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
-  else if(blocksize == 512)
-    kQuantizeBlockwise<T, 512, 2, 0, DATA_TYPE><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
-  else if(blocksize == 256)
-    kQuantizeBlockwise<T, 256, 2, 0, DATA_TYPE><<<num_blocks, 128>>>(code, A, absmax, out, rand, rand_offset, n);
-  else if(blocksize == 128)
-    kQuantizeBlockwise<T, 128, 2, 0, DATA_TYPE><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
-  else if(blocksize == 64)
-    kQuantizeBlockwise<T, 64, 2, 0, DATA_TYPE><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
-
-
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+template <typename T, int STOCHASTIC, int DATA_TYPE>
+void quantizeBlockwise(
+    float* code, T* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+) {
+    int num_blocks = n / blocksize;
+    num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
+
+    if (blocksize == 4096)
+        kQuantizeBlockwise<T, 4096, 4, STOCHASTIC, DATA_TYPE>
+            <<<num_blocks, 1024>>>(code, A, absmax, out, rand, rand_offset, n);
+    else if (blocksize == 2048)
+        kQuantizeBlockwise<T, 2048, 4, 0, DATA_TYPE><<<num_blocks, 512>>>(code, A, absmax, out, rand, rand_offset, n);
+    else if (blocksize == 1024)
+        kQuantizeBlockwise<T, 1024, 4, 0, DATA_TYPE><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
+    else if (blocksize == 512)
+        kQuantizeBlockwise<T, 512, 2, 0, DATA_TYPE><<<num_blocks, 256>>>(code, A, absmax, out, rand, rand_offset, n);
+    else if (blocksize == 256)
+        kQuantizeBlockwise<T, 256, 2, 0, DATA_TYPE><<<num_blocks, 128>>>(code, A, absmax, out, rand, rand_offset, n);
+    else if (blocksize == 128)
+        kQuantizeBlockwise<T, 128, 2, 0, DATA_TYPE><<<num_blocks, 64>>>(code, A, absmax, out, rand, rand_offset, n);
+    else if (blocksize == 64)
+        kQuantizeBlockwise<T, 64, 2, 0, DATA_TYPE><<<num_blocks, 32>>>(code, A, absmax, out, rand, rand_offset, n);
+
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-template<typename T, int DATA_TYPE> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int blocksize, const int n, cudaStream_t stream)
-{
-  // printf("stream==%d\n",stream);
-  int num_blocks = n/blocksize;
-  num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
-  int tile_size = (DATA_TYPE > 0) ? 1024 : 512;
-  if(DATA_TYPE > 0)
-    kDequantizeBlockwise<T, 512, 64, 8, DATA_TYPE><<<(n+tile_size-1)/tile_size, 64, 0, stream>>>(code, A, absmax, out, blocksize/2, n);
-  else
-    kDequantizeBlockwise<T, 512, 64, 8, DATA_TYPE><<<(n+tile_size-1)/tile_size, 64, 0, stream>>>(code, A, absmax, out, blocksize, n);
-
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+template <typename T, int DATA_TYPE>
+void dequantizeBlockwise(
+    float* code, unsigned char* A, float* absmax, T* out, int blocksize, const int n, cudaStream_t stream
+) {
+    // printf("stream==%d\n",stream);
+    int num_blocks = n / blocksize;
+    num_blocks = n % blocksize == 0 ? num_blocks : num_blocks + 1;
+    int tile_size = (DATA_TYPE > 0) ? 1024 : 512;
+    if (DATA_TYPE > 0)
+        kDequantizeBlockwise<T, 512, 64, 8, DATA_TYPE>
+            <<<(n + tile_size - 1) / tile_size, 64, 0, stream>>>(code, A, absmax, out, blocksize / 2, n);
+    else
+        kDequantizeBlockwise<T, 512, 64, 8, DATA_TYPE>
+            <<<(n + tile_size - 1) / tile_size, 64, 0, stream>>>(code, A, absmax, out, blocksize, n);
+
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-
-
-template<typename T, int OPTIMIZER> void optimizer32bit(T* g, T* p,
-                float* state1, float* state2, float *unorm, float max_unorm, float param_norm,
-                const float beta1, const float beta2, const float beta3, const float alpha, const float eps, const float weight_decay,
-                const int step, const float lr, const float gnorm_scale, bool skip_zeros, const int n)
-{
-  int num_blocks = n/4096;
-  num_blocks = n % 4096 == 0 ? num_blocks : num_blocks + 1;
-	switch(OPTIMIZER)
-	{
-		case ADAM:
+template <typename T, int OPTIMIZER>
+void optimizer32bit(
+    T* g, T* p, float* state1, float* state2, float* unorm, float max_unorm, float param_norm, const float beta1,
+    const float beta2, const float beta3, const float alpha, const float eps, const float weight_decay, const int step,
+    const float lr, const float gnorm_scale, bool skip_zeros, const int n
+) {
+    int num_blocks = n / 4096;
+    num_blocks = n % 4096 == 0 ? num_blocks : num_blocks + 1;
+    switch (OPTIMIZER) {
+    case ADAM:
    case ADEMAMIX:
-      if(max_unorm > 0.0f)
-			{
-				CUDA_CHECK_RETURN(cudaMemset(unorm, 0, 1*sizeof(float)));
-        kPreconditionOptimizer32bit2State<T, OPTIMIZER, 4096, 8><<<num_blocks, 512>>>(g, p, state1, state2, unorm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, n);
+        if (max_unorm > 0.0f) {
+            CUDA_CHECK_RETURN(cudaMemset(unorm, 0, 1 * sizeof(float)));
+            kPreconditionOptimizer32bit2State<T, OPTIMIZER, 4096, 8><<<num_blocks, 512>>>(
+                g, p, state1, state2, unorm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, n
+            );
+            CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        }
+        kOptimizer32bit2State<T, OPTIMIZER><<<num_blocks, 1024>>>(
+            g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, beta3, alpha, eps, weight_decay, step, lr,
+            gnorm_scale, skip_zeros, n
+        );
        CUDA_CHECK_RETURN(cudaPeekAtLastError());
-      }
-			kOptimizer32bit2State<T, OPTIMIZER><<<num_blocks, 1024>>>(g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, beta3, alpha, eps, weight_decay, step, lr, gnorm_scale, skip_zeros, n);
-      CUDA_CHECK_RETURN(cudaPeekAtLastError());
-			break;
-		case MOMENTUM:
+        break;
+    case MOMENTUM:
    case RMSPROP:
    case ADAGRAD:
-      if(max_unorm > 0.0f)
-			{
-				CUDA_CHECK_RETURN(cudaMemset(unorm, 0, 1*sizeof(float)));
-				kPreconditionOptimizer32bit1State<T, OPTIMIZER, 4096, 8><<<num_blocks, 512>>>(g, p, state1, unorm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, n);
+        if (max_unorm > 0.0f) {
+            CUDA_CHECK_RETURN(cudaMemset(unorm, 0, 1 * sizeof(float)));
+            kPreconditionOptimizer32bit1State<T, OPTIMIZER, 4096, 8>
+                <<<num_blocks, 512>>>(g, p, state1, unorm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, n);
+            CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        }
+
+        kOptimizer32bit1State<T, OPTIMIZER><<<num_blocks, 1024>>>(
+            g, p, state1, unorm, max_unorm, param_norm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale,
+            skip_zeros, n
+        );
        CUDA_CHECK_RETURN(cudaPeekAtLastError());
-			}
-
-			kOptimizer32bit1State<T, OPTIMIZER><<<num_blocks, 1024>>>(g, p, state1, unorm, max_unorm, param_norm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, skip_zeros, n);
-      CUDA_CHECK_RETURN(cudaPeekAtLastError());
-			break;
+        break;
    case LION:
-      // in lion, the momentum update after the parameter update
-      kOptimizer32bit1State<T, OPTIMIZER><<<num_blocks, 1024>>>(g, p, state1, unorm, max_unorm, param_norm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, skip_zeros, n);
-      CUDA_CHECK_RETURN(cudaPeekAtLastError());
-
-      if(max_unorm > 0.0f)
-      {
-        CUDA_CHECK_RETURN(cudaMemset(unorm, 0, 1*sizeof(float)));
-        kPreconditionOptimizer32bit1State<T, OPTIMIZER, 4096, 8><<<num_blocks, 512>>>(g, p, state1, unorm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, n);
+        // in lion, the momentum update after the parameter update
+        kOptimizer32bit1State<T, OPTIMIZER><<<num_blocks, 1024>>>(
+            g, p, state1, unorm, max_unorm, param_norm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale,
+            skip_zeros, n
+        );
        CUDA_CHECK_RETURN(cudaPeekAtLastError());
-      }
-      break;
-	}
+
+        if (max_unorm > 0.0f) {
+            CUDA_CHECK_RETURN(cudaMemset(unorm, 0, 1 * sizeof(float)));
+            kPreconditionOptimizer32bit1State<T, OPTIMIZER, 4096, 8>
+                <<<num_blocks, 512>>>(g, p, state1, unorm, beta1, beta2, eps, weight_decay, step, lr, gnorm_scale, n);
+            CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        }
+        break;
+    }
 }

-template<typename T, int OPTIMIZER> void optimizerStatic8bit(T* p, T* g,
-                unsigned char* state1, unsigned char* state2,
-                float *unorm, float max_unorm, float param_norm,
-                float beta1, float beta2,
-                float eps, int step, float lr,
-                float* quantiles1, float* quantiles2,
-                float* max1, float* max2, float* new_max1, float* new_max2,
-                float weight_decay,
-                const float gnorm_scale, int n)
-{
-  int num_blocks = n/4096;
-  num_blocks = n % 4096 == 0 ? num_blocks : num_blocks + 1;
-
-  if(max_unorm > 0.0f){ CUDA_CHECK_RETURN(cudaMemset(unorm, 0, 1*sizeof(float))); }
-
-	switch(OPTIMIZER)
-	{
-		case ADAM:
-			CUDA_CHECK_RETURN(cudaMemset(new_max1, 0, 1*sizeof(float)));
-			CUDA_CHECK_RETURN(cudaMemset(new_max2, 0, 1*sizeof(float)));
-			kPreconditionOptimizerStatic8bit2State<T, OPTIMIZER><<<num_blocks, 256>>>(p, g, state1, state2, unorm, beta1, beta2, eps, step, quantiles1, quantiles2, max1, max2, new_max1, new_max2, gnorm_scale, n);
-			CUDA_CHECK_RETURN(cudaPeekAtLastError());
-			kOptimizerStatic8bit2State<T, OPTIMIZER><<<num_blocks, 1024>>>(p, g, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr,
-																														quantiles1, quantiles2, max1, max2, new_max1, new_max2, weight_decay, gnorm_scale, n);
-			CUDA_CHECK_RETURN(cudaPeekAtLastError());
-		break;
-		case MOMENTUM:
+template <typename T, int OPTIMIZER>
+void optimizerStatic8bit(
+    T* p, T* g, unsigned char* state1, unsigned char* state2, float* unorm, float max_unorm, float param_norm,
+    float beta1, float beta2, float eps, int step, float lr, float* quantiles1, float* quantiles2, float* max1,
+    float* max2, float* new_max1, float* new_max2, float weight_decay, const float gnorm_scale, int n
+) {
+    int num_blocks = n / 4096;
+    num_blocks = n % 4096 == 0 ? num_blocks : num_blocks + 1;
+
+    if (max_unorm > 0.0f) {
+        CUDA_CHECK_RETURN(cudaMemset(unorm, 0, 1 * sizeof(float)));
+    }
+
+    switch (OPTIMIZER) {
+    case ADAM:
+        CUDA_CHECK_RETURN(cudaMemset(new_max1, 0, 1 * sizeof(float)));
+        CUDA_CHECK_RETURN(cudaMemset(new_max2, 0, 1 * sizeof(float)));
+        kPreconditionOptimizerStatic8bit2State<T, OPTIMIZER><<<num_blocks, 256>>>(
+            p, g, state1, state2, unorm, beta1, beta2, eps, step, quantiles1, quantiles2, max1, max2, new_max1,
+            new_max2, gnorm_scale, n
+        );
+        CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        kOptimizerStatic8bit2State<T, OPTIMIZER><<<num_blocks, 1024>>>(
+            p, g, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr, quantiles1, quantiles2,
+            max1, max2, new_max1, new_max2, weight_decay, gnorm_scale, n
+        );
+        CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        break;
+    case MOMENTUM:
    case RMSPROP:
    case ADAGRAD:
-			CUDA_CHECK_RETURN(cudaMemset(new_max1, 0, 1*sizeof(float)));
-			kPreconditionOptimizerStatic8bit1State<T, OPTIMIZER><<<num_blocks, 256>>>(p, g, state1, unorm, beta1, beta2, eps, step, quantiles1, max1, new_max1, weight_decay, gnorm_scale, n);
-			CUDA_CHECK_RETURN(cudaPeekAtLastError());
-			kOptimizerStatic8bit1State<T, OPTIMIZER><<<num_blocks, 1024>>>(p, g, state1, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr,
-																														quantiles1, max1, new_max1, weight_decay, gnorm_scale, n);
-			CUDA_CHECK_RETURN(cudaPeekAtLastError());
-			break;
+        CUDA_CHECK_RETURN(cudaMemset(new_max1, 0, 1 * sizeof(float)));
+        kPreconditionOptimizerStatic8bit1State<T, OPTIMIZER><<<num_blocks, 256>>>(
+            p, g, state1, unorm, beta1, beta2, eps, step, quantiles1, max1, new_max1, weight_decay, gnorm_scale, n
+        );
+        CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        kOptimizerStatic8bit1State<T, OPTIMIZER><<<num_blocks, 1024>>>(
+            p, g, state1, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr, quantiles1, max1, new_max1,
+            weight_decay, gnorm_scale, n
+        );
+        CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        break;
    case LION:
-      // in lion, the momentum update happens after the parameter update
-      kOptimizerStatic8bit1State<T, OPTIMIZER><<<num_blocks, 1024>>>(p, g, state1, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr,
-                                                            quantiles1, max1, new_max1, weight_decay, gnorm_scale, n);
-      CUDA_CHECK_RETURN(cudaPeekAtLastError());
-
-      CUDA_CHECK_RETURN(cudaMemset(new_max1, 0, 1*sizeof(float)));
-      kPreconditionOptimizerStatic8bit1State<T, OPTIMIZER><<<num_blocks, 256>>>(p, g, state1, unorm, beta1, beta2, eps, step, quantiles1, max1, new_max1, weight_decay, gnorm_scale, n);
-      CUDA_CHECK_RETURN(cudaPeekAtLastError());
-      break;
-		default:
-			break;
-	}
+        // in lion, the momentum update happens after the parameter update
+        kOptimizerStatic8bit1State<T, OPTIMIZER><<<num_blocks, 1024>>>(
+            p, g, state1, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr, quantiles1, max1, new_max1,
+            weight_decay, gnorm_scale, n
+        );
+        CUDA_CHECK_RETURN(cudaPeekAtLastError());
+
+        CUDA_CHECK_RETURN(cudaMemset(new_max1, 0, 1 * sizeof(float)));
+        kPreconditionOptimizerStatic8bit1State<T, OPTIMIZER><<<num_blocks, 256>>>(
+            p, g, state1, unorm, beta1, beta2, eps, step, quantiles1, max1, new_max1, weight_decay, gnorm_scale, n
+        );
+        CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        break;
+    default:
+        break;
+    }
 }

 #define BLOCKSIZE_2STATE 256
@@ -179,148 +199,120 @@ template<typename T, int OPTIMIZER> void optimizerStatic8bit(T* p, T* g,
 #define BLOCKSIZE_1STATE 256
 #define NUM_1STATE 1

-template<typename T, int OPTIMIZER> void optimizerStatic8bitBlockwise(
-    T* p,
-    T* g,
-    unsigned char* state1,
-    unsigned char* state2,
-    float beta1,
-    float beta2,
-    float beta3,
-    float alpha,
-    float eps,
-    int step,
-    float lr,
-    float* quantiles1,
-    float* quantiles2,
-    float* absmax1,
-    float* absmax2,
-    float weight_decay,
-    const float gnorm_scale,
-    bool skip_zeros,
-    int n
+template <typename T, int OPTIMIZER>
+void optimizerStatic8bitBlockwise(
+    T* p, T* g, unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3, float alpha,
+    float eps, int step, float lr, float* quantiles1, float* quantiles2, float* absmax1, float* absmax2,
+    float weight_decay, const float gnorm_scale, bool skip_zeros, int n
 ) {

-	int num_blocks = 0;
-	switch(OPTIMIZER)
-	{
-		case ADAM:
+    int num_blocks = 0;
+    switch (OPTIMIZER) {
+    case ADAM:
    case ADEMAMIX:
-			num_blocks = n/BLOCKSIZE_2STATE;
-			num_blocks = n % BLOCKSIZE_2STATE == 0 ? num_blocks : num_blocks + 1;
-			kOptimizerStatic8bit2StateBlockwise<T, OPTIMIZER, BLOCKSIZE_2STATE, NUM_2STATE><<<num_blocks, BLOCKSIZE_2STATE/NUM_2STATE>>>(
-				p, g, state1, state2, beta1, beta2, beta3, alpha, eps, step, lr,
-				quantiles1, quantiles2, absmax1, absmax2, weight_decay, gnorm_scale,
-				skip_zeros, n
-			);
-			CUDA_CHECK_RETURN(cudaPeekAtLastError());
-		break;
-		case MOMENTUM:
-		case RMSPROP:
+        num_blocks = n / BLOCKSIZE_2STATE;
+        num_blocks = n % BLOCKSIZE_2STATE == 0 ? num_blocks : num_blocks + 1;
+        kOptimizerStatic8bit2StateBlockwise<T, OPTIMIZER, BLOCKSIZE_2STATE, NUM_2STATE>
+            <<<num_blocks, BLOCKSIZE_2STATE / NUM_2STATE>>>(
+                p, g, state1, state2, beta1, beta2, beta3, alpha, eps, step, lr, quantiles1, quantiles2, absmax1,
+                absmax2, weight_decay, gnorm_scale, skip_zeros, n
+            );
+        CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        break;
+    case MOMENTUM:
+    case RMSPROP:
    case ADAGRAD:
    case LION:
-			num_blocks = n/BLOCKSIZE_1STATE;
-			num_blocks = n % BLOCKSIZE_1STATE == 0 ? num_blocks : num_blocks + 1;
-			kOptimizerStatic8bit1StateBlockwise<T, OPTIMIZER, BLOCKSIZE_1STATE, NUM_1STATE><<<num_blocks, BLOCKSIZE_1STATE/NUM_1STATE>>>(p, g, state1, beta1, beta2, eps, step, lr,
-																														quantiles1, absmax1, weight_decay, gnorm_scale, skip_zeros, n);
-			CUDA_CHECK_RETURN(cudaPeekAtLastError());
-		break;
-	}
+        num_blocks = n / BLOCKSIZE_1STATE;
+        num_blocks = n % BLOCKSIZE_1STATE == 0 ? num_blocks : num_blocks + 1;
+        kOptimizerStatic8bit1StateBlockwise<T, OPTIMIZER, BLOCKSIZE_1STATE, NUM_1STATE>
+            <<<num_blocks, BLOCKSIZE_1STATE / NUM_1STATE>>>(
+                p, g, state1, beta1, beta2, eps, step, lr, quantiles1, absmax1, weight_decay, gnorm_scale, skip_zeros, n
+            );
+        CUDA_CHECK_RETURN(cudaPeekAtLastError());
+        break;
+    }
 }

-
-
-template<typename T> void percentileClipping(T * g, float *gnorm_vec, int step, const int n)
-{
-  int num_blocks = n/2048;
-  num_blocks = n % 2048 == 0 ? num_blocks : num_blocks + 1;
-	CUDA_CHECK_RETURN(cudaMemset(&gnorm_vec[step % 100], 0, 1*sizeof(float)));
-  kPercentileClipping<T, 2048, 4><<<num_blocks, 512>>>(g, gnorm_vec, step, n);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+template <typename T> void percentileClipping(T* g, float* gnorm_vec, int step, const int n) {
+    int num_blocks = n / 2048;
+    num_blocks = n % 2048 == 0 ? num_blocks : num_blocks + 1;
+    CUDA_CHECK_RETURN(cudaMemset(&gnorm_vec[step % 100], 0, 1 * sizeof(float)));
+    kPercentileClipping<T, 2048, 4><<<num_blocks, 512>>>(g, gnorm_vec, step, n);
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-void gemmex(Context *context, bool transposeA, bool transposeB, int m, int n, int k, void *A, void *B, void *C, int lda, int ldb, int ldc)
-{
-  const int falpha = 1;
-  const int fbeta = 0;
-  const void * alpha = &falpha;
-  const void * beta = &fbeta;
-	cublasStatus_t status;
-
-			status = cublasGemmEx(context->m_handle,
-					transposeA ? CUBLAS_OP_T : CUBLAS_OP_N,
-					transposeB ? CUBLAS_OP_T : CUBLAS_OP_N,
-					m, n,	k,
-					alpha, A, CUDA_R_8I, lda, B, CUDA_R_8I, ldb, beta,
-					C, CUDA_R_32I, ldc,
-          CUDA_R_32I, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
-
-    if (status != CUBLAS_STATUS_SUCCESS)
-    {
-      std::cout << "CUBLAS ERROR: Status " << status << std::endl;
+void gemmex(
+    Context* context, bool transposeA, bool transposeB, int m, int n, int k, void* A, void* B, void* C, int lda,
+    int ldb, int ldc
+) {
+    const int falpha = 1;
+    const int fbeta = 0;
+    const void* alpha = &falpha;
+    const void* beta = &fbeta;
+    cublasStatus_t status;
+
+    status = cublasGemmEx(
+        context->m_handle, transposeA ? CUBLAS_OP_T : CUBLAS_OP_N, transposeB ? CUBLAS_OP_T : CUBLAS_OP_N, m, n, k,
+        alpha, A, CUDA_R_8I, lda, B, CUDA_R_8I, ldb, beta, C, CUDA_R_32I, ldc, CUDA_R_32I, CUBLAS_GEMM_DEFAULT_TENSOR_OP
+    );
+
+    if (status != CUBLAS_STATUS_SUCCESS) {
+        std::cout << "CUBLAS ERROR: Status " << status << std::endl;
    }
-
 }

-void strided_gemmex(Context *context, bool transposeA, bool transposeB, int m, int n, int k, void *A, void *B, void *C, int lda, int ldb, int ldc,
-                    long long int strideA, long long int strideB, long long int strideC, int batchCount)
-{
-  const int falpha = 1;
-  const int fbeta = 0;
-  const void * alpha = &falpha;
-  const void * beta = &fbeta;
-	cublasStatus_t status;
-
-  //cout << transposeA << transposeB << endl;
-  //printf("%i %i %i\n", m,n,k);
-  //printf("%i %i %i\n", lda,ldb,ldc);
-  //printf("%i %i %i\n", strideA, strideB, strideC);
-  //printf("%i\n", batchCount);
-
-			status = cublasGemmStridedBatchedEx(context->m_handle,
-					transposeA ? CUBLAS_OP_T : CUBLAS_OP_N,
-					transposeB ? CUBLAS_OP_T : CUBLAS_OP_N,
-					m, n,	k,
-					alpha, A, CUDA_R_8I, lda, (long long int)strideA, B, CUDA_R_8I, ldb, (long long int)strideB, beta,
-					C, CUDA_R_32I, ldc, (long long int)strideC, batchCount,
-          CUDA_R_32I, CUBLAS_GEMM_DEFAULT);
-
-    if (status != CUBLAS_STATUS_SUCCESS)
-    {
-      std::cout << "CUBLAS ERROR: Status " << status << std::endl;
+void strided_gemmex(
+    Context* context, bool transposeA, bool transposeB, int m, int n, int k, void* A, void* B, void* C, int lda,
+    int ldb, int ldc, long long int strideA, long long int strideB, long long int strideC, int batchCount
+) {
+    const int falpha = 1;
+    const int fbeta = 0;
+    const void* alpha = &falpha;
+    const void* beta = &fbeta;
+    cublasStatus_t status;
+
+    // cout << transposeA << transposeB << endl;
+    // printf("%i %i %i\n", m,n,k);
+    // printf("%i %i %i\n", lda,ldb,ldc);
+    // printf("%i %i %i\n", strideA, strideB, strideC);
+    // printf("%i\n", batchCount);
+
+    status = cublasGemmStridedBatchedEx(
+        context->m_handle, transposeA ? CUBLAS_OP_T : CUBLAS_OP_N, transposeB ? CUBLAS_OP_T : CUBLAS_OP_N, m, n, k,
+        alpha, A, CUDA_R_8I, lda, (long long int)strideA, B, CUDA_R_8I, ldb, (long long int)strideB, beta, C,
+        CUDA_R_32I, ldc, (long long int)strideC, batchCount, CUDA_R_32I, CUBLAS_GEMM_DEFAULT
+    );
+
+    if (status != CUBLAS_STATUS_SUCCESS) {
+        std::cout << "CUBLAS ERROR: Status " << status << std::endl;
    }
-
-}
-
-int roundoff(int v, int d) {
-    return (v + d - 1) / d * d;
 }

+int roundoff(int v, int d) { return (v + d - 1) / d * d; }

-template<int ORDER> cublasLtOrder_t get_order()
-{
-	switch(ORDER)
-	{
-		case ROW:
-      return CUBLASLT_ORDER_ROW;
-			break;
+template <int ORDER> cublasLtOrder_t get_order() {
+    switch (ORDER) {
+    case ROW:
+        return CUBLASLT_ORDER_ROW;
+        break;
    case COL:
-      return CUBLASLT_ORDER_COL;
-      break;
+        return CUBLASLT_ORDER_COL;
+        break;
    case COL32:
-      return CUBLASLT_ORDER_COL32;
-      break;
+        return CUBLASLT_ORDER_COL32;
+        break;
    case COL_TURING:
-      return CUBLASLT_ORDER_COL4_4R2_8C;
-      break;
+        return CUBLASLT_ORDER_COL4_4R2_8C;
+        break;
    case COL_AMPERE:
-      return CUBLASLT_ORDER_COL32_2R_4R4;
-      break;
-		default:
-			break;
-  }
+        return CUBLASLT_ORDER_COL32_2R_4R4;
+        break;
+    default:
+        break;
+    }

-	return CUBLASLT_ORDER_ROW;
+    return CUBLASLT_ORDER_ROW;
 }

 template cublasLtOrder_t get_order<ROW>();
@@ -329,355 +321,394 @@ template cublasLtOrder_t get_order<COL32>();
 template cublasLtOrder_t get_order<COL_TURING>();
 template cublasLtOrder_t get_order<COL_AMPERE>();

-
-template<int ORDER> int get_leading_dim(int dim1, int dim2)
-{
-	switch(ORDER)
-	{
-		case ROW:
-      return dim2;
-			break;
+template <int ORDER> int get_leading_dim(int dim1, int dim2) {
+    switch (ORDER) {
+    case ROW:
+        return dim2;
+        break;
    case COL:
-      return dim1;
-      break;
+        return dim1;
+        break;
    case COL32:
-      // 32*row tiles
-      return dim1*32;
-      break;
+        // 32*row tiles
+        return dim1 * 32;
+        break;
    case COL_TURING:
-      return 32*roundoff(dim1, 8);
-      break;
+        return 32 * roundoff(dim1, 8);
+        break;
    case COL_AMPERE:
-      // 32*32 tiles
-      return 32*roundoff(dim1, 32);
-      break;
-		default:
-			return 0;
-			break;
-  }
+        // 32*32 tiles
+        return 32 * roundoff(dim1, 32);
+        break;
+    default:
+        return 0;
+        break;
+    }
 }

-template <int DTYPE_OUT, int SCALE_ROWS> int igemmlt(
-  cublasLtHandle_t ltHandle,
-  int m, int n, int k,
-  const int8_t * A,
-  const int8_t * B,
-  void * C,
-  float * row_scale,
-  int lda, int ldb, int ldc,
-  cudaStream_t stream
+template <int DTYPE_OUT, int SCALE_ROWS>
+int igemmlt(
+    cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale,
+    int lda, int ldb, int ldc, cudaStream_t stream
 ) {

-  // Calculate C = A^T @ B, in col-major layout.
-  //
-  // Use the IMMA kernels requires:
-  // * A must be transposed and B must be non-transposed.
-  // * Dimensions m and k must be multiples of 4.
-  // * All pointers must be 4-byte aligned; 16-byte alignment preferred.
-
-  int has_error = 0;
-
-  cublasLtMatmulDesc_t matmulDesc;
-  cublasLtMatrixLayout_t aDesc, bDesc, cDesc;
-  cublasOperation_t opT = CUBLAS_OP_T;
-
-  cudaDataType_t outType = DTYPE_OUT == 32 ? CUDA_R_32I : CUDA_R_8I;
-  cudaDataType_t scaleType = DTYPE_OUT == 32 ? CUDA_R_32I : CUDA_R_32F;
-
-  cublasLtPointerMode_t pointerMode = CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_ZERO;
-
-  has_error |= checkCublasStatus(cublasLtMatrixLayoutCreate(&aDesc, CUDA_R_8I, m, k, lda));
-  has_error |= checkCublasStatus(cublasLtMatrixLayoutCreate(&bDesc, CUDA_R_8I, m, n, ldb));
-  has_error |= checkCublasStatus(cublasLtMatrixLayoutCreate(&cDesc, outType, k, n, ldc));
-
-  // Default layout order is col major
-
-  has_error |= checkCublasStatus(cublasLtMatmulDescCreate(&matmulDesc, CUBLAS_COMPUTE_32I, scaleType));
-  has_error |= checkCublasStatus(cublasLtMatmulDescSetAttribute(matmulDesc, CUBLASLT_MATMUL_DESC_TRANSA, &opT, sizeof(opT)));
-
-  if (DTYPE_OUT == 32) {
-      int alpha = 1, beta = 0;
-      has_error |= checkCublasStatus(cublasLtMatmul(
-        ltHandle, matmulDesc,
-        &alpha, A, aDesc,
-        B, bDesc, &beta,
-        (int32_t*)C, cDesc,
-        (int32_t*)C, cDesc,
-        NULL, NULL, 0, stream
-      ));
-  } else {
-    // This path is unlikely to be used, as 8-bit accumulation can lead to likely overflows.
-
-    if (!SCALE_ROWS) {
-      float alpha = 1.0f, beta = 0.0f;
-      has_error |= checkCublasStatus(cublasLtMatmul(
-        ltHandle, matmulDesc,
-        &alpha, A, aDesc,
-        B, bDesc, &beta,
-        (int8_t*)C, cDesc,
-        (int8_t*)C, cDesc,
-        NULL, NULL, 0, stream
-      ));
+    // Calculate C = A^T @ B, in col-major layout.
+    //
+    // Use the IMMA kernels requires:
+    // * A must be transposed and B must be non-transposed.
+    // * Dimensions m and k must be multiples of 4.
+    // * All pointers must be 4-byte aligned; 16-byte alignment preferred.
+
+    int has_error = 0;
+
+    cublasLtMatmulDesc_t matmulDesc;
+    cublasLtMatrixLayout_t aDesc, bDesc, cDesc;
+    cublasOperation_t opT = CUBLAS_OP_T;
+
+    cudaDataType_t outType = DTYPE_OUT == 32 ? CUDA_R_32I : CUDA_R_8I;
+    cudaDataType_t scaleType = DTYPE_OUT == 32 ? CUDA_R_32I : CUDA_R_32F;
+
+    cublasLtPointerMode_t pointerMode = CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_ZERO;
+
+    has_error |= checkCublasStatus(cublasLtMatrixLayoutCreate(&aDesc, CUDA_R_8I, m, k, lda));
+    has_error |= checkCublasStatus(cublasLtMatrixLayoutCreate(&bDesc, CUDA_R_8I, m, n, ldb));
+    has_error |= checkCublasStatus(cublasLtMatrixLayoutCreate(&cDesc, outType, k, n, ldc));
+
+    // Default layout order is col major
+
+    has_error |= checkCublasStatus(cublasLtMatmulDescCreate(&matmulDesc, CUBLAS_COMPUTE_32I, scaleType));
+    has_error |=
+        checkCublasStatus(cublasLtMatmulDescSetAttribute(matmulDesc, CUBLASLT_MATMUL_DESC_TRANSA, &opT, sizeof(opT)));
+
+    if (DTYPE_OUT == 32) {
+        int alpha = 1, beta = 0;
+        has_error |= checkCublasStatus(cublasLtMatmul(
+            ltHandle, matmulDesc, &alpha, A, aDesc, B, bDesc, &beta, (int32_t*)C, cDesc, (int32_t*)C, cDesc, NULL, NULL,
+            0, stream
+        ));
    } else {
-      cublasLtPointerMode_t alphaVec = CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_HOST;
-      float beta = 0.0f;
-      has_error |= checkCublasStatus(cublasLtMatmulDescSetAttribute(
-        matmulDesc,
-        CUBLASLT_MATMUL_DESC_POINTER_MODE,
-        &pointerMode,
-        sizeof(alphaVec)
-      ));
-      has_error |= checkCublasStatus(cublasLtMatmul(
-        ltHandle, matmulDesc,
-        row_scale, A, aDesc,
-        B, bDesc, &beta,
-        (int8_t*)C, cDesc,
-        (int8_t*)C, cDesc,
-        NULL, NULL, 0, stream
-      ));
+        // This path is unlikely to be used, as 8-bit accumulation can lead to likely overflows.
+
+        if (!SCALE_ROWS) {
+            float alpha = 1.0f, beta = 0.0f;
+            has_error |= checkCublasStatus(cublasLtMatmul(
+                ltHandle, matmulDesc, &alpha, A, aDesc, B, bDesc, &beta, (int8_t*)C, cDesc, (int8_t*)C, cDesc, NULL,
+                NULL, 0, stream
+            ));
+        } else {
+            cublasLtPointerMode_t alphaVec = CUBLASLT_POINTER_MODE_ALPHA_DEVICE_VECTOR_BETA_HOST;
+            float beta = 0.0f;
+            has_error |= checkCublasStatus(cublasLtMatmulDescSetAttribute(
+                matmulDesc, CUBLASLT_MATMUL_DESC_POINTER_MODE, &pointerMode, sizeof(alphaVec)
+            ));
+            has_error |= checkCublasStatus(cublasLtMatmul(
+                ltHandle, matmulDesc, row_scale, A, aDesc, B, bDesc, &beta, (int8_t*)C, cDesc, (int8_t*)C, cDesc, NULL,
+                NULL, 0, stream
+            ));
+        }
    }
-  }

-  has_error |= checkCublasStatus(cublasLtMatrixLayoutDestroy(cDesc));
-  has_error |= checkCublasStatus(cublasLtMatrixLayoutDestroy(bDesc));
-  has_error |= checkCublasStatus(cublasLtMatrixLayoutDestroy(aDesc));
-  has_error |= checkCublasStatus(cublasLtMatmulDescDestroy(matmulDesc));
+    has_error |= checkCublasStatus(cublasLtMatrixLayoutDestroy(cDesc));
+    has_error |= checkCublasStatus(cublasLtMatrixLayoutDestroy(bDesc));
+    has_error |= checkCublasStatus(cublasLtMatrixLayoutDestroy(aDesc));
+    has_error |= checkCublasStatus(cublasLtMatmulDescDestroy(matmulDesc));

-  if(has_error == 1)
-    printf("error detected");
+    if (has_error == 1)
+        printf("error detected");

-  return has_error;
+    return has_error;
 }

-int fill_up_to_nearest_multiple(int value, int multiple)
-{
-  return value + (value % multiple == 0 ? 0 : (multiple - (value % multiple)));
+int fill_up_to_nearest_multiple(int value, int multiple) {
+    return value + (value % multiple == 0 ? 0 : (multiple - (value % multiple)));
 }

-void dequant_mm_int32_fp16(int *A, float *rowStats, float *colStats, half *out, half *bias, int numRows, int numCols, cudaStream_t stream)
-{
-  const int threads = 512;
-  const int num_per_thread = 4;
-  const int num_per_block = threads * num_per_thread;
-  const int n = numRows*numCols;
-  const int num_blocks = (n + num_per_block - 1) / num_per_block;
-
-  kdequant_mm_int32_fp16<num_per_thread, threads><<<num_blocks, threads, 0, stream>>>(A, rowStats, colStats, out, bias, numRows, numCols, n);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+void dequant_mm_int32_fp16(
+    int* A, float* rowStats, float* colStats, half* out, half* bias, int numRows, int numCols, cudaStream_t stream
+) {
+    const int threads = 512;
+    const int num_per_thread = 4;
+    const int num_per_block = threads * num_per_thread;
+    const int n = numRows * numCols;
+    const int num_blocks = (n + num_per_block - 1) / num_per_block;
+
+    kdequant_mm_int32_fp16<num_per_thread, threads>
+        <<<num_blocks, threads, 0, stream>>>(A, rowStats, colStats, out, bias, numRows, numCols, n);
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-void int8VectorQuant(half * __restrict__ A, int8_t *out, float *rowStats, float threshold, int rows, int cols, cudaStream_t stream) {
-  if (threshold == 0.0) {
-    kInt8VectorQuant<half, 1024, 0><<<rows, 1024, 0, stream>>>(A, out, rowStats, threshold, rows, cols);
-  } else {
-    kInt8VectorQuant<half, 1024, 1><<<rows, 1024, 0, stream>>>(A, out, rowStats, threshold, rows, cols);
-  }
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+void int8VectorQuant(
+    half* __restrict__ A, int8_t* out, float* rowStats, float threshold, int rows, int cols, cudaStream_t stream
+) {
+    if (threshold == 0.0) {
+        kInt8VectorQuant<half, 1024, 0><<<rows, 1024, 0, stream>>>(A, out, rowStats, threshold, rows, cols);
+    } else {
+        kInt8VectorQuant<half, 1024, 1><<<rows, 1024, 0, stream>>>(A, out, rowStats, threshold, rows, cols);
+    }
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-void getRowStats(half *A, float *rowStats, float threshold, int rows, int cols, cudaStream_t stream) {
-  if (threshold == 0.0)
-    kgetRowStats<half, 1024, 0><<<rows, 1024, 0, stream>>>(A, rowStats, threshold, rows, cols);
-  else
-    kgetRowStats<half, 1024, 1><<<rows, 1024, 0, stream>>>(A, rowStats, threshold, rows, cols);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+void getRowStats(half* A, float* rowStats, float threshold, int rows, int cols, cudaStream_t stream) {
+    if (threshold == 0.0)
+        kgetRowStats<half, 1024, 0><<<rows, 1024, 0, stream>>>(A, rowStats, threshold, rows, cols);
+    else
+        kgetRowStats<half, 1024, 1><<<rows, 1024, 0, stream>>>(A, rowStats, threshold, rows, cols);
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-void spmm_coo(cusparseHandle_t handle, int *A_rowidx, int *A_colidx, half *A_vals, int A_nnz, int A_rows, int A_cols, int B_cols, int ldb, half *B, int ldc, half* C, bool transposed_B)
-{
+void spmm_coo(
+    cusparseHandle_t handle, int* A_rowidx, int* A_colidx, half* A_vals, int A_nnz, int A_rows, int A_cols, int B_cols,
+    int ldb, half* B, int ldc, half* C, bool transposed_B
+) {
    cusparseSpMatDescr_t descA;
    cusparseDnMatDescr_t descB, descC;

    float alpha = 1.0f;
    float beta = 0.0f;
-    void *dBuffer = NULL;
+    void* dBuffer = NULL;
    size_t bufferSize = 0;

-    CHECK_CUSPARSE( cusparseCreateCoo(&descA, A_rows, A_cols, A_nnz,
-                                      A_rowidx, A_colidx, A_vals,
-                                      CUSPARSE_INDEX_32I,
-                                      CUSPARSE_INDEX_BASE_ZERO, CUDA_R_16F) );
+    CHECK_CUSPARSE(cusparseCreateCoo(
+        &descA, A_rows, A_cols, A_nnz, A_rowidx, A_colidx, A_vals, CUSPARSE_INDEX_32I, CUSPARSE_INDEX_BASE_ZERO,
+        CUDA_R_16F
+    ));
    // Create dense matrix C
-    CHECK_CUSPARSE( cusparseCreateDnMat(&descC, A_rows, B_cols, ldc, C,
-                                        CUDA_R_16F, CUSPARSE_ORDER_ROW) );
+    CHECK_CUSPARSE(cusparseCreateDnMat(&descC, A_rows, B_cols, ldc, C, CUDA_R_16F, CUSPARSE_ORDER_ROW));
    // Create dense matrix B
-    if(transposed_B)
-    {
-      int tmp = A_cols;
-      A_cols = B_cols;
-      B_cols = tmp;
+    if (transposed_B) {
+        int tmp = A_cols;
+        A_cols = B_cols;
+        B_cols = tmp;
    }

-    CHECK_CUSPARSE( cusparseCreateDnMat(&descB, A_cols, B_cols, ldb, B,
-                                        CUDA_R_16F, CUSPARSE_ORDER_ROW) );
+    CHECK_CUSPARSE(cusparseCreateDnMat(&descB, A_cols, B_cols, ldb, B, CUDA_R_16F, CUSPARSE_ORDER_ROW));
    // allocate an external buffer if needed
-    CHECK_CUSPARSE( cusparseSpMM_bufferSize(
-                                 handle,
-                                 CUSPARSE_OPERATION_NON_TRANSPOSE,
-                                 transposed_B ? CUSPARSE_OPERATION_TRANSPOSE : CUSPARSE_OPERATION_NON_TRANSPOSE,
-                                 &alpha, descA, descB, &beta, descC, CUDA_R_32F,
-                                 CUSPARSE_SPMM_ALG_DEFAULT, &bufferSize) );
-    CUDA_CHECK_RETURN( cudaMalloc(&dBuffer, bufferSize) );
+    CHECK_CUSPARSE(cusparseSpMM_bufferSize(
+        handle, CUSPARSE_OPERATION_NON_TRANSPOSE,
+        transposed_B ? CUSPARSE_OPERATION_TRANSPOSE : CUSPARSE_OPERATION_NON_TRANSPOSE, &alpha, descA, descB, &beta,
+        descC, CUDA_R_32F, CUSPARSE_SPMM_ALG_DEFAULT, &bufferSize
+    ));
+    CUDA_CHECK_RETURN(cudaMalloc(&dBuffer, bufferSize));

    // execute SpMM
-    CHECK_CUSPARSE( cusparseSpMM(handle,
-                                 CUSPARSE_OPERATION_NON_TRANSPOSE,
-                                 transposed_B ? CUSPARSE_OPERATION_TRANSPOSE : CUSPARSE_OPERATION_NON_TRANSPOSE,
-                                 &alpha, descA, descB, &beta, descC, CUDA_R_32F,
-                                 CUSPARSE_SPMM_ALG_DEFAULT, dBuffer));
+    CHECK_CUSPARSE(cusparseSpMM(
+        handle, CUSPARSE_OPERATION_NON_TRANSPOSE,
+        transposed_B ? CUSPARSE_OPERATION_TRANSPOSE : CUSPARSE_OPERATION_NON_TRANSPOSE, &alpha, descA, descB, &beta,
+        descC, CUDA_R_32F, CUSPARSE_SPMM_ALG_DEFAULT, dBuffer
+    ));

    // destroy matrix/vector descriptors
-    CHECK_CUSPARSE( cusparseDestroySpMat(descA) );
-    CHECK_CUSPARSE( cusparseDestroyDnMat(descB) );
-    CHECK_CUSPARSE( cusparseDestroyDnMat(descC) );
-    CUDA_CHECK_RETURN( cudaFree(dBuffer) );
+    CHECK_CUSPARSE(cusparseDestroySpMat(descA));
+    CHECK_CUSPARSE(cusparseDestroyDnMat(descB));
+    CHECK_CUSPARSE(cusparseDestroyDnMat(descC));
+    CUDA_CHECK_RETURN(cudaFree(dBuffer));
 }

-template <typename T, int BITS> void spmm_coo_very_sparse_naive(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, T *B, half *out, float *dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB)
-{
+template <typename T, int BITS>
+void spmm_coo_very_sparse_naive(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, T* B, half* out,
+    float* dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB
+) {

-  kspmm_coo_very_sparse_naive<T, 8, BITS><<<nnz_rows, 256>>>(max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz, rowsA, rowsB, colsB);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+    kspmm_coo_very_sparse_naive<T, 8, BITS><<<nnz_rows, 256>>>(
+        max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz, rowsA, rowsB, colsB
+    );
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits)
-{
+template <typename T> void gemm_host(int m, int n, int k, T* A, T* B, T* out, int lda, int ldb, int ldc, int bits) {

-	int num_blocks = (m+31)/32;
+    int num_blocks = (m + 31) / 32;

-  if(bits == 32)
-    gemm_device<T, 32, 32><<< num_blocks, 32, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
-  if(bits == 16)
-    gemm_device<T, 16, 160><<< num_blocks, 160, 0, 0 >>>(m,  n,  k, A,  B,  out, lda, ldb, ldc);
+    if (bits == 32)
+        gemm_device<T, 32, 32><<<num_blocks, 32, 0, 0>>>(m, n, k, A, B, out, lda, ldb, ldc);
+    if (bits == 16)
+        gemm_device<T, 16, 160><<<num_blocks, 160, 0, 0>>>(m, n, k, A, B, out, lda, ldb, ldc);
 }

-template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize)
-{
+template <typename T>
+void gemm_4bit_inference(
+    int m, int n, int k, T* A, unsigned char* B, float* absmax, T* out, int lda, int ldb, int ldc, int blocksize
+) {

-	int num_blocks = (m+31)/32;
+    int num_blocks = (m + 31) / 32;

-  kgemm_4bit_inference<T, 96><<< num_blocks, 96, 0, 0 >>>(m,  n,  k, A,  B, absmax, out, lda, ldb, ldc, blocksize);
+    kgemm_4bit_inference<T, 96><<<num_blocks, 96, 0, 0>>>(m, n, k, A, B, absmax, out, lda, ldb, ldc, blocksize);
 }

-template <typename T, int BITS> void gemm_4bit_inference_naive(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, float *datatype, T * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream)
-{
+template <typename T, int BITS>
+void gemm_4bit_inference_naive(
+    int m, int n, int k, T* A, unsigned char* B, float* absmax, float* datatype, T* out, int lda, int ldb, int ldc,
+    int blocksize, cudaStream_t stream
+) {

-	int num_blocks = (m+3)/4;
-  kgemm_4bit_inference_naive<T, 128, BITS><<< num_blocks, 128, 0, stream>>>(m,  n,  k, A,  B, absmax, datatype, out, lda, ldb, ldc, blocksize);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+    int num_blocks = (m + 3) / 4;
+    kgemm_4bit_inference_naive<T, 128, BITS>
+        <<<num_blocks, 128, 0, stream>>>(m, n, k, A, B, absmax, datatype, out, lda, ldb, ldc, blocksize);
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

-template <typename T, int FUNC> void func(T *A, T *B, T value, long n)
-{
-  int threads = 512;
-  int blocks = n/threads;
-  blocks = n % threads == 0 ? blocks : blocks + 1;
-  blocks = blocks > 65535 ? 65535 : blocks;
-  kfunc<T, FUNC><<<blocks, 512>>>(A, B, value, n);
-  CUDA_CHECK_RETURN(cudaPeekAtLastError());
+template <typename T, int FUNC> void func(T* A, T* B, T value, long n) {
+    int threads = 512;
+    int blocks = n / threads;
+    blocks = n % threads == 0 ? blocks : blocks + 1;
+    blocks = blocks > 65535 ? 65535 : blocks;
+    kfunc<T, FUNC><<<blocks, 512>>>(A, B, value, n);
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
 }

 //==============================================================
 //                   TEMPLATE DEFINITIONS
 //==============================================================

-template void func<float, FILL>(float *A, float *B, float value, long n);
-template void func<unsigned char, FILL>(unsigned char *A, unsigned char *B, unsigned char value, long n);
-template void func<float, ARANGE>(float *A, float *B, float value, long n);
-template void func<float, _MUL>(float *A, float *B, float value, long n);
-
-template void gemm_4bit_inference<half>(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize);
-template void gemm_4bit_inference_naive<half, 16>(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, float *datatype, half * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream);
-template void gemm_4bit_inference_naive<__nv_bfloat16, 16>(int m, int n, int k, __nv_bfloat16 * A,  unsigned char* B,  float *absmax, float *datatype, __nv_bfloat16 * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream);
-template void gemm_4bit_inference_naive<float, 32>(int m, int n, int k, float * A,  unsigned char* B,  float *absmax, float *datatype, float * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream);
-
-//template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc, int bits);
-template void gemm_host<half>(int m, int n, int k, half * A,  half* B,  half * out,  int lda, int ldb, int ldc, int bits);
-
-template void spmm_coo_very_sparse_naive<half, 16>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float *dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB);
-template void spmm_coo_very_sparse_naive<signed char, 8>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float *dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB);
-
-template int igemmlt<32, 0>(cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream);
-template int igemmlt<8, 0>(cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream);
-template int igemmlt<8, 1>(cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream);
-
-template void quantizeBlockwise<half, 1, General8bit>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<half, 0, General8bit>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<half, 0, FP4>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<half, 0, NF4>(float * code, half *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 1, General8bit>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 0, General8bit>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 0, FP4>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<float, 0, NF4>(float * code, float *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<__nv_bfloat16, 1, General8bit>(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<__nv_bfloat16, 0, General8bit>(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<__nv_bfloat16, 0, FP4>(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template void quantizeBlockwise<__nv_bfloat16, 0, NF4>(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-
-template void dequantizeBlockwise<float, General8bit>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream);
-template void dequantizeBlockwise<float, FP4>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream);
-template void dequantizeBlockwise<float, NF4>(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream);
-template void dequantizeBlockwise<half, General8bit>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream);
-template void dequantizeBlockwise<half, FP4>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream);
-template void dequantizeBlockwise<half, NF4>(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream);
-template void dequantizeBlockwise<__nv_bfloat16, General8bit>(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream);
-template void dequantizeBlockwise<__nv_bfloat16, FP4>(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream);
-template void dequantizeBlockwise<__nv_bfloat16, NF4>(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream);
-
-#define MAKE_optimizer32bit(name, gtype) \
-template void optimizer32bit<gtype, name>(gtype* g, gtype* p, \
-                float* state1, float* state2, float* unorm, float max_unorm, float param_norm, \
-                const float beta1, const float beta2, const float beta3, const float alpha, \
-                const float eps, const float weight_decay, \
-                const int step, const float lr, const float gnorm_scale, const bool skip_zeros, const int n);
-
-MAKE_optimizer32bit(ADAM, half)
-MAKE_optimizer32bit(ADAM, float)
-MAKE_optimizer32bit(ADAM, __nv_bfloat16)
-MAKE_optimizer32bit(MOMENTUM, half)
-MAKE_optimizer32bit(MOMENTUM, float)
-MAKE_optimizer32bit(MOMENTUM, __nv_bfloat16)
-MAKE_optimizer32bit(RMSPROP, half)
-MAKE_optimizer32bit(RMSPROP, float)
-MAKE_optimizer32bit(RMSPROP, __nv_bfloat16)
-MAKE_optimizer32bit(LION, half)
-MAKE_optimizer32bit(LION, float)
-MAKE_optimizer32bit(LION, __nv_bfloat16)
-MAKE_optimizer32bit(ADAGRAD, half)
-MAKE_optimizer32bit(ADAGRAD, float)
-MAKE_optimizer32bit(ADAGRAD, __nv_bfloat16)
-MAKE_optimizer32bit(ADEMAMIX, half)
-MAKE_optimizer32bit(ADEMAMIX, __nv_bfloat16)
-MAKE_optimizer32bit(ADEMAMIX, float)
-
-#define MAKE_optimizerStatic8bit(name, gtype) \
-template void optimizerStatic8bit<gtype, name>(gtype* p, gtype* g, unsigned char* state1, unsigned char* state2, \
-                float *unorm, float max_unorm, float param_norm, \
-                float beta1, float beta2, \
-                float eps, int step, float lr,  \
-                float* quantiles1, float* quantiles2, \
-                float* max1, float* max2, float* new_max1, float* new_max2, \
-                float weight_decay, \
-                const float gnorm_scale, int n); \
-
-MAKE_optimizerStatic8bit(ADAM, half)
-MAKE_optimizerStatic8bit(ADAM, float)
-MAKE_optimizerStatic8bit(MOMENTUM, half)
-MAKE_optimizerStatic8bit(MOMENTUM, float)
-MAKE_optimizerStatic8bit(RMSPROP, half)
-MAKE_optimizerStatic8bit(RMSPROP, float)
-MAKE_optimizerStatic8bit(LION, half)
-MAKE_optimizerStatic8bit(LION, float)
-MAKE_optimizerStatic8bit(ADAGRAD, half)
-MAKE_optimizerStatic8bit(ADAGRAD, float)
-
-
-#define MAKE_optimizerStatic8bitBlockwise(gtype, optim_name) \
-template void optimizerStatic8bitBlockwise<gtype, optim_name>(gtype* p, gtype* g, \
-                unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3, float alpha, float eps, int step, float lr,  \
-                float* quantiles1, float* quantiles2, float* absmax1, float* absmax2, float weight_decay, const float gnorm_scale, bool skip_zeros, int n); \
-
-MAKE_optimizerStatic8bitBlockwise(half, ADAM);
+template void func<float, FILL>(float* A, float* B, float value, long n);
+template void func<unsigned char, FILL>(unsigned char* A, unsigned char* B, unsigned char value, long n);
+template void func<float, ARANGE>(float* A, float* B, float value, long n);
+template void func<float, _MUL>(float* A, float* B, float value, long n);
+
+template void gemm_4bit_inference<half>(
+    int m, int n, int k, half* A, unsigned char* B, float* absmax, half* out, int lda, int ldb, int ldc, int blocksize
+);
+template void gemm_4bit_inference_naive<half, 16>(
+    int m, int n, int k, half* A, unsigned char* B, float* absmax, float* datatype, half* out, int lda, int ldb,
+    int ldc, int blocksize, cudaStream_t stream
+);
+template void gemm_4bit_inference_naive<__nv_bfloat16, 16>(
+    int m, int n, int k, __nv_bfloat16* A, unsigned char* B, float* absmax, float* datatype, __nv_bfloat16* out,
+    int lda, int ldb, int ldc, int blocksize, cudaStream_t stream
+);
+template void gemm_4bit_inference_naive<float, 32>(
+    int m, int n, int k, float* A, unsigned char* B, float* absmax, float* datatype, float* out, int lda, int ldb,
+    int ldc, int blocksize, cudaStream_t stream
+);
+
+// template void gemm_host<float>(int m, int n, int k, float * A,  float* B,  float * out,  int lda, int ldb, int ldc,
+// int bits);
+template void gemm_host<half>(int m, int n, int k, half* A, half* B, half* out, int lda, int ldb, int ldc, int bits);
+
+template void spmm_coo_very_sparse_naive<half, 16>(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, half* B, half* out,
+    float* dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB
+);
+template void spmm_coo_very_sparse_naive<signed char, 8>(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, signed char* B, half* out,
+    float* dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB
+);
+
+template int igemmlt<32, 0>(
+    cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale,
+    int lda, int ldb, int ldc, cudaStream_t stream
+);
+template int igemmlt<8, 0>(
+    cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale,
+    int lda, int ldb, int ldc, cudaStream_t stream
+);
+template int igemmlt<8, 1>(
+    cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale,
+    int lda, int ldb, int ldc, cudaStream_t stream
+);
+
+template void quantizeBlockwise<half, 1, General8bit>(
+    float* code, half* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template void quantizeBlockwise<half, 0, General8bit>(
+    float* code, half* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template void quantizeBlockwise<half, 0, FP4>(
+    float* code, half* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template void quantizeBlockwise<half, 0, NF4>(
+    float* code, half* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template void quantizeBlockwise<float, 1, General8bit>(
+    float* code, float* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template void quantizeBlockwise<float, 0, General8bit>(
+    float* code, float* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template void quantizeBlockwise<float, 0, FP4>(
+    float* code, float* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template void quantizeBlockwise<float, 0, NF4>(
+    float* code, float* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template void quantizeBlockwise<__nv_bfloat16, 1, General8bit>(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize,
+    const int n
+);
+template void quantizeBlockwise<__nv_bfloat16, 0, General8bit>(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize,
+    const int n
+);
+template void quantizeBlockwise<__nv_bfloat16, 0, FP4>(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize,
+    const int n
+);
+template void quantizeBlockwise<__nv_bfloat16, 0, NF4>(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize,
+    const int n
+);
+
+template void dequantizeBlockwise<float, General8bit>(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+);
+template void dequantizeBlockwise<float, FP4>(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+);
+template void dequantizeBlockwise<float, NF4>(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+);
+template void dequantizeBlockwise<half, General8bit>(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+);
+template void dequantizeBlockwise<half, FP4>(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+);
+template void dequantizeBlockwise<half, NF4>(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+);
+template void dequantizeBlockwise<__nv_bfloat16, General8bit>(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+);
+template void dequantizeBlockwise<__nv_bfloat16, FP4>(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+);
+template void dequantizeBlockwise<__nv_bfloat16, NF4>(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+);
+
+#define MAKE_optimizer32bit(name, gtype)                                                                               \
+    template void optimizer32bit<gtype, name>(                                                                         \
+        gtype * g, gtype * p, float* state1, float* state2, float* unorm, float max_unorm, float param_norm,           \
+        const float beta1, const float beta2, const float beta3, const float alpha, const float eps,                   \
+        const float weight_decay, const int step, const float lr, const float gnorm_scale, const bool skip_zeros,      \
+        const int n                                                                                                    \
+    );
+
+MAKE_optimizer32bit(ADAM, half) MAKE_optimizer32bit(ADAM, float) MAKE_optimizer32bit(ADAM, __nv_bfloat16) MAKE_optimizer32bit(MOMENTUM, half) MAKE_optimizer32bit(MOMENTUM, float) MAKE_optimizer32bit(
+    MOMENTUM, __nv_bfloat16
+) MAKE_optimizer32bit(RMSPROP, half) MAKE_optimizer32bit(RMSPROP, float) MAKE_optimizer32bit(RMSPROP, __nv_bfloat16) MAKE_optimizer32bit(LION, half) MAKE_optimizer32bit(LION, float) MAKE_optimizer32bit(LION, __nv_bfloat16) MAKE_optimizer32bit(ADAGRAD, half) MAKE_optimizer32bit(ADAGRAD, float) MAKE_optimizer32bit(ADAGRAD, __nv_bfloat16) MAKE_optimizer32bit(ADEMAMIX, half) MAKE_optimizer32bit(ADEMAMIX, __nv_bfloat16) MAKE_optimizer32bit(ADEMAMIX, float)
+
+#define MAKE_optimizerStatic8bit(name, gtype)                                                                          \
+    template void optimizerStatic8bit<gtype, name>(                                                                    \
+        gtype * p, gtype * g, unsigned char* state1, unsigned char* state2, float* unorm, float max_unorm,             \
+        float param_norm, float beta1, float beta2, float eps, int step, float lr, float* quantiles1,                  \
+        float* quantiles2, float* max1, float* max2, float* new_max1, float* new_max2, float weight_decay,             \
+        const float gnorm_scale, int n                                                                                 \
+    );
+
+    MAKE_optimizerStatic8bit(ADAM, half) MAKE_optimizerStatic8bit(ADAM, float) MAKE_optimizerStatic8bit(MOMENTUM, half) MAKE_optimizerStatic8bit(MOMENTUM, float) MAKE_optimizerStatic8bit(
+        RMSPROP, half
+    ) MAKE_optimizerStatic8bit(RMSPROP, float) MAKE_optimizerStatic8bit(LION, half) MAKE_optimizerStatic8bit(LION, float) MAKE_optimizerStatic8bit(ADAGRAD, half) MAKE_optimizerStatic8bit(ADAGRAD, float)
+
+#define MAKE_optimizerStatic8bitBlockwise(gtype, optim_name)                                                           \
+    template void optimizerStatic8bitBlockwise<gtype, optim_name>(                                                     \
+        gtype * p, gtype * g, unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3,     \
+        float alpha, float eps, int step, float lr, float* quantiles1, float* quantiles2, float* absmax1,              \
+        float* absmax2, float weight_decay, const float gnorm_scale, bool skip_zeros, int n                            \
+    );
+
+        MAKE_optimizerStatic8bitBlockwise(half, ADAM);
 MAKE_optimizerStatic8bitBlockwise(float, ADAM);
 MAKE_optimizerStatic8bitBlockwise(__nv_bfloat16, ADAM);
 MAKE_optimizerStatic8bitBlockwise(half, MOMENTUM);
@@ -696,8 +727,8 @@ MAKE_optimizerStatic8bitBlockwise(half, ADEMAMIX);
 MAKE_optimizerStatic8bitBlockwise(__nv_bfloat16, ADEMAMIX);
 MAKE_optimizerStatic8bitBlockwise(float, ADEMAMIX);

-template void percentileClipping(float * g, float *gnorm_vec, int step, const int n);
-template void percentileClipping(half * g, float *gnorm_vec, int step, const int n);
+template void percentileClipping(float* g, float* gnorm_vec, int step, const int n);
+template void percentileClipping(half* g, float* gnorm_vec, int step, const int n);

 template int get_leading_dim<ROW>(int dim1, int dim2);
 template int get_leading_dim<COL>(int dim1, int dim2);

--- a/csrc/ops.cuh
+++ b/csrc/ops.cuh
@@ -3,41 +3,41 @@
 // This source code is licensed under the MIT license found in the
 // LICENSE file in the root directory of this source tree.

-
 #ifndef ops_H
 #define ops_H

+#include <assert.h>
 #include <cstdint>
-#include <stdio.h>
 #include <iostream>
-#include <assert.h>
+#include <stdio.h>

-#include <cuda_runtime_api.h>
-#include <cuda_fp16.h>
-#include <cublas_v2.h>
 #include <cublasLt.h>
+#include <cublas_v2.h>
+#include <cuda_fp16.h>
+#include <cuda_runtime_api.h>
 #include <cusparse.h>
-#include <vector>
 #include <functional>
+#include <vector>

+#define CUDA_CHECK_RETURN(value)                                                                                       \
+    {                                                                                                                  \
+        cudaError_t _m_cudaStat = value;                                                                               \
+        if (_m_cudaStat != cudaSuccess) {                                                                              \
+            fprintf(stderr, "Error %s at line %d in file %s\n", cudaGetErrorString(_m_cudaStat), __LINE__, __FILE__);  \
+            exit(1);                                                                                                   \
+        }                                                                                                              \
+    }

-#define CUDA_CHECK_RETURN(value) {                      \
-  cudaError_t _m_cudaStat = value;                    \
-  if (_m_cudaStat != cudaSuccess) {                   \
-    fprintf(stderr, "Error %s at line %d in file %s\n",         \
-        cudaGetErrorString(_m_cudaStat), __LINE__, __FILE__);   \
-    exit(1);                              \
-  } }
-
-
-#define CHECK_CUSPARSE(value) {                      \
-  cusparseStatus_t _m_cudaStat = value;                    \
-  if (_m_cudaStat != CUSPARSE_STATUS_SUCCESS) {                   \
-    fprintf(stderr, "Error %s at line %d in file %s\n",         \
-        cusparseGetErrorString(_m_cudaStat), __LINE__, __FILE__);   \
-    exit(1);                              \
-  } }
-
+#define CHECK_CUSPARSE(value)                                                                                          \
+    {                                                                                                                  \
+        cusparseStatus_t _m_cudaStat = value;                                                                          \
+        if (_m_cudaStat != CUSPARSE_STATUS_SUCCESS) {                                                                  \
+            fprintf(                                                                                                   \
+                stderr, "Error %s at line %d in file %s\n", cusparseGetErrorString(_m_cudaStat), __LINE__, __FILE__    \
+            );                                                                                                         \
+            exit(1);                                                                                                   \
+        }                                                                                                              \
+    }

 inline void checkCudaStatus(cudaError_t status) {
    if (status != cudaSuccess) {
@@ -49,140 +49,163 @@ inline void checkCudaStatus(cudaError_t status) {
 inline int checkCublasStatus(cublasStatus_t status) {
    if (status != CUBLAS_STATUS_SUCCESS) {
        printf("cuBLAS API failed with status %d\n", status);
-        //throw std::logic_error("cuBLAS API failed");
+        // throw std::logic_error("cuBLAS API failed");
        return 1;
    }
    return 0;
 }

-typedef enum Operations_t
-{
-	ksmul = 0,
+typedef enum Operations_t {
+    ksmul = 0,
 } Operations_t;

-typedef enum Optimizer_t
-{
-	ADAM = 0,
-	MOMENTUM = 1,
-  RMSPROP = 2,
-  LARS = 3,
-  ADAGRAD = 4,
-  LION = 5,
-  ADEMAMIX = 6
+typedef enum Optimizer_t {
+    ADAM = 0,
+    MOMENTUM = 1,
+    RMSPROP = 2,
+    LARS = 3,
+    ADAGRAD = 4,
+    LION = 5,
+    ADEMAMIX = 6
 } Optimizer_t;

-typedef enum Transform_t
-{
-	ROW = 0,
-	COL = 1,
-  COL32 = 2,
-  COL_TURING = 3,
-  COL_AMPERE = 4,
+typedef enum Transform_t {
+    ROW = 0,
+    COL = 1,
+    COL32 = 2,
+    COL_TURING = 3,
+    COL_AMPERE = 4,
 } Transform_t;

-typedef enum DataType_t
-{
-	General8bit = 0,
-	FP4 = 1,
-  NF4 = 2,
+typedef enum DataType_t {
+    General8bit = 0,
+    FP4 = 1,
+    NF4 = 2,
 } DataType_t;

-typedef enum Funcs_t
-{
-	FILL = 0,
-	ARANGE = 1,
-	_MUL = 2,
+typedef enum Funcs_t {
+    FILL = 0,
+    ARANGE = 1,
+    _MUL = 2,
 } Funcs_t;

-class Context
-{
-    public:
-				cublasHandle_t m_handle;
-
-				Context()
-				{
-					cublasHandle_t handle;
-					cublasCreate_v2(&handle);
-					m_handle = handle;
-				}
+class Context {
+  public:
+    cublasHandle_t m_handle;

+    Context() {
+        cublasHandle_t handle;
+        cublasCreate_v2(&handle);
+        m_handle = handle;
+    }
 };

-class ContextLt
-{
-    public:
-				cublasLtHandle_t m_handle;
-
-				ContextLt()
-				{
-					cublasLtHandle_t handle;
-					cublasLtCreate(&handle);
-					m_handle = handle;
-				}
+class ContextLt {
+  public:
+    cublasLtHandle_t m_handle;

+    ContextLt() {
+        cublasLtHandle_t handle;
+        cublasLtCreate(&handle);
+        m_handle = handle;
+    }
 };

-class ContextCusparse
-{
-    public:
-				cusparseHandle_t m_handle;
-
-				ContextCusparse()
-				{
-					cusparseHandle_t handle;
-					cusparseCreate(&handle);
-					m_handle = handle;
-				}
+class ContextCusparse {
+  public:
+    cusparseHandle_t m_handle;

+    ContextCusparse() {
+        cusparseHandle_t handle;
+        cusparseCreate(&handle);
+        m_handle = handle;
+    }
 };

-void quantize(float *code, float *A, unsigned char *out, int n);
-void dequantize(float *code, unsigned char *A, float *out, int n, cudaStream_t stream);
-template <typename T, int STOCHASTIC, int DATA_TYPE> void quantizeBlockwise(float * code, T *A, float *absmax, unsigned char *out, float* rand, int rand_offset, int blocksize, const int n);
-template<typename T, int DATA_TYPE> void dequantizeBlockwise(float *code, unsigned char *A, float *absmax, T *out, int block_size, const int n, cudaStream_t stream);
-
-template<typename T, int OPTIMIZER> void optimizer32bit(T* g, T* p,
-                float* state1, float* state2, float *unorm, float max_unorm, float param_norm,
-                float beta1, float beta2, float beta3, float alpha, float eps, float weight_decay,
-                int step, float lr, const float gnorm_scale, bool skip_zeros, int n);
-
-template<typename T, int OPTIMIZER> void optimizerStatic8bit(T* p, T* g, unsigned char* state1, unsigned char* state2,
-                float *unorm, float max_unorm, float param_norm,
-                float beta1, float beta2,
-                float eps, int step, float lr,
-                float* quantiles1, float* quantiles2,
-                float* max1, float* max2, float* new_max1, float* new_max2,
-                float weight_decay,
-                const float gnorm_scale, int n);
-
-template<typename T, int OPTIMIZER> void optimizerStatic8bitBlockwise(T* p, T* g,
-                unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3, float alpha, float eps, int step, float lr,
-                float* quantiles1, float* quantiles2, float* absmax1, float* absmax2, float weight_decay, const float gnorm_scale,
-								bool skip_zeros, int n);
-
-template<typename T> void percentileClipping(T * g, float *gnorm_vec, int step, const int n);
-
-void gemmex(Context * context, bool transposeA, bool transposeB, int m, int n, int k, void *A, void *B, void *C, int lda, int ldb, int ldc);
-void strided_gemmex(Context *context, bool transposeA, bool transposeB, int m, int n, int k, void *A, void *B, void *C, int lda, int ldb, int ldc,
-                    long long int strideA, long long int strideB, long long int strideC, int batchCount);
-
-template <int DTYPE_OUT, int SCALE_ROWS> int igemmlt(cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream);
-
-void cutlass_igemm(bool transposeA, bool transposeB, int m, int n, int k, void *A, void *B, void *C, int lda, int ldb, int ldc);
-void dequant_mm_int32_fp16(int *A, float *rowStats, float *colStats, half *out, half* bias, int numRows, int numCols, cudaStream_t stream);
-void getRowStats(half *A, float *rowStats, float threshold, int rows, int cols, cudaStream_t stream);
-void int8VectorQuant(half * __restrict__ A, int8_t *out, float *rowStats, float threshold, int rows, int cols, cudaStream_t stream);
-
-void spmm_coo(cusparseHandle_t handle, int *A_rowidx, int *A_colidx, half *A_vals, int A_nnz, int A_rows, int A_cols, int B_cols, int ldb, half *B, int ldc, half* C, bool transposed_B);
-
-template <typename T, int BITS> void spmm_coo_very_sparse_naive(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, T *B, half *out, float *dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB);
-
-void matmul4bite(half *A, unsigned char *B, half*out, int lda, int ldb, int rowsA, int colsA, int colsB);
-
-template <typename T> void gemm_host(int m, int n, int k, T * A,  T* B,  T * out,  int lda, int ldb, int ldc, int bits);
-template <typename T> void gemm_4bit_inference(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, T * out,  int lda, int ldb, int ldc, int blocksize);
-template <typename T, int BITS> void gemm_4bit_inference_naive(int m, int n, int k, T * A,  unsigned char* B,  float *absmax, float *datatype, T * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream);
-
-template <typename T, int FUNC> void func(T *A, T *B, T value, long n);
+void quantize(float* code, float* A, unsigned char* out, int n);
+void dequantize(float* code, unsigned char* A, float* out, int n, cudaStream_t stream);
+template <typename T, int STOCHASTIC, int DATA_TYPE>
+void quantizeBlockwise(
+    float* code, T* A, float* absmax, unsigned char* out, float* rand, int rand_offset, int blocksize, const int n
+);
+template <typename T, int DATA_TYPE>
+void dequantizeBlockwise(
+    float* code, unsigned char* A, float* absmax, T* out, int block_size, const int n, cudaStream_t stream
+);
+
+template <typename T, int OPTIMIZER>
+void optimizer32bit(
+    T* g, T* p, float* state1, float* state2, float* unorm, float max_unorm, float param_norm, float beta1, float beta2,
+    float beta3, float alpha, float eps, float weight_decay, int step, float lr, const float gnorm_scale,
+    bool skip_zeros, int n
+);
+
+template <typename T, int OPTIMIZER>
+void optimizerStatic8bit(
+    T* p, T* g, unsigned char* state1, unsigned char* state2, float* unorm, float max_unorm, float param_norm,
+    float beta1, float beta2, float eps, int step, float lr, float* quantiles1, float* quantiles2, float* max1,
+    float* max2, float* new_max1, float* new_max2, float weight_decay, const float gnorm_scale, int n
+);
+
+template <typename T, int OPTIMIZER>
+void optimizerStatic8bitBlockwise(
+    T* p, T* g, unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3, float alpha,
+    float eps, int step, float lr, float* quantiles1, float* quantiles2, float* absmax1, float* absmax2,
+    float weight_decay, const float gnorm_scale, bool skip_zeros, int n
+);
+
+template <typename T> void percentileClipping(T* g, float* gnorm_vec, int step, const int n);
+
+void gemmex(
+    Context* context, bool transposeA, bool transposeB, int m, int n, int k, void* A, void* B, void* C, int lda,
+    int ldb, int ldc
+);
+void strided_gemmex(
+    Context* context, bool transposeA, bool transposeB, int m, int n, int k, void* A, void* B, void* C, int lda,
+    int ldb, int ldc, long long int strideA, long long int strideB, long long int strideC, int batchCount
+);
+
+template <int DTYPE_OUT, int SCALE_ROWS>
+int igemmlt(
+    cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale,
+    int lda, int ldb, int ldc, cudaStream_t stream
+);
+
+void cutlass_igemm(
+    bool transposeA, bool transposeB, int m, int n, int k, void* A, void* B, void* C, int lda, int ldb, int ldc
+);
+void dequant_mm_int32_fp16(
+    int* A, float* rowStats, float* colStats, half* out, half* bias, int numRows, int numCols, cudaStream_t stream
+);
+void getRowStats(half* A, float* rowStats, float threshold, int rows, int cols, cudaStream_t stream);
+void int8VectorQuant(
+    half* __restrict__ A, int8_t* out, float* rowStats, float threshold, int rows, int cols, cudaStream_t stream
+);
+
+void spmm_coo(
+    cusparseHandle_t handle, int* A_rowidx, int* A_colidx, half* A_vals, int A_nnz, int A_rows, int A_cols, int B_cols,
+    int ldb, half* B, int ldc, half* C, bool transposed_B
+);
+
+template <typename T, int BITS>
+void spmm_coo_very_sparse_naive(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, T* B, half* out,
+    float* dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB
+);
+
+void matmul4bite(half* A, unsigned char* B, half* out, int lda, int ldb, int rowsA, int colsA, int colsB);
+
+template <typename T> void gemm_host(int m, int n, int k, T* A, T* B, T* out, int lda, int ldb, int ldc, int bits);
+template <typename T>
+void gemm_4bit_inference(
+    int m, int n, int k, T* A, unsigned char* B, float* absmax, T* out, int lda, int ldb, int ldc, int blocksize
+);
+template <typename T, int BITS>
+void gemm_4bit_inference_naive(
+    int m, int n, int k, T* A, unsigned char* B, float* absmax, float* datatype, T* out, int lda, int ldb, int ldc,
+    int blocksize, cudaStream_t stream
+);
+
+template <typename T, int FUNC> void func(T* A, T* B, T value, long n);

 #endif
--- a/csrc/pythonInterface.cpp
+++ b/csrc/pythonInterface.cpp
@@ -20,39 +20,60 @@

 #if BUILD_CUDA

-//void gemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
+// void gemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
 //{ gemm_host<float>(M, N, K, A, B, out, lda, ldb, ldc, 32); }
-void gemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
-{ gemm_host<half>(M, N, K, A, B, out, lda, ldb, ldc, 16); }
+void gemm_host_fp16(int M, int N, int K, half* A, half* B, half* out, int lda, int ldb, int ldc) {
+    gemm_host<half>(M, N, K, A, B, out, lda, ldb, ldc, 16);
+}

-void gemm_4bit_inference(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize)
-{ gemm_4bit_inference<half>(m, n, k, A, B, absmax,  out, lda, ldb, ldc, blocksize); }
+void gemm_4bit_inference(
+    int m, int n, int k, half* A, unsigned char* B, float* absmax, half* out, int lda, int ldb, int ldc, int blocksize
+) {
+    gemm_4bit_inference<half>(m, n, k, A, B, absmax, out, lda, ldb, ldc, blocksize);
+}

-void gemm_4bit_inference_naive_fp16(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, float *datatype, half * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream)
-{ gemm_4bit_inference_naive<half, 16>(m, n, k, A, B, absmax,  datatype, out, lda, ldb, ldc, blocksize, stream); }
+void gemm_4bit_inference_naive_fp16(
+    int m, int n, int k, half* A, unsigned char* B, float* absmax, float* datatype, half* out, int lda, int ldb,
+    int ldc, int blocksize, cudaStream_t stream
+) {
+    gemm_4bit_inference_naive<half, 16>(m, n, k, A, B, absmax, datatype, out, lda, ldb, ldc, blocksize, stream);
+}

-void gemm_4bit_inference_naive_bf16(int m, int n, int k, __nv_bfloat16 * A,  unsigned char* B,  float *absmax, float *datatype, __nv_bfloat16 * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream)
-{ gemm_4bit_inference_naive<__nv_bfloat16, 16>(m, n, k, A, B, absmax,  datatype, out, lda, ldb, ldc, blocksize, stream); }
+void gemm_4bit_inference_naive_bf16(
+    int m, int n, int k, __nv_bfloat16* A, unsigned char* B, float* absmax, float* datatype, __nv_bfloat16* out,
+    int lda, int ldb, int ldc, int blocksize, cudaStream_t stream
+) {
+    gemm_4bit_inference_naive<__nv_bfloat16, 16>(
+        m, n, k, A, B, absmax, datatype, out, lda, ldb, ldc, blocksize, stream
+    );
+}

-void gemm_4bit_inference_naive_fp32(int m, int n, int k, float * A,  unsigned char* B,  float *absmax, float *datatype, float * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream)
-{ gemm_4bit_inference_naive<float, 32>(m, n, k, A, B, absmax,  datatype, out, lda, ldb, ldc, blocksize, stream); }
+void gemm_4bit_inference_naive_fp32(
+    int m, int n, int k, float* A, unsigned char* B, float* absmax, float* datatype, float* out, int lda, int ldb,
+    int ldc, int blocksize, cudaStream_t stream
+) {
+    gemm_4bit_inference_naive<float, 32>(m, n, k, A, B, absmax, datatype, out, lda, ldb, ldc, blocksize, stream);
+}

-#define MAKE_ELEMENTWISE_FUNC(fname, type_name, ctype, FUNC) \
-void fname##_##type_name(ctype *A, ctype *B, ctype value, long n){ func<ctype, FUNC>(A, B, value, n); } \
+#define MAKE_ELEMENTWISE_FUNC(fname, type_name, ctype, FUNC)                                                           \
+    void fname##_##type_name(ctype* A, ctype* B, ctype value, long n) { func<ctype, FUNC>(A, B, value, n); }

 MAKE_ELEMENTWISE_FUNC(fill, fp32, float, FILL)
 MAKE_ELEMENTWISE_FUNC(fill, uint8, unsigned char, FILL)
 MAKE_ELEMENTWISE_FUNC(arange, fp32, float, ARANGE)
 MAKE_ELEMENTWISE_FUNC(_mul, fp32, float, _MUL)

-
-#define MAKE_FUNC32(fname, oname, gtype, gbits) \
-void fname##32bit_grad_##gbits(gtype *g, gtype *p, \
-               float* state1, float* state2, float *unorm, float max_unorm, float param_norm, \
-               const float beta1, const float beta2, const float beta3, const float alpha, \
-			   const float eps, const float weight_decay, \
-               const int step, const float lr, float gnorm_scale, bool skip_zeros, const int n) \
-{ optimizer32bit<gtype, oname>(g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, beta3, alpha, eps, weight_decay, step, lr, gnorm_scale, skip_zeros, n); } \
+#define MAKE_FUNC32(fname, oname, gtype, gbits)                                                                        \
+    void fname##32bit_grad_##gbits(                                                                                    \
+        gtype* g, gtype* p, float* state1, float* state2, float* unorm, float max_unorm, float param_norm,             \
+        const float beta1, const float beta2, const float beta3, const float alpha, const float eps,                   \
+        const float weight_decay, const int step, const float lr, float gnorm_scale, bool skip_zeros, const int n      \
+    ) {                                                                                                                \
+        optimizer32bit<gtype, oname>(                                                                                  \
+            g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, beta3, alpha, eps, weight_decay, step,   \
+            lr, gnorm_scale, skip_zeros, n                                                                             \
+        );                                                                                                             \
+    }

 MAKE_FUNC32(momentum, MOMENTUM, float, 32)
 MAKE_FUNC32(momentum, MOMENTUM, half, 16)
@@ -70,19 +91,18 @@ MAKE_FUNC32(ademamix, ADEMAMIX, float, fp32)
 MAKE_FUNC32(ademamix, ADEMAMIX, half, fp16)
 MAKE_FUNC32(ademamix, ADEMAMIX, __nv_bfloat16, bf16)

-
-#define MAKE_FUNC8(fname, oname, gtype, gbits) \
-void fname##_static_8bit_grad_##gbits(gtype* p, gtype* g, unsigned char* state1, unsigned char* state2, \
-								float *unorm, float max_unorm, float param_norm, \
-                float beta1, float beta2, \
-                float eps, int step, float lr,  \
-                float* quantiles1, float* quantiles2, \
-                float* max1, float* max2, float* new_max1, float* new_max2, \
-                float weight_decay, float gnorm_scale, int n) \
-{  \
-	optimizerStatic8bit<gtype, oname>(g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr, \
-			                                  quantiles1, quantiles2, max1, max2, new_max1, new_max2, weight_decay, gnorm_scale, n); \
-} \
+#define MAKE_FUNC8(fname, oname, gtype, gbits)                                                                         \
+    void fname##_static_8bit_grad_##gbits(                                                                             \
+        gtype* p, gtype* g, unsigned char* state1, unsigned char* state2, float* unorm, float max_unorm,               \
+        float param_norm, float beta1, float beta2, float eps, int step, float lr, float* quantiles1,                  \
+        float* quantiles2, float* max1, float* max2, float* new_max1, float* new_max2, float weight_decay,             \
+        float gnorm_scale, int n                                                                                       \
+    ) {                                                                                                                \
+        optimizerStatic8bit<gtype, oname>(                                                                             \
+            g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr, quantiles1, quantiles2,   \
+            max1, max2, new_max1, new_max2, weight_decay, gnorm_scale, n                                               \
+        );                                                                                                             \
+    }

 MAKE_FUNC8(adam, ADAM, float, 32)
 MAKE_FUNC8(adam, ADAM, half, 16)
@@ -93,11 +113,17 @@ MAKE_FUNC8(rmsprop, RMSPROP, half, 16)
 MAKE_FUNC8(lion, LION, float, 32)
 MAKE_FUNC8(lion, LION, half, 16)

-#define MAKE_BLOCKWISE8(fname, optim_name, gtype, gbits) \
-void fname##_8bit_blockwise_grad_##gbits(gtype* p, gtype* g, \
-                unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3, float alpha, float eps, int step, float lr, \
-                float* quantiles1, float* quantiles2, float* absmax1, float* absmax2, float weight_decay, const float gnorm_scale, bool skip_zeros, int n)\
-{	optimizerStatic8bitBlockwise<gtype, optim_name>(p, g, state1, state2, beta1, beta2, beta3, alpha, eps, step, lr, quantiles1, quantiles2, absmax1, absmax2, weight_decay, gnorm_scale, skip_zeros, n); }\
+#define MAKE_BLOCKWISE8(fname, optim_name, gtype, gbits)                                                               \
+    void fname##_8bit_blockwise_grad_##gbits(                                                                          \
+        gtype* p, gtype* g, unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3,       \
+        float alpha, float eps, int step, float lr, float* quantiles1, float* quantiles2, float* absmax1,              \
+        float* absmax2, float weight_decay, const float gnorm_scale, bool skip_zeros, int n                            \
+    ) {                                                                                                                \
+        optimizerStatic8bitBlockwise<gtype, optim_name>(                                                               \
+            p, g, state1, state2, beta1, beta2, beta3, alpha, eps, step, lr, quantiles1, quantiles2, absmax1, absmax2, \
+            weight_decay, gnorm_scale, skip_zeros, n                                                                   \
+        );                                                                                                             \
+    }

 MAKE_BLOCKWISE8(adam, ADAM, half, fp16)
 MAKE_BLOCKWISE8(adam, ADAM, __nv_bfloat16, bf16)
@@ -118,239 +144,511 @@ MAKE_BLOCKWISE8(ademamix, ADEMAMIX, half, fp16)
 MAKE_BLOCKWISE8(ademamix, ADEMAMIX, __nv_bfloat16, bf16)
 MAKE_BLOCKWISE8(ademamix, ADEMAMIX, float, fp32)

+void percentileClipping_g32(float* g, float* gnorm_vec, int step, const int n) {
+    percentileClipping<float>(g, gnorm_vec, step, n);
+}

-void percentileClipping_g32(float * g, float *gnorm_vec, int step, const int n){ percentileClipping<float>(g, gnorm_vec, step, n); }
-void percentileClipping_g16(half * g, float *gnorm_vec, int step, const int n){ percentileClipping<half>(g, gnorm_vec, step, n); }
+void percentileClipping_g16(half* g, float* gnorm_vec, int step, const int n) {
+    percentileClipping<half>(g, gnorm_vec, step, n);
+}
+
+void quantizeBlockwise_fp16(float* code, half* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise<half, 0, General8bit>(code, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void quantizeBlockwise_fp16_fp4(float* code, half* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise<half, 0, FP4>(NULL, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void quantizeBlockwise_fp16_nf4(float* code, half* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise<half, 0, NF4>(NULL, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void quantizeBlockwise_bf16(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, int blocksize, const int n
+) {
+    quantizeBlockwise<__nv_bfloat16, 0, General8bit>(code, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void quantizeBlockwise_bf16_fp4(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, int blocksize, const int n
+) {
+    quantizeBlockwise<__nv_bfloat16, 0, FP4>(NULL, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void quantizeBlockwise_bf16_nf4(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, int blocksize, const int n
+) {
+    quantizeBlockwise<__nv_bfloat16, 0, NF4>(NULL, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void quantizeBlockwise_fp32(float* code, float* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise<float, 0, General8bit>(code, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void quantizeBlockwise_fp32_fp4(float* code, float* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise<float, 0, FP4>(NULL, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void quantizeBlockwise_fp32_nf4(float* code, float* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise<float, 0, NF4>(NULL, A, absmax, out, NULL, 0, blocksize, n);
+}
+
+void dequantizeBlockwise_fp16(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<half, General8bit>(code, A, absmax, out, blocksize, n, stream);
+}
+
+void dequantizeBlockwise_fp16_fp4(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<half, FP4>(NULL, A, absmax, out, blocksize, n, stream);
+}
+
+void dequantizeBlockwise_fp16_nf4(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<half, NF4>(NULL, A, absmax, out, blocksize, n, stream);
+}

-void quantizeBlockwise_fp16(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, General8bit>(code, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_fp16_fp4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, FP4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_fp16_nf4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<half, 0, NF4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
+void dequantizeBlockwise_fp32(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<float, General8bit>(code, A, absmax, out, blocksize, n, stream);
+}

-void quantizeBlockwise_bf16(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<__nv_bfloat16, 0, General8bit>(code, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_bf16_fp4(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<__nv_bfloat16, 0, FP4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_bf16_nf4(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<__nv_bfloat16, 0, NF4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
+void dequantizeBlockwise_fp32_fp4(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<float, FP4>(NULL, A, absmax, out, blocksize, n, stream);
+}

-void quantizeBlockwise_fp32(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, General8bit>(code, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_fp32_fp4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, FP4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
-void quantizeBlockwise_fp32_nf4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise<float, 0, NF4>(NULL, A, absmax, out, NULL, 0, blocksize, n); }
+void dequantizeBlockwise_fp32_nf4(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<float, NF4>(NULL, A, absmax, out, blocksize, n, stream);
+}

-void dequantizeBlockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<half, General8bit>(code, A, absmax, out, blocksize, n, stream); } \
-void dequantizeBlockwise_fp16_fp4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<half, FP4>(NULL, A, absmax, out, blocksize, n, stream); } \
-void dequantizeBlockwise_fp16_nf4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<half, NF4>(NULL, A, absmax, out, blocksize, n, stream); } \
+void dequantizeBlockwise_bf16(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<__nv_bfloat16, General8bit>(code, A, absmax, out, blocksize, n, stream);
+}

-void dequantizeBlockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<float, General8bit>(code, A, absmax, out, blocksize, n, stream); }
-void dequantizeBlockwise_fp32_fp4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<float, FP4>(NULL, A, absmax, out, blocksize, n, stream); }
-void dequantizeBlockwise_fp32_nf4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<float, NF4>(NULL, A, absmax, out, blocksize, n, stream); }
+void dequantizeBlockwise_bf16_fp4(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<__nv_bfloat16, FP4>(NULL, A, absmax, out, blocksize, n, stream);
+}

-void dequantizeBlockwise_bf16(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<__nv_bfloat16, General8bit>(code, A, absmax, out, blocksize, n, stream); }
-void dequantizeBlockwise_bf16_fp4(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<__nv_bfloat16, FP4>(NULL, A, absmax, out, blocksize, n, stream); }
-void dequantizeBlockwise_bf16_nf4(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise<__nv_bfloat16, NF4>(NULL, A, absmax, out, blocksize, n, stream); }
+void dequantizeBlockwise_bf16_nf4(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise<__nv_bfloat16, NF4>(NULL, A, absmax, out, blocksize, n, stream);
+}

-int igemmlt_32(cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream) {
+int igemmlt_32(
+    cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale,
+    int lda, int ldb, int ldc, cudaStream_t stream
+) {
    return igemmlt<32, 0>(ltHandle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
 }
-int igemmlt_8(cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream) {
+
+int igemmlt_8(
+    cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale,
+    int lda, int ldb, int ldc, cudaStream_t stream
+) {
    return igemmlt<8, 0>(ltHandle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
 }
-int igemmlt_8_rowscale(cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream) {
+
+int igemmlt_8_rowscale(
+    cublasLtHandle_t ltHandle, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale,
+    int lda, int ldb, int ldc, cudaStream_t stream
+) {
    return igemmlt<8, 1>(ltHandle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
 }

-void spmm_coo_very_sparse_naive_fp16(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float *dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB)
-{ spmm_coo_very_sparse_naive<half, 16>(max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz_rows, nnz, rowsA, rowsB, colsB); }
+void spmm_coo_very_sparse_naive_fp16(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, half* B, half* out,
+    float* dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB
+) {
+    spmm_coo_very_sparse_naive<half, 16>(
+        max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz_rows, nnz, rowsA, rowsB,
+        colsB
+    );
+}

-void spmm_coo_very_sparse_naive_int8(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float *dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB)
-{ spmm_coo_very_sparse_naive<signed char, 8>(max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz_rows, nnz, rowsA, rowsB, colsB); }
+void spmm_coo_very_sparse_naive_int8(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, signed char* B, half* out,
+    float* dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB
+) {
+    spmm_coo_very_sparse_naive<signed char, 8>(
+        max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz_rows, nnz, rowsA, rowsB,
+        colsB
+    );
+}
 #endif

-extern "C"
-{
+extern "C" {
 #if BUILD_CUDA
-	void cquantize(float *code, float *A, unsigned char *out, int n){ quantize(code, A, out, n); }
-	void cdequantize(float *code, unsigned char *A, float *out, int n, cudaStream_t stream){ dequantize(code, A, out, n, stream); }
-
-  void cdequantize_blockwise_fp16_fp4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_fp16_fp4(code, A, absmax, out, blocksize, n, stream); }
-  void cdequantize_blockwise_fp16(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_fp16(code, A, absmax, out, blocksize, n, stream); }
-  void cdequantize_blockwise_fp16_nf4(float *code, unsigned char *A, float *absmax, half *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_fp16_nf4(code, A, absmax, out, blocksize, n, stream); }
-
-  void cquantize_blockwise_fp16(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp16(code, A, absmax, out, blocksize, n); }
-  void cquantize_blockwise_fp16_fp4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp16_fp4(code, A, absmax, out, blocksize, n); }
-  void cquantize_blockwise_fp16_nf4(float * code, half *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp16_nf4(code, A, absmax, out, blocksize, n); }
-
-  void cquantize_blockwise_fp32(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp32(code, A, absmax, out, blocksize, n); }
-  void cquantize_blockwise_fp32_fp4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp32_fp4(code, A, absmax, out, blocksize, n); }
-  void cquantize_blockwise_fp32_nf4(float * code, float *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_fp32_nf4(code, A, absmax, out, blocksize, n); }
-
-  void cdequantize_blockwise_fp32(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_fp32(code, A, absmax, out, blocksize, n, stream); }
-  void cdequantize_blockwise_fp32_fp4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_fp32_fp4(code, A, absmax, out, blocksize, n, stream); }
-  void cdequantize_blockwise_fp32_nf4(float *code, unsigned char *A, float *absmax, float *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_fp32_nf4(code, A, absmax, out, blocksize, n, stream); }
-
-  void cquantize_blockwise_bf16(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_bf16(code, A, absmax, out, blocksize, n); }
-  void cquantize_blockwise_bf16_fp4(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_bf16_fp4(code, A, absmax, out, blocksize, n); }
-  void cquantize_blockwise_bf16_nf4(float * code, __nv_bfloat16 *A, float *absmax, unsigned char *out, int blocksize, const int n){ quantizeBlockwise_bf16_nf4(code, A, absmax, out, blocksize, n); }
-
-  void cdequantize_blockwise_bf16(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_bf16(code, A, absmax, out, blocksize, n, stream); }
-  void cdequantize_blockwise_bf16_fp4(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_bf16_fp4(code, A, absmax, out, blocksize, n, stream); }
-  void cdequantize_blockwise_bf16_nf4(float *code, unsigned char *A, float *absmax, __nv_bfloat16 *out, int blocksize, const int n, cudaStream_t stream){ dequantizeBlockwise_bf16_nf4(code, A, absmax, out, blocksize, n, stream); }
-
-	#define MAKE_CFUNC32(name, gtype, gbits) \
-	void c##name##32bit_grad_##gbits(gtype *g, gtype *p, \
-								 float* state1, float* state2, float *unorm, float max_unorm, float param_norm, \
-								 const float beta1, const float beta2, const float beta3, const float alpha, \
-								 const float eps, const float weight_decay, \
-								 const int step, const float lr, const float gnorm_scale, bool skip_zeros, const int n) \
-	{ name##32bit_grad_##gbits(g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, beta3, alpha, eps, weight_decay, step, lr, gnorm_scale, skip_zeros, n); } \
-
-	MAKE_CFUNC32(adam, float, fp32)
-	MAKE_CFUNC32(adam, half, fp16)
-	MAKE_CFUNC32(adam, __nv_bfloat16, bf16)
-	MAKE_CFUNC32(momentum, float, 32)
-	MAKE_CFUNC32(momentum, half, 16)
-	MAKE_CFUNC32(rmsprop, float, 32)
-	MAKE_CFUNC32(rmsprop, half, 16)
-	MAKE_CFUNC32(lion, float, fp32)
-	MAKE_CFUNC32(lion, half, fp16)
-	MAKE_CFUNC32(lion, __nv_bfloat16, bf16)
-	MAKE_CFUNC32(adagrad, float, 32)
-	MAKE_CFUNC32(adagrad, half, 16)
-	MAKE_CFUNC32(ademamix, float, fp32)
-	MAKE_CFUNC32(ademamix, half, fp16)
-	MAKE_CFUNC32(ademamix, __nv_bfloat16, bf16)
-
-	#define MAKE_CFUNC8(name, gtype, gbits) \
-	void c##name##_static_8bit_grad_##gbits(gtype* p, gtype* g, unsigned char* state1, unsigned char* state2, \
-                float *unorm, float max_unorm, float param_norm, \
-                float beta1, float beta2, \
-                float eps, int step, float lr,  \
-                float* quantiles1, float* quantiles2, \
-                float* max1, float* max2, float* new_max1, float* new_max2, \
-                float weight_decay, float gnorm_scale, int n) \
-  {  \
-	    name##_static_8bit_grad_##gbits(g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr, \
-			                                 quantiles1, quantiles2, max1, max2, new_max1, new_max2, weight_decay, gnorm_scale, n); \
-  } \
-
-	MAKE_CFUNC8(adam, float, 32)
-	MAKE_CFUNC8(adam, half, 16)
-	MAKE_CFUNC8(momentum, float, 32)
-	MAKE_CFUNC8(momentum, half, 16)
-	MAKE_CFUNC8(rmsprop, float, 32)
-	MAKE_CFUNC8(rmsprop, half, 16)
-	MAKE_CFUNC8(lion, float, 32)
-	MAKE_CFUNC8(lion, half, 16)
-
-  #define MAKE_CBLOCKWISE8(fname, optim_name, gtype, gbits) \
-  void c##fname##_8bit_blockwise_grad_##gbits(gtype* p, gtype* g, \
-                unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3, float alpha, float eps, int step, float lr,  \
-                float* quantiles1, float* quantiles2, float* absmax1, float* absmax2, float weight_decay, const float gnorm_scale, bool skip_zeros, int n) \
-  {	fname##_8bit_blockwise_grad_##gbits(p, g, state1, state2, beta1, beta2, beta3, alpha, eps, step, lr, quantiles1, quantiles2, absmax1, absmax2, weight_decay, gnorm_scale, skip_zeros, n); } \
-
-	MAKE_CBLOCKWISE8(adam, ADAM, half, fp16)
-	MAKE_CBLOCKWISE8(adam, ADAM, float, fp32)
-	MAKE_CBLOCKWISE8(adam, ADAM, __nv_bfloat16, bf16)
-	MAKE_CBLOCKWISE8(momentum, MOMENTUM, half, fp16)
-	MAKE_CBLOCKWISE8(momentum, MOMENTUM, float, fp32)
-	MAKE_CBLOCKWISE8(momentum, MOMENTUM, __nv_bfloat16, bf16)
-	MAKE_CBLOCKWISE8(rmsprop, RMSPROP, half, fp16)
-	MAKE_CBLOCKWISE8(rmsprop, RMSPROP, float, fp32)
-	MAKE_CBLOCKWISE8(rmsprop, RMSPROP, __nv_bfloat16, bf16)
-	MAKE_CBLOCKWISE8(adagrad, ADAGRAD, half, fp16)
-	MAKE_CBLOCKWISE8(adagrad, ADAGRAD, float, fp32)
-	MAKE_CBLOCKWISE8(adagrad, ADAGRAD, __nv_bfloat16, bf16)
-	MAKE_CBLOCKWISE8(lion, LION, half, fp16)
-	MAKE_CBLOCKWISE8(lion, LION, float, fp32)
-	MAKE_CBLOCKWISE8(lion, LION, __nv_bfloat16, bf16)
-	MAKE_CBLOCKWISE8(ademamix, ADEMAMIX, half, fp16)
-	MAKE_CBLOCKWISE8(ademamix, ADEMAMIX, float, fp32)
-	MAKE_CBLOCKWISE8(ademamix, ADEMAMIX, __nv_bfloat16, bf16)
-
-	void cpercentile_clipping_g32(float * g, float *gnorm_vec, int step, const int n){ percentileClipping_g32(g, gnorm_vec, step, n); }
-	void cpercentile_clipping_g16(half * g, float *gnorm_vec, int step, const int n){ percentileClipping_g16(g, gnorm_vec, step, n); }
-
-	void cigemm(Context *context, bool transposeA, bool transposeB, int m, int n, int k, void *A, void *B, void *C, int lda, int ldb, int ldc)
-	{ gemmex(context, transposeA, transposeB, m, n, k, A, B, C, lda, ldb, ldc); }
-	void cbatched_igemm(Context *context, bool transposeA, bool transposeB, int m, int n, int k, void *A, void *B, void *C, int lda, int ldb, int ldc,
-			               long strideA, long strideB, long strideC, int batchCount)
-	{ strided_gemmex(context, transposeA, transposeB, m, n, k, A, B, C, lda, ldb, ldc, strideA, strideB, strideC, batchCount); }
-
-	Context *get_context(){ return new Context(); }
-	ContextCusparse *get_cusparse(){ return new ContextCusparse(); }
-
-	int cigemmlt_32(Context *context, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream) {
-		return igemmlt_32((cublasLtHandle_t) context->m_handle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
-	}
-	int cigemmlt_8(Context *context, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc, cudaStream_t stream) {
-		return igemmlt_8((cublasLtHandle_t) context->m_handle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
-	}
-	int cigemmlt_8_rowscale(Context *context, int m, int n, int k, const int8_t *A, const int8_t *B, void *C, float *row_scale, int lda, int ldb, int ldc,  cudaStream_t stream) {
-		return igemmlt_8_rowscale((cublasLtHandle_t) context->m_handle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
-	}
-	void cdequant_mm_int32_fp16(int *A, float *rowStats, float *colStats, half *out, half* bias, int numRows, int numCols, cudaStream_t stream)
-	{ dequant_mm_int32_fp16(A, rowStats, colStats, out, bias, numRows, numCols, stream); }
-	void cget_row_stats(half *A, float *rowStats, float threshold, int rows, int cols, cudaStream_t stream) {
-		getRowStats(A, rowStats, threshold, rows, cols, stream);
-	}
-	void cint8_vector_quant(half * __restrict__ A, int8_t *out, float *rowStats, float threshold, int rows, int cols, cudaStream_t stream) {
-		int8VectorQuant(A, out, rowStats, threshold, rows, cols, stream);
-	}
-
-	void cspmm_coo(ContextCusparse *context, int *A_rowidx, int *A_colidx, half *A_vals, int A_nnz, int A_rows, int A_cols, int B_cols, int ldb, half *B, int ldc, half* C, bool transposed_B)
-  { spmm_coo((cusparseHandle_t) context->m_handle, A_rowidx, A_colidx, A_vals, A_nnz, A_rows, A_cols, B_cols, ldb, B, ldc, C, transposed_B); }
-
-	void cspmm_coo_very_sparse_naive_fp16(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float *dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB)
-	{ spmm_coo_very_sparse_naive_fp16(max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz_rows, nnz, rowsA, rowsB, colsB); }
-
-	void cspmm_coo_very_sparse_naive_int8(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float *dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB)
-	{ spmm_coo_very_sparse_naive_int8(max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz_rows, nnz, rowsA, rowsB, colsB); }
-
-	//void cgemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
-	//{ gemm_host_fp32(M, N, K, A, B, out, lda, ldb, ldc); }
-
-	void cgemm_host_fp16(int M, int N, int K, half * A,  half* B,  half * out,  int lda, int ldb, int ldc)
-	{ gemm_host_fp16(M, N, K, A, B, out, lda, ldb, ldc); }
-
-	void cgemm_4bit_inference(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, half * out,  int lda, int ldb, int ldc, int blocksize)
-	{ gemm_4bit_inference(m, n, k, A, B, absmax, out, lda, ldb, ldc, blocksize); }
-
-	void *cget_managed_ptr(size_t bytes)
-	{
-		void *ptr;
-		CUDA_CHECK_RETURN(cudaMallocManaged(&ptr, bytes, cudaMemAttachHost));
-		CUDA_CHECK_RETURN(cudaPeekAtLastError());
-
-		return ptr;
-	}
-
-	void cprefetch(void *ptr, size_t bytes, int device)
-	{
-
-		int hasPrefetch = 0;
-		CUDA_CHECK_RETURN(cudaDeviceGetAttribute(&hasPrefetch, cudaDevAttrConcurrentManagedAccess, device)); // 40ns overhead
-		if (hasPrefetch == 0) return;
-
-		CUDA_CHECK_RETURN(cudaMemPrefetchAsync(ptr, bytes, device, 0));
-		CUDA_CHECK_RETURN(cudaPeekAtLastError());
-	}
-
-  #define CMAKE_ELEMENTWISE_FUNC(fname, type_name, ctype, FUNC) \
-	void c##fname##_##type_name(ctype *A, ctype *B, ctype value, long n){ fname##_##type_name(A, B, value, n); } \
-
-	CMAKE_ELEMENTWISE_FUNC(fill, fp32, float, FILL)
-	CMAKE_ELEMENTWISE_FUNC(fill, uint8, unsigned char, FILL)
-	CMAKE_ELEMENTWISE_FUNC(arange, fp32, float, ARANGE)
-	CMAKE_ELEMENTWISE_FUNC(_mul, fp32, float, _MUL)
-
-	void cgemm_4bit_inference_naive_fp16(int m, int n, int k, half * A,  unsigned char* B,  float *absmax, float *datatype, half * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream)
-	{ gemm_4bit_inference_naive_fp16(m, n, k, A, B, absmax,  datatype, out, lda, ldb, ldc, blocksize, stream); }
-
-	void cgemm_4bit_inference_naive_bf16(int m, int n, int k, __nv_bfloat16 * A,  unsigned char* B,  float *absmax, float *datatype, __nv_bfloat16 * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream)
-	{ gemm_4bit_inference_naive_bf16(m, n, k, A, B, absmax,  datatype, out, lda, ldb, ldc, blocksize, stream); }
-
-	void cgemm_4bit_inference_naive_fp32(int m, int n, int k, float * A,  unsigned char* B,  float *absmax, float *datatype, float * out,  int lda, int ldb, int ldc, int blocksize, cudaStream_t stream)
-	{ gemm_4bit_inference_naive_fp32(m, n, k, A, B, absmax,  datatype, out, lda, ldb, ldc, blocksize, stream); }
+void cquantize(float* code, float* A, unsigned char* out, int n) { quantize(code, A, out, n); }
+
+void cdequantize(float* code, unsigned char* A, float* out, int n, cudaStream_t stream) {
+    dequantize(code, A, out, n, stream);
+}
+
+void cdequantize_blockwise_fp16_fp4(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_fp16_fp4(code, A, absmax, out, blocksize, n, stream);
+}
+
+void cdequantize_blockwise_fp16(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_fp16(code, A, absmax, out, blocksize, n, stream);
+}
+
+void cdequantize_blockwise_fp16_nf4(
+    float* code, unsigned char* A, float* absmax, half* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_fp16_nf4(code, A, absmax, out, blocksize, n, stream);
+}
+
+void cquantize_blockwise_fp16(float* code, half* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise_fp16(code, A, absmax, out, blocksize, n);
+}
+
+void cquantize_blockwise_fp16_fp4(float* code, half* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise_fp16_fp4(code, A, absmax, out, blocksize, n);
+}
+
+void cquantize_blockwise_fp16_nf4(float* code, half* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise_fp16_nf4(code, A, absmax, out, blocksize, n);
+}
+
+void cquantize_blockwise_fp32(float* code, float* A, float* absmax, unsigned char* out, int blocksize, const int n) {
+    quantizeBlockwise_fp32(code, A, absmax, out, blocksize, n);
+}
+
+void cquantize_blockwise_fp32_fp4(
+    float* code, float* A, float* absmax, unsigned char* out, int blocksize, const int n
+) {
+    quantizeBlockwise_fp32_fp4(code, A, absmax, out, blocksize, n);
+}
+
+void cquantize_blockwise_fp32_nf4(
+    float* code, float* A, float* absmax, unsigned char* out, int blocksize, const int n
+) {
+    quantizeBlockwise_fp32_nf4(code, A, absmax, out, blocksize, n);
+}
+
+void cdequantize_blockwise_fp32(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_fp32(code, A, absmax, out, blocksize, n, stream);
+}
+
+void cdequantize_blockwise_fp32_fp4(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_fp32_fp4(code, A, absmax, out, blocksize, n, stream);
+}
+
+void cdequantize_blockwise_fp32_nf4(
+    float* code, unsigned char* A, float* absmax, float* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_fp32_nf4(code, A, absmax, out, blocksize, n, stream);
+}
+
+void cquantize_blockwise_bf16(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, int blocksize, const int n
+) {
+    quantizeBlockwise_bf16(code, A, absmax, out, blocksize, n);
+}
+
+void cquantize_blockwise_bf16_fp4(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, int blocksize, const int n
+) {
+    quantizeBlockwise_bf16_fp4(code, A, absmax, out, blocksize, n);
+}
+
+void cquantize_blockwise_bf16_nf4(
+    float* code, __nv_bfloat16* A, float* absmax, unsigned char* out, int blocksize, const int n
+) {
+    quantizeBlockwise_bf16_nf4(code, A, absmax, out, blocksize, n);
+}
+
+void cdequantize_blockwise_bf16(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_bf16(code, A, absmax, out, blocksize, n, stream);
+}
+
+void cdequantize_blockwise_bf16_fp4(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_bf16_fp4(code, A, absmax, out, blocksize, n, stream);
+}
+
+void cdequantize_blockwise_bf16_nf4(
+    float* code, unsigned char* A, float* absmax, __nv_bfloat16* out, int blocksize, const int n, cudaStream_t stream
+) {
+    dequantizeBlockwise_bf16_nf4(code, A, absmax, out, blocksize, n, stream);
+}
+
+#define MAKE_CFUNC32(name, gtype, gbits)                                                                               \
+    void c##name##32bit_grad_##gbits(                                                                                  \
+        gtype* g, gtype* p, float* state1, float* state2, float* unorm, float max_unorm, float param_norm,             \
+        const float beta1, const float beta2, const float beta3, const float alpha, const float eps,                   \
+        const float weight_decay, const int step, const float lr, const float gnorm_scale, bool skip_zeros,            \
+        const int n                                                                                                    \
+    ) {                                                                                                                \
+        name##32bit_grad_##gbits(                                                                                      \
+            g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, beta3, alpha, eps, weight_decay, step,   \
+            lr, gnorm_scale, skip_zeros, n                                                                             \
+        );                                                                                                             \
+    }
+
+MAKE_CFUNC32(adam, float, fp32)
+MAKE_CFUNC32(adam, half, fp16)
+MAKE_CFUNC32(adam, __nv_bfloat16, bf16)
+MAKE_CFUNC32(momentum, float, 32)
+MAKE_CFUNC32(momentum, half, 16)
+MAKE_CFUNC32(rmsprop, float, 32)
+MAKE_CFUNC32(rmsprop, half, 16)
+MAKE_CFUNC32(lion, float, fp32)
+MAKE_CFUNC32(lion, half, fp16)
+MAKE_CFUNC32(lion, __nv_bfloat16, bf16)
+MAKE_CFUNC32(adagrad, float, 32)
+MAKE_CFUNC32(adagrad, half, 16)
+MAKE_CFUNC32(ademamix, float, fp32)
+MAKE_CFUNC32(ademamix, half, fp16)
+MAKE_CFUNC32(ademamix, __nv_bfloat16, bf16)
+
+#define MAKE_CFUNC8(name, gtype, gbits)                                                                                \
+    void c##name##_static_8bit_grad_##gbits(                                                                           \
+        gtype* p, gtype* g, unsigned char* state1, unsigned char* state2, float* unorm, float max_unorm,               \
+        float param_norm, float beta1, float beta2, float eps, int step, float lr, float* quantiles1,                  \
+        float* quantiles2, float* max1, float* max2, float* new_max1, float* new_max2, float weight_decay,             \
+        float gnorm_scale, int n                                                                                       \
+    ) {                                                                                                                \
+        name##_static_8bit_grad_##gbits(                                                                               \
+            g, p, state1, state2, unorm, max_unorm, param_norm, beta1, beta2, eps, step, lr, quantiles1, quantiles2,   \
+            max1, max2, new_max1, new_max2, weight_decay, gnorm_scale, n                                               \
+        );                                                                                                             \
+    }
+
+MAKE_CFUNC8(adam, float, 32)
+MAKE_CFUNC8(adam, half, 16)
+MAKE_CFUNC8(momentum, float, 32)
+MAKE_CFUNC8(momentum, half, 16)
+MAKE_CFUNC8(rmsprop, float, 32)
+MAKE_CFUNC8(rmsprop, half, 16)
+MAKE_CFUNC8(lion, float, 32)
+MAKE_CFUNC8(lion, half, 16)
+
+#define MAKE_CBLOCKWISE8(fname, optim_name, gtype, gbits)                                                              \
+    void c##fname##_8bit_blockwise_grad_##gbits(                                                                       \
+        gtype* p, gtype* g, unsigned char* state1, unsigned char* state2, float beta1, float beta2, float beta3,       \
+        float alpha, float eps, int step, float lr, float* quantiles1, float* quantiles2, float* absmax1,              \
+        float* absmax2, float weight_decay, const float gnorm_scale, bool skip_zeros, int n                            \
+    ) {                                                                                                                \
+        fname##_8bit_blockwise_grad_##gbits(                                                                           \
+            p, g, state1, state2, beta1, beta2, beta3, alpha, eps, step, lr, quantiles1, quantiles2, absmax1, absmax2, \
+            weight_decay, gnorm_scale, skip_zeros, n                                                                   \
+        );                                                                                                             \
+    }
+
+MAKE_CBLOCKWISE8(adam, ADAM, half, fp16)
+MAKE_CBLOCKWISE8(adam, ADAM, float, fp32)
+MAKE_CBLOCKWISE8(adam, ADAM, __nv_bfloat16, bf16)
+MAKE_CBLOCKWISE8(momentum, MOMENTUM, half, fp16)
+MAKE_CBLOCKWISE8(momentum, MOMENTUM, float, fp32)
+MAKE_CBLOCKWISE8(momentum, MOMENTUM, __nv_bfloat16, bf16)
+MAKE_CBLOCKWISE8(rmsprop, RMSPROP, half, fp16)
+MAKE_CBLOCKWISE8(rmsprop, RMSPROP, float, fp32)
+MAKE_CBLOCKWISE8(rmsprop, RMSPROP, __nv_bfloat16, bf16)
+MAKE_CBLOCKWISE8(adagrad, ADAGRAD, half, fp16)
+MAKE_CBLOCKWISE8(adagrad, ADAGRAD, float, fp32)
+MAKE_CBLOCKWISE8(adagrad, ADAGRAD, __nv_bfloat16, bf16)
+MAKE_CBLOCKWISE8(lion, LION, half, fp16)
+MAKE_CBLOCKWISE8(lion, LION, float, fp32)
+MAKE_CBLOCKWISE8(lion, LION, __nv_bfloat16, bf16)
+MAKE_CBLOCKWISE8(ademamix, ADEMAMIX, half, fp16)
+MAKE_CBLOCKWISE8(ademamix, ADEMAMIX, float, fp32)
+MAKE_CBLOCKWISE8(ademamix, ADEMAMIX, __nv_bfloat16, bf16)
+
+void cpercentile_clipping_g32(float* g, float* gnorm_vec, int step, const int n) {
+    percentileClipping_g32(g, gnorm_vec, step, n);
+}
+
+void cpercentile_clipping_g16(half* g, float* gnorm_vec, int step, const int n) {
+    percentileClipping_g16(g, gnorm_vec, step, n);
+}
+
+void cigemm(
+    Context* context, bool transposeA, bool transposeB, int m, int n, int k, void* A, void* B, void* C, int lda,
+    int ldb, int ldc
+) {
+    gemmex(context, transposeA, transposeB, m, n, k, A, B, C, lda, ldb, ldc);
+}
+
+void cbatched_igemm(
+    Context* context, bool transposeA, bool transposeB, int m, int n, int k, void* A, void* B, void* C, int lda,
+    int ldb, int ldc, long strideA, long strideB, long strideC, int batchCount
+) {
+    strided_gemmex(
+        context, transposeA, transposeB, m, n, k, A, B, C, lda, ldb, ldc, strideA, strideB, strideC, batchCount
+    );
+}
+
+Context* get_context() { return new Context(); }
+
+ContextCusparse* get_cusparse() { return new ContextCusparse(); }
+
+int cigemmlt_32(
+    Context* context, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale, int lda,
+    int ldb, int ldc, cudaStream_t stream
+) {
+    return igemmlt_32((cublasLtHandle_t)context->m_handle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
+}
+
+int cigemmlt_8(
+    Context* context, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale, int lda,
+    int ldb, int ldc, cudaStream_t stream
+) {
+    return igemmlt_8((cublasLtHandle_t)context->m_handle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
+}
+
+int cigemmlt_8_rowscale(
+    Context* context, int m, int n, int k, const int8_t* A, const int8_t* B, void* C, float* row_scale, int lda,
+    int ldb, int ldc, cudaStream_t stream
+) {
+    return igemmlt_8_rowscale((cublasLtHandle_t)context->m_handle, m, n, k, A, B, C, row_scale, lda, ldb, ldc, stream);
+}
+
+void cdequant_mm_int32_fp16(
+    int* A, float* rowStats, float* colStats, half* out, half* bias, int numRows, int numCols, cudaStream_t stream
+) {
+    dequant_mm_int32_fp16(A, rowStats, colStats, out, bias, numRows, numCols, stream);
+}
+
+void cget_row_stats(half* A, float* rowStats, float threshold, int rows, int cols, cudaStream_t stream) {
+    getRowStats(A, rowStats, threshold, rows, cols, stream);
+}
+
+void cint8_vector_quant(
+    half* __restrict__ A, int8_t* out, float* rowStats, float threshold, int rows, int cols, cudaStream_t stream
+) {
+    int8VectorQuant(A, out, rowStats, threshold, rows, cols, stream);
+}
+
+void cspmm_coo(
+    ContextCusparse* context, int* A_rowidx, int* A_colidx, half* A_vals, int A_nnz, int A_rows, int A_cols, int B_cols,
+    int ldb, half* B, int ldc, half* C, bool transposed_B
+) {
+    spmm_coo(
+        (cusparseHandle_t)context->m_handle, A_rowidx, A_colidx, A_vals, A_nnz, A_rows, A_cols, B_cols, ldb, B, ldc, C,
+        transposed_B
+    );
+}
+
+void cspmm_coo_very_sparse_naive_fp16(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, half* B, half* out,
+    float* dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB
+) {
+    spmm_coo_very_sparse_naive_fp16(
+        max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz_rows, nnz, rowsA, rowsB,
+        colsB
+    );
+}
+
+void cspmm_coo_very_sparse_naive_int8(
+    int* max_count, int* max_idx, int* offset_rowidx, int* rowidx, int* colidx, half* values, signed char* B, half* out,
+    float* dequant_stats, int nnz_rows, int nnz, int rowsA, int rowsB, int colsB
+) {
+    spmm_coo_very_sparse_naive_int8(
+        max_count, max_idx, offset_rowidx, rowidx, colidx, values, B, out, dequant_stats, nnz_rows, nnz, rowsA, rowsB,
+        colsB
+    );
+}
+
+// void cgemm_host_fp32(int M, int N, int K, float * A,  float* B,  float * out,  int lda, int ldb, int ldc)
+//{ gemm_host_fp32(M, N, K, A, B, out, lda, ldb, ldc); }
+
+void cgemm_host_fp16(int M, int N, int K, half* A, half* B, half* out, int lda, int ldb, int ldc) {
+    gemm_host_fp16(M, N, K, A, B, out, lda, ldb, ldc);
+}
+
+void cgemm_4bit_inference(
+    int m, int n, int k, half* A, unsigned char* B, float* absmax, half* out, int lda, int ldb, int ldc, int blocksize
+) {
+    gemm_4bit_inference(m, n, k, A, B, absmax, out, lda, ldb, ldc, blocksize);
+}
+
+void* cget_managed_ptr(size_t bytes) {
+    void* ptr;
+    CUDA_CHECK_RETURN(cudaMallocManaged(&ptr, bytes, cudaMemAttachHost));
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
+
+    return ptr;
+}
+
+void cprefetch(void* ptr, size_t bytes, int device) {
+
+    int hasPrefetch = 0;
+    CUDA_CHECK_RETURN(
+        cudaDeviceGetAttribute(&hasPrefetch, cudaDevAttrConcurrentManagedAccess, device)
+    ); // 40ns overhead
+    if (hasPrefetch == 0)
+        return;
+
+    CUDA_CHECK_RETURN(cudaMemPrefetchAsync(ptr, bytes, device, 0));
+    CUDA_CHECK_RETURN(cudaPeekAtLastError());
+}
+
+#define CMAKE_ELEMENTWISE_FUNC(fname, type_name, ctype, FUNC)                                                          \
+    void c##fname##_##type_name(ctype* A, ctype* B, ctype value, long n) { fname##_##type_name(A, B, value, n); }
+
+CMAKE_ELEMENTWISE_FUNC(fill, fp32, float, FILL)
+CMAKE_ELEMENTWISE_FUNC(fill, uint8, unsigned char, FILL)
+CMAKE_ELEMENTWISE_FUNC(arange, fp32, float, ARANGE)
+CMAKE_ELEMENTWISE_FUNC(_mul, fp32, float, _MUL)
+
+void cgemm_4bit_inference_naive_fp16(
+    int m, int n, int k, half* A, unsigned char* B, float* absmax, float* datatype, half* out, int lda, int ldb,
+    int ldc, int blocksize, cudaStream_t stream
+) {
+    gemm_4bit_inference_naive_fp16(m, n, k, A, B, absmax, datatype, out, lda, ldb, ldc, blocksize, stream);
+}
+
+void cgemm_4bit_inference_naive_bf16(
+    int m, int n, int k, __nv_bfloat16* A, unsigned char* B, float* absmax, float* datatype, __nv_bfloat16* out,
+    int lda, int ldb, int ldc, int blocksize, cudaStream_t stream
+) {
+    gemm_4bit_inference_naive_bf16(m, n, k, A, B, absmax, datatype, out, lda, ldb, ldc, blocksize, stream);
+}
+
+void cgemm_4bit_inference_naive_fp32(
+    int m, int n, int k, float* A, unsigned char* B, float* absmax, float* datatype, float* out, int lda, int ldb,
+    int ldc, int blocksize, cudaStream_t stream
+) {
+    gemm_4bit_inference_naive_fp32(m, n, k, A, B, absmax, datatype, out, lda, ldb, ldc, blocksize, stream);
+}

 #endif

-	void cquantize_blockwise_cpu_fp32(float *code, float *A, float *absmax, unsigned char *out, long long blocksize, long long n){ quantize_cpu(code, A, absmax, out, blocksize, n); }
-	void cdequantize_blockwise_cpu_fp32(float *code, unsigned char *A, float *absmax, float *out, long long blocksize, long long n){ dequantize_cpu(code, A, absmax, out, blocksize, n); }
+void cquantize_blockwise_cpu_fp32(
+    float* code, float* A, float* absmax, unsigned char* out, long long blocksize, long long n
+) {
+    quantize_cpu(code, A, absmax, out, blocksize, n);
+}
+
+void cdequantize_blockwise_cpu_fp32(
+    float* code, unsigned char* A, float* absmax, float* out, long long blocksize, long long n
+) {
+    dequantize_cpu(code, A, absmax, out, blocksize, n);
+}
 }