fixed merge issue. fp8xint4 and fp8xint4_bpreshuffle function pass.

966f9051 · mtgu0705 · 49bac8ce · 966f9051 · 966f9051 · 966f9051
Commit 966f9051 authored Feb 18, 2025 by mtgu0705
3 changed files
--- a/include/ck/tensor_operation/gpu/block/blockwise_gemm_pipeline_xdlops_b_preshuffle_selector.hpp
+++ b/include/ck/tensor_operation/gpu/block/blockwise_gemm_pipeline_xdlops_b_preshuffle_selector.hpp
@@ -9,15 +9,6 @@

 namespace ck {

-enum struct BlockGemmPipelineVersion
-{
-    v1, // Naive
-    v2, // Mem
-    v3, // Comp
-    v4, // Comp, double lds buffer
-    v5, // Comp, double global prefetch register buffer
-};
-
 template <BlockGemmPipelineVersion BlkGemmPipelineVer,
          BlockGemmPipelineScheduler BlkGemmPipeSche,
          index_t BlockSize,

--- a/include/ck/tensor_operation/gpu/block/blockwise_gemm_pipeline_xdlops_base.hpp
+++ b/include/ck/tensor_operation/gpu/block/blockwise_gemm_pipeline_xdlops_base.hpp
@@ -125,17 +125,6 @@ struct BlockwiseGemmXdlops_pipeline_base
        return make_tuple(0, waveId_m, xdlops_a_idx[I1], 0, xdlops_a_idx[I0], 0);
    }

-    __device__ static auto CalculateAThreadOriginDataIndex6D()
-    {
-        const auto wave_idx = GetWaveIdx();
-
-        const auto waveId_m = wave_idx[I0];
-
-        const auto xdlops_a_idx = xdlops_gemm.CalculateAThreadOriginDataIndex();
-
-        return make_tuple(0, waveId_m, xdlops_a_idx[I1], 0, xdlops_a_idx[I0], 0);
-    }
-
    __device__ static auto CalculateBThreadOriginDataIndex()
    {
        const auto wave_idx = GetWaveIdx();

--- a/include/ck/tensor_operation/gpu/thread/threadwise_tensor_slice_transfer.hpp
+++ b/include/ck/tensor_operation/gpu/thread/threadwise_tensor_slice_transfer.hpp
@@ -287,74 +287,6 @@ struct ThreadwiseTensorSliceTransfer_v2
        // loop over tensor and copy
        constexpr auto num_access = SpaceFillingCurve::GetNumOfAccess();
        
-#if 0
-        if constexpr(is_same<remove_cvref_t<SrcData>, pk_i4_t>::value)
-        {
-            static_for<0, num_access, 1>{}([&](auto idx_1d) {
-                typename vector_type_maker<SrcData, SrcScalarPerVector / PackedSize>::type src_tmp_vector;
-
-                using src_vector_t = typename decltype(src_tmp_vector)::type;
-
-                constexpr auto src_data_idx = SpaceFillingCurve::GetIndex(idx_1d);
-
-                const bool is_src_valid =
-                    coordinate_has_valid_offset_assuming_visible_index_is_valid(src_desc, src_coord_);
-
-                // copy data from src_buf into src_tmp_vector
-                src_tmp_vector.template AsType<src_vector_t>()(Number<0>{}) =
-                    src_buf.template Get<src_vector_t>(src_coord_.GetOffset() / PackedSize,
-                                                       is_src_valid);
-
-                // copy data from src_tmp_vector to dst_tmp_vector (data cast data from SrcData to
-                // DstData)
-                vector_type_maker_t<DstData, SrcScalarPerVector> dst_tmp_vector;
-
-                constexpr index_t pack_size = 8;
-
-                static_assert(SrcScalarPerVector % pack_size == 0, "");
-
-                using src_v_t = typename vector_type_maker_t<SrcData, pack_size / PackedSize>::type;
-                using dst_v_t = typename vector_type_maker_t<DstData, pack_size>::type;
-
-                static_for<0, SrcScalarPerVector / pack_size, 1>{}([&](auto i) {
-                    ck::tensor_operation::element_wise::PassThroughPack8{}(
-                        dst_tmp_vector.template AsType<dst_v_t>()(i),
-                        src_tmp_vector.template AsType<src_v_t>()[i]);
-                });
-
-                // copy data from dst_tmp_vector into dst_buf
-                static_for<0, SrcScalarPerVector, 1>{}([&](auto i) {
-                    constexpr index_t dst_offset =
-                        dst_desc.CalculateOffset(to_multi_index(dst_slice_origin_idx) + src_data_idx +
-                                                i * src_scalar_step_in_vector);
-
-                    if constexpr(InvalidElementAsNaN)
-                    {
-                        dst_buf(Number<dst_offset>{}) =
-                            is_src_valid
-                                ? dst_tmp_vector.template AsType<DstData>()[i]
-                                : NumericLimits<DstData>::QuietNaN();
-                    }
-                    else
-                    {
-                        dst_buf(Number<dst_offset>{}) =
-                            dst_tmp_vector.template AsType<DstData>()[i];
-                            // type_convert<DstData>(src_vector.template AsType<SrcData>()[i]);
-                    }
-                });
-
-                if constexpr(idx_1d.value != num_access - 1)
-                {
-                    constexpr auto forward_step = SpaceFillingCurve::GetForwardStep(idx_1d);
-
-                    move_tensor_coordinate(
-                        src_desc, src_coord_, make_tensor_coordinate_step(src_desc, forward_step));
-                }
-            });
-        }
-        else
-#endif
-        {
        static_for<0, num_access, 1>{}([&](auto idx_1d) {
            typename vector_type_maker<SrcData, SrcScalarPerVector / PackedSize>::type src_vector;

@@ -397,7 +329,6 @@ struct ThreadwiseTensorSliceTransfer_v2
                    src_desc, src_coord_, make_tensor_coordinate_step(src_desc, forward_step));
            }
        });
-        } 

        // move src coordinate back to slice origin (or not)
        if constexpr(SrcResetCoordinateAfterRun)