Enable batch tests for streamK (intel#258)

aacostadiaz · jiyang1011 · web-flow · commit 69d7197e4737 · 2025-05-11T08:52:25.000+01:00
This PR enables the unit tests for StreamK to use batch sizes != 1. They
were disabled due to an issue with the alignment for the copy operations
used in the unit test. This PR re-enables the tests by removing the
alignment in the problem_size_k calculation. The alignment issue will be
fixed once the changes to use the SPIR-V copy functions are complete.

Co-authored-by: jiyang1011 &lt;110882834+jiyang1011@users.noreply.github.com&gt;
diff --git a/test/unit/gemm/device/gemm_testbed_3x.hpp b/test/unit/gemm/device/gemm_testbed_3x.hpp
@@ -4060,7 +4060,7 @@ bool TestXe(
 
     // Use larger K sizes for stream-K tests
     static constexpr int min_tiles_per_sk_unit = cutlass::gemm::kernel::detail::PersistentTileSchedulerXeStreamKParams::min_iters_per_sk_unit_;
-    problem_size_k = {TileShapeK * min_tiles_per_sk_unit, TileShapeK * 3 * min_tiles_per_sk_unit - max_alignment};
+    problem_size_k = {TileShapeK * min_tiles_per_sk_unit, TileShapeK * 3 * min_tiles_per_sk_unit};
   }
 
   using RasterOrderOptions = typename cutlass::gemm::kernel::detail::PersistentTileSchedulerSm90::RasterOrderOptions;
@@ -4076,7 +4076,7 @@ bool TestXe(
           for (auto raster_order : raster_orders) {
             for (auto max_swizzle_size : max_swizzle_sizes) {
               for (DecompositionMode decomp_mode : decomposition_modes) {
-                            std::vector problem_splits = {detail::Splits{1}};
+                std::vector problem_splits = {detail::Splits{1}};
                 if (decomp_mode == DecompositionMode::Heuristic || decomp_mode == DecompositionMode::SplitK) {
                   auto max_splits = (k + TileShapeK - 1) / TileShapeK;
                   if (max_splits > 2) {
diff --git a/test/unit/gemm/device/gemm_universal_s8t_bf16n_f32t_mixed_input_tensor_op_f32_xe.cpp b/test/unit/gemm/device/gemm_universal_s8t_bf16n_f32t_mixed_input_tensor_op_f32_xe.cpp
@@ -131,8 +131,7 @@ TEST(XE_Device_GemmUniversal_s8t_bf16n_f32t_mixed_input_tensor_op_f32, 128x128x6
 
   using Gemm = cutlass::gemm::device::GemmUniversalAdapter<GemmKernel>;
 
-  // TODO(Codeplay): gemm batch doesn't work for mixed type
-  bool passed = test::gemm::device::TestXe<Gemm>(1.0, 1.0);
+  bool passed = test::gemm::device::TestXe<Gemm>();
   EXPECT_TRUE(passed);
 }
 ////////////////////////////////////////////////////////////////////////////////
diff --git a/test/unit/gemm/device/xe_gemm_bf16_bf16_fp32_tensor_op_fp32_cooperative.cpp b/test/unit/gemm/device/xe_gemm_bf16_bf16_fp32_tensor_op_fp32_cooperative.cpp
@@ -76,28 +76,28 @@ TEST(XE_Device_Gemm_bf16t_bf16t_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using Gemm = XE_Device_Gemm_bf16_bf16_f32_tensor_op_f32_cooperative<
     layout::RowMajor, layout::RowMajor>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_bf16n_bf16t_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using Gemm = XE_Device_Gemm_bf16_bf16_f32_tensor_op_f32_cooperative<
     layout::ColumnMajor, layout::RowMajor>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_bf16t_bf16n_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using Gemm = XE_Device_Gemm_bf16_bf16_f32_tensor_op_f32_cooperative<
     layout::RowMajor, layout::ColumnMajor>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_bf16n_bf16n_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using Gemm = XE_Device_Gemm_bf16_bf16_f32_tensor_op_f32_cooperative<
     layout::ColumnMajor, layout::ColumnMajor>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 }
 } // namespace cutlass
diff --git a/test/unit/gemm/device/xe_gemm_bf16_bf16_fp32_tensor_op_fp32_evt.cpp b/test/unit/gemm/device/xe_gemm_bf16_bf16_fp32_tensor_op_fp32_evt.cpp
@@ -164,7 +164,7 @@ TEST(XE_Device_Gemm_bf16t_bf16t_f32_tensor_op_gmma_f32_epilogue, 256x256x32_LinC
 
   using Gemm = XE_Device_Gemm_bf16_bf16_f32_tensor_op_gmma_f32_epilogue<CollectiveEpilogue>::Gemm;
 
-  bool passed = test::gemm::device::TestXe<Gemm>(1.0, 0.0);
+  bool passed = test::gemm::device::TestXe<Gemm>();
   EXPECT_TRUE(passed);
 }
 
diff --git a/test/unit/gemm/device/xe_gemm_fp16_fp16_fp32_tensor_op_fp32_cooperative.cpp b/test/unit/gemm/device/xe_gemm_fp16_fp16_fp32_tensor_op_fp32_cooperative.cpp
@@ -78,31 +78,31 @@ TEST(XE_Device_Gemm_fp16t_fp16t_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using LayoutB = layout::RowMajor;
   using Gemm = XE_Device_Gemm_fp16_fp16_f32_tensor_op_f32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_fp16n_fp16t_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using LayoutA = layout::ColumnMajor;
   using LayoutB = layout::RowMajor;
   using Gemm = XE_Device_Gemm_fp16_fp16_f32_tensor_op_f32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_fp16t_fp16n_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using LayoutA = layout::RowMajor;
   using LayoutB = layout::ColumnMajor;
   using Gemm = XE_Device_Gemm_fp16_fp16_f32_tensor_op_f32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_fp16n_fp16n_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using LayoutA = layout::ColumnMajor;
   using LayoutB = layout::ColumnMajor;
   using Gemm = XE_Device_Gemm_fp16_fp16_f32_tensor_op_f32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 }
 } // namespace cutlass
diff --git a/test/unit/gemm/device/xe_gemm_s8_s8_s32_tensor_op_s32_cooperative.cpp b/test/unit/gemm/device/xe_gemm_s8_s8_s32_tensor_op_s32_cooperative.cpp
@@ -77,7 +77,7 @@ TEST(XE_Device_Gemm_s8t_s8t_s32t_tensor_op_s32_cooperative, 64x128x32) {
   using LayoutB = layout::RowMajor;
   using Gemm = XE_Device_Gemm_s8_s8_s32_tensor_op_s32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 /* TODO(Codeplay): Transposed copy are not implemented
@@ -86,23 +86,23 @@ TEST(XE_Device_Gemm_s8n_s8t_s32t_tensor_op_s32_cooperative, 64x128x32) {
   using LayoutB = layout::RowMajor;
   using Gemm = XE_Device_Gemm_s8_s8_s32_tensor_op_s32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_s8t_s8n_s32t_tensor_op_s32_cooperative, 64x128x32) {
   using LayoutA = layout::RowMajor;
   using LayoutB = layout::ColumnMajor;
   using Gemm = XE_Device_Gemm_s8_s8_s32_tensor_op_s32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_s8n_s8n_s32t_tensor_op_s32_cooperative, 64x128x32) {
   using LayoutA = layout::ColumnMajor;
   using LayoutB = layout::ColumnMajor;
   using Gemm = XE_Device_Gemm_s8_s8_s32_tensor_op_s32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 */
 }
diff --git a/test/unit/gemm/device/xe_gemm_tf32_tf32_fp32_tensor_op_fp32_cooperative.cpp b/test/unit/gemm/device/xe_gemm_tf32_tf32_fp32_tensor_op_fp32_cooperative.cpp
@@ -79,7 +79,7 @@ TEST(XE_Device_Gemm_tf32t_tf32t_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using LayoutB = layout::RowMajor;
   using Gemm = XE_Device_Gemm_tf32_tf32_f32_tensor_op_f32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 /* TODO(Codeplay): missing copy transpose builtin and prefetch builtin
@@ -88,23 +88,23 @@ TEST(XE_Device_Gemm_tf32n_tf32t_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using LayoutB = layout::RowMajor;
   using Gemm = XE_Device_Gemm_tf32_tf32_f32_tensor_op_f32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_tf32t_tf32n_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using LayoutA = layout::RowMajor;
   using LayoutB = layout::ColumnMajor;
   using Gemm = XE_Device_Gemm_tf32_tf32_f32_tensor_op_f32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 
 TEST(XE_Device_Gemm_tf32n_tf32n_f32t_tensor_op_f32_cooperative, 256x256x32) {
   using LayoutA = layout::ColumnMajor;
   using LayoutB = layout::ColumnMajor;
   using Gemm = XE_Device_Gemm_tf32_tf32_f32_tensor_op_f32_cooperative<LayoutA, LayoutB>::Gemm;
   // TODO(Codeplay): Enable batch tests
-  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>(1.0, 0.0, false));
+  EXPECT_TRUE(test::gemm::device::TestXe<Gemm>());
 }
 */
 }

Original file line number	Diff line number	Diff line change
`@@ -131,8 +131,7 @@ TEST(XE_Device_GemmUniversal_s8t_bf16n_f32t_mixed_input_tensor_op_f32, 128x128x6`
`131`	`131`
`132`	`132`	`using Gemm = cutlass::gemm::device::GemmUniversalAdapter<GemmKernel>;`
`133`	`133`
`134`		`- // TODO(Codeplay): gemm batch doesn't work for mixed type`
`135`		`- bool passed = test::gemm::device::TestXe<Gemm>(1.0, 1.0);`
	`134`	`+ bool passed = test::gemm::device::TestXe<Gemm>();`
`136`	`135`	`EXPECT_TRUE(passed);`
`137`	`136`	`}`
`138`	`137`	`////////////////////////////////////////////////////////////////////////////////`
Original file line number	Diff line number	Diff line change
`@@ -164,7 +164,7 @@ TEST(XE_Device_Gemm_bf16t_bf16t_f32_tensor_op_gmma_f32_epilogue, 256x256x32_LinC`
`164`	`164`
`165`	`165`	`using Gemm = XE_Device_Gemm_bf16_bf16_f32_tensor_op_gmma_f32_epilogue<CollectiveEpilogue>::Gemm;`
`166`	`166`
`167`		`- bool passed = test::gemm::device::TestXe<Gemm>(1.0, 0.0);`
	`167`	`+ bool passed = test::gemm::device::TestXe<Gemm>();`
`168`	`168`	`EXPECT_TRUE(passed);`
`169`	`169`	`}`
`170`	`170`