Use the upstreamed host_shared flag for gpu.alloc (#412)

nbpatel · web-flow · commit dc2cd0c967d2 · 2022-10-25T14:19:00.000-07:00
Use host_shared flag for gpu.alloc
diff --git a/docs/Transforms/InsertGpuAllocs.md b/docs/Transforms/InsertGpuAllocs.md
@@ -35,9 +35,9 @@ The Pass will change the IR to:
 ```
 // -----// IR Dump After {anonymous}::InsertGPUAllocs //----- //
 func.func @main() {
-  %memref = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
-  %memref_2 = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
-  %memref_3 = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
+  %memref = gpu.alloc host_shared () : memref<8xf32>
+  %memref_2 = gpu.alloc host_shared () : memref<8xf32>
+  %memref_3 = gpu.alloc host_shared () : memref<8xf32>
   .
   .
   .
diff --git a/docs/Transforms/SetSPIRVCapabilities.md b/docs/Transforms/SetSPIRVCapabilities.md
@@ -19,9 +19,9 @@ module attributes {gpu.container_module} {
     %cst = arith.constant 2.200000e+00 : f32
     %cst_0 = arith.constant 1.100000e+00 : f32
     %cst_1 = arith.constant 0.000000e+00 : f32
-    %memref = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
-    %memref_2 = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
-    %memref_3 = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
+    %memref = gpu.alloc host_shared () : memref<8xf32>
+    %memref_2 = gpu.alloc host_shared () : memref<8xf32>
+    %memref_3 = gpu.alloc host_shared () : memref<8xf32>
     %0 = memref.cast %memref : memref<8xf32> to memref<?xf32>
     %1 = memref.cast %memref_2 : memref<8xf32> to memref<?xf32>
     %2 = memref.cast %memref_3 : memref<8xf32> to memref<?xf32>
@@ -46,9 +46,9 @@ module attributes {gpu.container_module, spv.target_env = #spv.target_env<#spv.v
     %cst = arith.constant 2.200000e+00 : f32
     %cst_0 = arith.constant 1.100000e+00 : f32
     %cst_1 = arith.constant 0.000000e+00 : f32
-    %memref = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
-    %memref_2 = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
-    %memref_3 = gpu.alloc  () {gpu.alloc_shared} : memref<8xf32>
+    %memref = gpu.alloc host_shared () : memref<8xf32>
+    %memref_2 = gpu.alloc host_shared () : memref<8xf32>
+    %memref_3 = gpu.alloc host_shared () : memref<8xf32>
     %0 = memref.cast %memref : memref<8xf32> to memref<?xf32>
     %1 = memref.cast %memref_2 : memref<8xf32> to memref<?xf32>
     %2 = memref.cast %memref_3 : memref<8xf32> to memref<?xf32>
diff --git a/include/imex/Dialect/GPUX/IR/GPUXOps.td b/include/imex/Dialect/GPUX/IR/GPUXOps.td
@@ -177,7 +177,9 @@ def GPUX_AllocOp
 
   let arguments = (ins Variadic<GPU_AsyncToken>:$asyncDependencies,
                    GPUX_StreamType:$gpux_stream,
-                   Variadic<Index>:$dynamicSizes, Variadic<Index>:$symbolOperands);
+                   Variadic<Index>:$dynamicSizes,
+                   Variadic<Index>:$symbolOperands,
+                   UnitAttr:$hostShared);
   let results = (outs Res<AnyMemRef, "", [MemAlloc]>:$memref,
                  Optional<GPU_AsyncToken>:$asyncToken);
 }
diff --git a/lib/Conversion/GPUToGPUX/GPUToGPUX.cpp b/lib/Conversion/GPUToGPUX/GPUToGPUX.cpp
@@ -66,11 +66,12 @@ struct ConvertAllocOp : public mlir::OpRewritePattern<mlir::gpu::AllocOp> {
     if (!stream)
       return mlir::failure();
 
+    auto hostShared = op.getHostShared();
     mlir::Type token =
         op.getAsyncToken() ? op.getAsyncToken().getType() : nullptr;
     rewriter.replaceOpWithNewOp<imex::gpux::AllocOp>(
         op, op.getType(), token, op.getAsyncDependencies(), stream,
-        op.getDynamicSizes(), op.getSymbolOperands());
+        op.getDynamicSizes(), op.getSymbolOperands(), hostShared);
 
     return mlir::success();
   }
diff --git a/lib/Transforms/InsertGpuAllocs.cpp b/lib/Transforms/InsertGpuAllocs.cpp
@@ -29,8 +29,6 @@
 
 namespace imex {
 
-mlir::StringRef getAllocSharedAttrName() { return "gpu.alloc_shared"; }
-
 struct InsertGPUAllocs
     : public mlir::PassWrapper<InsertGPUAllocs,
                                mlir::OperationPass<mlir::func::FuncOp>> {
@@ -235,17 +233,14 @@ struct InsertGPUAllocs
       auto access = getAccessType(alloc);
       auto loc = alloc.getLoc();
       builder.setInsertionPoint(alloc);
+      bool hostShared = access.hostRead || access.hostWrite;
       auto gpuAlloc = builder.create<mlir::gpu::AllocOp>(
           loc, alloc.getType(), /*asyncToken*/ nullptr,
           /*asyncDependencies*/ llvm::None, alloc.getDynamicSizes(),
-          alloc.getSymbolOperands());
+          alloc.getSymbolOperands(), hostShared);
       auto allocResult = gpuAlloc.getResult(0);
       alloc->replaceAllUsesWith(gpuAlloc);
       alloc.erase();
-      if (access.hostRead || access.hostWrite)
-        gpuAlloc->setAttr(imex::getAllocSharedAttrName(),
-                          builder.getUnitAttr());
-
       builder.setInsertionPoint(term);
 
       builder.create<mlir::gpu::DeallocOp>(loc, llvm::None, allocResult);
@@ -273,14 +268,12 @@ struct InsertGPUAllocs
       auto allocType = mlir::MemRefType::get(
           memrefType.getShape(), memrefType.getElementType(),
           mlir::MemRefLayoutAttrInterface{}, memrefType.getMemorySpace());
+      bool hostShared = access.hostRead || access.hostWrite;
       auto gpuAlloc = builder.create<mlir::gpu::AllocOp>(
           loc, allocType, /*asyncToken*/ nullptr,
           /*asyncDependencies*/ llvm::None, dims,
-          /*symbolOperands*/ llvm::None);
+          /*symbolOperands*/ llvm::None, hostShared);
       auto allocResult = gpuAlloc.getResult(0);
-      if (access.hostRead || access.hostWrite)
-        gpuAlloc->setAttr(imex::getAllocSharedAttrName(),
-                          builder.getUnitAttr());
 
       if (access.hostWrite && access.deviceRead) {
         auto copy = builder.create<mlir::memref::CopyOp>(loc, op, allocResult);
diff --git a/test/Transforms/InsertGpuAllocs/add-gpu-alloc.mlir b/test/Transforms/InsertGpuAllocs/add-gpu-alloc.mlir
@@ -5,13 +5,13 @@ func.func @addt(%arg0: memref<2x5xf32>, %arg1: memref<2x5xf32>) -> memref<2x5xf3
   %c2 = arith.constant 2 : index
   %c1 = arith.constant 1 : index
   %c5 = arith.constant 5 : index
-  // CHECK: %[[MEMREF0:.*]]= gpu.alloc  () {gpu.alloc_shared} : memref<2x5xf32>
+  // CHECK: %[[MEMREF0:.*]]= gpu.alloc host_shared () : memref<2x5xf32>
   // CHECK: memref.copy %arg1, %[[MEMREF0:.*]] : memref<2x5xf32> to memref<2x5xf32>
-  // CHECK: %[[MEMREF1:.*]]= gpu.alloc  () {gpu.alloc_shared} : memref<2x5xf32>
+  // CHECK: %[[MEMREF1:.*]]= gpu.alloc host_shared () : memref<2x5xf32>
   // CHECK: memref.copy %arg0, %[[MEMREF1:.*]] : memref<2x5xf32> to memref<2x5xf32>
 
   %0 = memref.alloc() {alignment = 128 : i64} : memref<2x5xf32>
-  // CHECK:  %[[MEMREF2:.*]] = gpu.alloc  () {gpu.alloc_shared} : memref<2x5xf32>
+  // CHECK:  %[[MEMREF2:.*]] = gpu.alloc host_shared () : memref<2x5xf32>
 
   %c1_0 = arith.constant 1 : index
   %1 = affine.apply affine_map<(d0)[s0, s1] -> ((d0 - s0) ceildiv s1)>(%c2)[%c0, %c1]
diff --git a/test/Transforms/InsertGpuAllocs/dynamic-dims.mlir b/test/Transforms/InsertGpuAllocs/dynamic-dims.mlir
@@ -7,7 +7,7 @@ func.func @addt(%arg0: memref<2x5xf32>, %arg1: memref<?x?xf32>) -> memref<2x5xf3
   %c5 = arith.constant 5 : index
   // CHECK: [[VAR0:.*]] = memref.dim %arg1, %c0 : memref<?x?xf32>
   // CHECK: [[VAR1:.*]] = memref.dim %arg1, %c1 : memref<?x?xf32>
-  // CHECK: %[[MEMREF0:.*]] = gpu.alloc ([[VAR0:.*]], [[VAR1:.*]]) {gpu.alloc_shared} : memref<?x?xf32>
+  // CHECK: %[[MEMREF0:.*]] = gpu.alloc host_shared ([[VAR0:.*]], [[VAR1:.*]]) : memref<?x?xf32>
   %0 = memref.alloc() {alignment = 128 : i64} : memref<2x5xf32>
   %c1_0 = arith.constant 1 : index
   %1 = affine.apply affine_map<(d0)[s0, s1] -> ((d0 - s0) ceildiv s1)>(%c2)[%c0, %c1]
diff --git a/test/Transforms/InsertGpuAllocs/memref-get-global.mlir b/test/Transforms/InsertGpuAllocs/memref-get-global.mlir
@@ -15,12 +15,12 @@ func.func @addt(%arg0: memref<2x5xf32>, %arg1: memref<2x5xf32>) -> memref<2x5xf3
   %2 = memref.alloc() {alignment = 128 : i64} : memref<2x5xf32>
 
   // CHECK: [[VAR0:.*]] = memref.get_global @__constant_2x5xf32 : memref<2x5xf32>
-  // CHECK: %[[MEMREF0:.*]] = gpu.alloc  () {gpu.alloc_shared} : memref<2x5xf32>
+  // CHECK: %[[MEMREF0:.*]] = gpu.alloc host_shared () : memref<2x5xf32>
   // CHECK: memref.copy [[VAR0:.*]], %[[MEMREF0:.*]] : memref<2x5xf32> to memref<2x5xf32>
   // CHECK: [[VAR1:.*]] = memref.get_global @__constant_2x5xf32_0 : memref<2x5xf32>
-  // CHECK: %[[MEMREF1:.*]] = gpu.alloc  () {gpu.alloc_shared} : memref<2x5xf32>
+  // CHECK: %[[MEMREF1:.*]] = gpu.alloc host_shared () : memref<2x5xf32>
   // CHECK: memref.copy [[VAR1:.*]], %[[MEMREF1:.*]] : memref<2x5xf32> to memref<2x5xf32>
-  // CHECK: %[[MEMREF2:.*]] = gpu.alloc  () {gpu.alloc_shared} : memref<2x5xf32>
+  // CHECK: %[[MEMREF2:.*]] = gpu.alloc host_shared () : memref<2x5xf32>
 
   %c1_0 = arith.constant 1 : index
   %3 = affine.apply affine_map<(d0)[s0, s1] -> ((d0 - s0) ceildiv s1)>(%c2)[%c0, %c1]

Original file line number	Diff line number	Diff line change
`@@ -35,9 +35,9 @@ The Pass will change the IR to:`
`35`	`35`	```
`36`	`36`	`// -----// IR Dump After {anonymous}::InsertGPUAllocs //----- //`
`37`	`37`	`func.func @main() {`
`38`		`- %memref = gpu.alloc () {gpu.alloc_shared} : memref<8xf32>`
`39`		`- %memref_2 = gpu.alloc () {gpu.alloc_shared} : memref<8xf32>`
`40`		`- %memref_3 = gpu.alloc () {gpu.alloc_shared} : memref<8xf32>`
	`38`	`+ %memref = gpu.alloc host_shared () : memref<8xf32>`
	`39`	`+ %memref_2 = gpu.alloc host_shared () : memref<8xf32>`
	`40`	`+ %memref_3 = gpu.alloc host_shared () : memref<8xf32>`
`41`	`41`	`.`
`42`	`42`	`.`
`43`	`43`	`.`