scale and zp as operands

zezhang · zezhang · commit 02173dad1fbb · 2024-07-10T12:59:05.000-07:00
diff --git a/lib/Conversion/TorchToTcp/TcpCustomOp.cpp b/lib/Conversion/TorchToTcp/TcpCustomOp.cpp
@@ -166,33 +166,28 @@ class ConvertAtenFakeQuantizePerTensorAffineTensorQparamsOp
     // scale should be a [1] tensor.
     if (!scaleElements || scaleElements.getNumElements() != 1)
       return rewriter.notifyMatchFailure(op, "Unsupported scale type or size");
-    auto scale = (*scaleElements.begin()).convertToDouble();
-    helper.addDenseFloatArrayAttr("scale", {scale});
+    helper.addOperand("scale", adaptor.getScale());
 
     // zero_point
     auto zeroPointOp = op.getZeroPoint().getDefiningOp();
-    int64_t zeroPoint;
     if (!zeroPointOp)
       return rewriter.notifyMatchFailure(op, "Missing zero point operation");
-    if (dyn_cast<torch::Torch::AtenZerosOp>(zeroPointOp) ||
-        dyn_cast<torch::Torch::AtenZerosLikeOp>(zeroPointOp)) {
-      zeroPoint = 0;
-    } else {
-      auto zeroPointTensor =
-          dyn_cast<torch::Torch::ValueTensorLiteralOp>(zeroPointOp);
-      if (!zeroPointTensor)
-        return rewriter.notifyMatchFailure(
-            op, "Zero point operation is not ValueTensorLiteralOp or Zero "
-                "operation");
+    if (auto zeroPointTensor =
+            dyn_cast<torch::Torch::ValueTensorLiteralOp>(zeroPointOp)) {
       auto zeroPointElements =
           dyn_cast<DenseIntElementsAttr>(zeroPointTensor.getValueAttr());
       // zero_point should be a [1] tensor.
       if (!zeroPointElements || zeroPointElements.getNumElements() != 1)
         return rewriter.notifyMatchFailure(
             op, "Unsupported zero point type or size");
-      zeroPoint = (*zeroPointElements.begin()).getSExtValue();
+    } else if (!dyn_cast<torch::Torch::AtenZerosOp>(zeroPointOp) &&
+               !dyn_cast<torch::Torch::AtenZerosLikeOp>(zeroPointOp)) {
+      // zero like operations are converted through torch-to-tcp
+      return rewriter.notifyMatchFailure(
+          op, "Zero point operation is not ValueTensorLiteralOp or Zero "
+              "operation");
     }
-    helper.addDenseIntArrayAttr("zero_point", {zeroPoint});
+    helper.addOperand("zero_point", adaptor.getZeroPoint());
 
     return helper.replace();
   }
@@ -226,37 +221,29 @@ class ConvertAtenFakeQuantizePerChannelAffineOp
     // scale should be a [C] tensor.
     if (!scaleElements || scaleElements.getType().getShape().size() != 1)
       return rewriter.notifyMatchFailure(op, "Unsupported scale type or size");
-    SmallVector<double> scale;
-    for (auto val : scaleElements.getValues<APFloat>())
-      scale.push_back(val.convertToDouble());
-    helper.addDenseFloatArrayAttr("scale", scale);
+    helper.addOperand("scale", adaptor.getScale());
 
     // zero_point
     auto zeroPointOp = op.getZeroPoint().getDefiningOp();
-    SmallVector<int64_t> zeroPoint;
     if (!zeroPointOp)
       return rewriter.notifyMatchFailure(op, "Missing zero point operation");
-    if (dyn_cast<torch::Torch::AtenZerosOp>(zeroPointOp) ||
-        dyn_cast<torch::Torch::AtenZerosLikeOp>(zeroPointOp)) {
-      zeroPoint.assign(scale.size(), 0);
-    } else {
-      auto zeroPointTensor =
-          dyn_cast<torch::Torch::ValueTensorLiteralOp>(zeroPointOp);
-      if (!zeroPointTensor)
-        return rewriter.notifyMatchFailure(
-            op, "Zero point operation is not ValueTensorLiteralOp or Zero "
-                "operation");
+    if (auto zeroPointTensor =
+            dyn_cast<torch::Torch::ValueTensorLiteralOp>(zeroPointOp)) {
       auto zeroPointElements =
           dyn_cast<DenseIntElementsAttr>(zeroPointTensor.getValueAttr());
       // zero_point should be a [C] tensor.
       if (!zeroPointElements ||
           zeroPointElements.getType().getShape().size() != 1)
         return rewriter.notifyMatchFailure(
             op, "Unsupported zero point type or size");
-      for (auto val : zeroPointElements.getValues<APInt>())
-        zeroPoint.push_back(val.getSExtValue());
+    } else if (!dyn_cast<torch::Torch::AtenZerosOp>(zeroPointOp) &&
+               !dyn_cast<torch::Torch::AtenZerosLikeOp>(zeroPointOp)) {
+      // zero like operations are converted through torch-to-tcp
+      return rewriter.notifyMatchFailure(
+          op, "Zero point operation is not ValueTensorLiteralOp or Zero "
+              "operation");
     }
-    helper.addDenseIntArrayAttr("zero_point", zeroPoint);
+    helper.addOperand("zero_point", adaptor.getZeroPoint());
 
     return helper.replace();
   }
diff --git a/test/Conversion/TorchToTcp/tcp_custom_ops.mlir b/test/Conversion/TorchToTcp/tcp_custom_ops.mlir
@@ -162,13 +162,11 @@ func.func @torch.aten.fake_quantize_per_tensor_affine(%input: !torch.vtensor<[1,
 // CHECK-LABEL: func.func @torch.aten.fake_quantize_per_tensor_affine.tensor_qparams(
 // CHECK-SAME:         %[[ARG0:.*]]: !torch.vtensor<[1,64,32,32],f32>) -> !torch.vtensor<[1,64,32,32],f32>
 // CHECK:          %[[T0:.*]] = torch_c.to_builtin_tensor %[[ARG0]] : !torch.vtensor<[1,64,32,32],f32> -> tensor<1x64x32x32xf32>
-// CHECK:          %[[CUSTOM:.*]] = tcp.custom_op("torch.aten.fake_quantize_per_tensor_affine.tensor_qparams") %[[T0]] {
+// CHECK:          %[[CUSTOM:.*]] = tcp.custom_op("torch.aten.fake_quantize_per_tensor_affine.tensor_qparams") %[[T0]], %{{.*}}, %{{.*}} {
 // CHECK-SAME:                          quant_max = 255 : i64,
 // CHECK-SAME:                          quant_min = 0 : i64,
-// CHECK-SAME:                          scale = array<f64: 0.039370078593492508>,
-// CHECK-SAME:                          torch_operand_names = ["self"],
-// CHECK-SAME:                          zero_point = array<i64: 2>}
-// CHECK-SAME:      tensor<1x64x32x32xf32> -> tensor<1x64x32x32xf32>
+// CHECK-SAME:                          torch_operand_names = ["self", "scale", "zero_point"]} :
+// CHECK-SAME:      tensor<1x64x32x32xf32>, tensor<1xf32>, tensor<1xi32> -> tensor<1x64x32x32xf32>
 // CHECK:          %[[RES:.*]] = torch_c.from_builtin_tensor %[[CUSTOM]] : tensor<1x64x32x32xf32> -> !torch.vtensor<[1,64,32,32],f32>
 // CHECK:          return %[[RES]] : !torch.vtensor<[1,64,32,32],f32>
 func.func @torch.aten.fake_quantize_per_tensor_affine.tensor_qparams(%input: !torch.vtensor<[1,64,32,32],f32>) -> !torch.vtensor<[1,64,32,32],f32> {
@@ -185,13 +183,11 @@ func.func @torch.aten.fake_quantize_per_tensor_affine.tensor_qparams(%input: !to
 // CHECK-LABEL: func.func @torch.aten.fake_quantize_per_tensor_affine.tensor_qparams_zero(
 // CHECK-SAME:         %[[ARG0:.*]]: !torch.vtensor<[1,64,32,32],f32>) -> !torch.vtensor<[1,64,32,32],f32>
 // CHECK:          %[[T0:.*]] = torch_c.to_builtin_tensor %[[ARG0]] : !torch.vtensor<[1,64,32,32],f32> -> tensor<1x64x32x32xf32>
-// CHECK:          %[[CUSTOM:.*]] = tcp.custom_op("torch.aten.fake_quantize_per_tensor_affine.tensor_qparams") %[[T0]] {
+// CHECK:          %[[CUSTOM:.*]] = tcp.custom_op("torch.aten.fake_quantize_per_tensor_affine.tensor_qparams") %[[T0]], %{{.*}}, %{{.*}} {
 // CHECK-SAME:                          quant_max = 255 : i64,
 // CHECK-SAME:                          quant_min = 0 : i64,
-// CHECK-SAME:                          scale = array<f64: 0.039370078593492508>,
-// CHECK-SAME:                          torch_operand_names = ["self"],
-// CHECK-SAME:                          zero_point = array<i64: 0>}
-// CHECK-SAME:      tensor<1x64x32x32xf32> -> tensor<1x64x32x32xf32>
+// CHECK-SAME:                          torch_operand_names = ["self", "scale", "zero_point"]} :
+// CHECK-SAME:      tensor<1x64x32x32xf32>, tensor<1xf32>, tensor<1xi32> -> tensor<1x64x32x32xf32>
 // CHECK:          %[[RES:.*]] = torch_c.from_builtin_tensor %[[CUSTOM]] : tensor<1x64x32x32xf32> -> !torch.vtensor<[1,64,32,32],f32>
 // CHECK:          return %[[RES]] : !torch.vtensor<[1,64,32,32],f32>
 func.func @torch.aten.fake_quantize_per_tensor_affine.tensor_qparams_zero(%input: !torch.vtensor<[1,64,32,32],f32>) -> !torch.vtensor<[1,64,32,32],f32> {
@@ -202,10 +198,10 @@ func.func @torch.aten.fake_quantize_per_tensor_affine.tensor_qparams_zero(%input
   %5 = torch.prim.ListConstruct %int1 : (!torch.int) -> !torch.list<int>
   %cuda3A0 = torch.constant.device "cuda:0"
   %false = torch.constant.bool false
-  %zero_point = torch.aten.zeros %5, %int3, %none, %cuda3A0, %false : !torch.list<int>, !torch.int, !torch.none, !torch.Device, !torch.bool -> !torch.tensor
+  %zero_point = torch.aten.zeros %5, %int3, %none, %cuda3A0, %false : !torch.list<int>, !torch.int, !torch.none, !torch.Device, !torch.bool -> !torch.vtensor<[1],si32>
   %int0 = torch.constant.int 0
   %int255 = torch.constant.int 255
-  %output = torch.aten.fake_quantize_per_tensor_affine.tensor_qparams %input, %scale, %zero_point, %int0, %int255 : !torch.vtensor<[1,64,32,32],f32>, !torch.vtensor<[1],f32>, !torch.tensor, !torch.int, !torch.int -> !torch.vtensor<[1,64,32,32],f32>
+  %output = torch.aten.fake_quantize_per_tensor_affine.tensor_qparams %input, %scale, %zero_point, %int0, %int255 : !torch.vtensor<[1,64,32,32],f32>, !torch.vtensor<[1],f32>, !torch.vtensor<[1],si32>, !torch.int, !torch.int -> !torch.vtensor<[1,64,32,32],f32>
   return %output : !torch.vtensor<[1,64,32,32],f32>
 }
 
@@ -214,14 +210,12 @@ func.func @torch.aten.fake_quantize_per_tensor_affine.tensor_qparams_zero(%input
 // CHECK-LABEL: func.func @torch.aten.fake_quantize_per_channel_affine(
 // CHECK-SAME:         %[[ARG0:.*]]: !torch.vtensor<[1,3,32,32],f32>) -> !torch.vtensor<[1,3,32,32],f32>
 // CHECK:          %[[T0:.*]] = torch_c.to_builtin_tensor %[[ARG0]] : !torch.vtensor<[1,3,32,32],f32> -> tensor<1x3x32x32xf32>
-// CHECK:          %[[CUSTOM:.*]] = tcp.custom_op("torch.aten.fake_quantize_per_channel_affine") %[[T0]] {
+// CHECK:          %[[CUSTOM:.*]] = tcp.custom_op("torch.aten.fake_quantize_per_channel_affine") %[[T0]], %{{.*}}, %{{.*}} {
 // CHECK-SAME:                          axis = 1 : i64,
 // CHECK-SAME:                          quant_max = 255 : i64,
 // CHECK-SAME:                          quant_min = 0 : i64,
-// CHECK-SAME:                          scale = array<f64: 0.039370078593492508, 0.039370078593492508, 0.039370078593492508>,
-// CHECK-SAME:                          torch_operand_names = ["self"],
-// CHECK-SAME:                          zero_point = array<i64: 2, 2, 2>}
-// CHECK-SAME:      tensor<1x3x32x32xf32> -> tensor<1x3x32x32xf32>
+// CHECK-SAME:                          torch_operand_names = ["self", "scale", "zero_point"]} :
+// CHECK-SAME:      tensor<1x3x32x32xf32>, tensor<3xf32>, tensor<3xi32> -> tensor<1x3x32x32xf32>
 // CHECK:          %[[RES:.*]] = torch_c.from_builtin_tensor %[[CUSTOM]] : tensor<1x3x32x32xf32> -> !torch.vtensor<[1,3,32,32],f32>
 // CHECK:          return %[[RES]] : !torch.vtensor<[1,3,32,32],f32>
 func.func @torch.aten.fake_quantize_per_channel_affine(%input: !torch.vtensor<[1,3,32,32],f32>) -> !torch.vtensor<[1,3,32,32],f32> {
@@ -239,14 +233,12 @@ func.func @torch.aten.fake_quantize_per_channel_affine(%input: !torch.vtensor<[1
 // CHECK-LABEL: func.func @torch.aten.fake_quantize_per_channel_affine_zero_like(
 // CHECK-SAME:         %[[ARG0:.*]]: !torch.vtensor<[1,3,32,32],f32>) -> !torch.vtensor<[1,3,32,32],f32>
 // CHECK:          %[[T0:.*]] = torch_c.to_builtin_tensor %[[ARG0]] : !torch.vtensor<[1,3,32,32],f32> -> tensor<1x3x32x32xf32>
-// CHECK:          %[[CUSTOM:.*]] = tcp.custom_op("torch.aten.fake_quantize_per_channel_affine") %[[T0]] {
+// CHECK:          %[[CUSTOM:.*]] = tcp.custom_op("torch.aten.fake_quantize_per_channel_affine") %[[T0]], %{{.*}}, %{{.*}} {
 // CHECK-SAME:                          axis = 1 : i64,
 // CHECK-SAME:                          quant_max = 255 : i64,
 // CHECK-SAME:                          quant_min = 0 : i64,
-// CHECK-SAME:                          scale = array<f64: 0.039370078593492508, 0.039370078593492508, 0.039370078593492508>,
-// CHECK-SAME:                          torch_operand_names = ["self"],
-// CHECK-SAME:                          zero_point = array<i64: 0, 0, 0>}
-// CHECK-SAME:      tensor<1x3x32x32xf32> -> tensor<1x3x32x32xf32>
+// CHECK-SAME:                          torch_operand_names = ["self", "scale", "zero_point"]} :
+// CHECK-SAME:      tensor<1x3x32x32xf32>, tensor<3xf32>, tensor<3xi32> -> tensor<1x3x32x32xf32>
 // CHECK:          %[[RES:.*]] = torch_c.from_builtin_tensor %[[CUSTOM]] : tensor<1x3x32x32xf32> -> !torch.vtensor<[1,3,32,32],f32>
 // CHECK:          return %[[RES]] : !torch.vtensor<[1,3,32,32],f32>
 func.func @torch.aten.fake_quantize_per_channel_affine_zero_like(%input: !torch.vtensor<[1,3,32,32],f32>) -> !torch.vtensor<[1,3,32,32],f32> {
@@ -258,7 +250,7 @@ func.func @torch.aten.fake_quantize_per_channel_affine_zero_like(%input: !torch.
   %none = torch.constant.none
   %cuda3A0 = torch.constant.device "cuda:0"
   %false = torch.constant.bool false
-  %zero_point = torch.aten.zeros_like %scale, %int3, %none, %cuda3A0, %false, %none : !torch.vtensor<[3],f32>, !torch.int, !torch.none, !torch.Device, !torch.bool, !torch.none -> !torch.tensor
-  %output = torch.aten.fake_quantize_per_channel_affine %input, %scale, %zero_point, %int1, %int0, %int255 : !torch.vtensor<[1,3,32,32],f32>, !torch.vtensor<[3],f32>, !torch.tensor, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,3,32,32],f32>
+  %zero_point = torch.aten.zeros_like %scale, %int3, %none, %cuda3A0, %false, %none : !torch.vtensor<[3],f32>, !torch.int, !torch.none, !torch.Device, !torch.bool, !torch.none -> !torch.vtensor<[3],si32>
+  %output = torch.aten.fake_quantize_per_channel_affine %input, %scale, %zero_point, %int1, %int0, %int255 : !torch.vtensor<[1,3,32,32],f32>, !torch.vtensor<[3],f32>, !torch.vtensor<[3],si32>, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,3,32,32],f32>
   return %output : !torch.vtensor<[1,3,32,32],f32>
 }