Multi Precision Lamb Update operator (apache#16885)

access2rohit · ptrendx · commit 6a1e44012fda · 2019-12-10T10:19:10.000-08:00
* multi-precision lamb update operator

* removing multi-tensor code from lamb

* doing operation beta^t outside of kernel call

* removing unecessary functions from PyLAMB
diff --git a/python/mxnet/optimizer/optimizer.py b/python/mxnet/optimizer/optimizer.py
@@ -34,7 +34,8 @@
                        multi_sgd_update, multi_sgd_mom_update, multi_mp_sgd_update,
                        multi_mp_sgd_mom_update, preloaded_multi_sgd_update,
                        preloaded_multi_sgd_mom_update, preloaded_multi_mp_sgd_update,
-                       preloaded_multi_mp_sgd_mom_update, lamb_update_phase1, lamb_update_phase2)
+                       preloaded_multi_mp_sgd_mom_update, lamb_update_phase1, lamb_update_phase2,
+                       mp_lamb_update_phase1, mp_lamb_update_phase2)
 from ..ndarray import sparse
 from ..random import normal
 from ..util import is_np_array
@@ -1262,11 +1263,10 @@ def __init__(self, learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-6,
 
     def create_state(self, index, weight):
         stype = weight.stype
-        dtype = weight.dtype
-        return (zeros(weight.shape, weight.context, dtype=dtype, stype=stype),
-                zeros(weight.shape, weight.context, dtype=dtype, stype=stype))
+        return (zeros(weight.shape, weight.context, dtype=numpy.float32, stype=stype),
+                zeros(weight.shape, weight.context, dtype=numpy.float32, stype=stype))
 
-    def update(self, index, weight, grad, state):
+    def _update_impl(self, index, weight, grad, state, multi_precision=False):
         assert(isinstance(weight, NDArray))
         assert(isinstance(grad, NDArray))
         self._update_count(index)
@@ -1277,19 +1277,46 @@ def update(self, index, weight, grad, state):
         kwargs = {'beta1': self.beta1, 'beta2': self.beta2, 'epsilon': self.epsilon,
                   'bias_correction': self.bias_correction, 't': t,
                   'rescale_grad': self.rescale_grad}
-        mean, var = state
+
         if self.clip_gradient:
             kwargs['clip_gradient'] = self.clip_gradient
-        g = lamb_update_phase1(weight, grad, mean, var, wd=wd, **kwargs)
-
-        kwargs = {}
-        if self.lower_bound:
-            kwargs['lower_bound'] = self.lower_bound
-        if self.upper_bound:
-            kwargs['upper_bound'] = self.upper_bound
-        r_1 = weight.norm()
-        r_2 = g.norm()
-        lamb_update_phase2(weight, g, r_1, r_2, lr=lr, out=weight, **kwargs)
+
+        if multi_precision:
+            mean, var = state[1]
+            weight32 = state[0]
+            g = mp_lamb_update_phase1(weight, grad, mean, var, weight32, wd=wd, **kwargs)
+
+            kwargs = {}
+            if self.lower_bound:
+                kwargs['lower_bound'] = self.lower_bound
+            if self.upper_bound:
+                kwargs['upper_bound'] = self.upper_bound
+            r_1 = weight32.norm()
+            r_2 = g.norm()
+            mp_lamb_update_phase2(weight, g, r_1, r_2, weight32, lr=lr, out=weight, **kwargs)
+        else:
+            mean, var = state
+            g = lamb_update_phase1(weight, grad, mean, var, wd=wd, **kwargs)
+
+            kwargs = {}
+            if self.lower_bound:
+                kwargs['lower_bound'] = self.lower_bound
+            if self.upper_bound:
+                kwargs['upper_bound'] = self.upper_bound
+            r_1 = weight.norm()
+            r_2 = g.norm()
+            lamb_update_phase2(weight, g, r_1, r_2, lr=lr, out=weight, **kwargs)
+
+    def update(self, index, weight, grad, state):
+        self._update_impl(index, weight, grad, state, multi_precision=False)
+
+    def update_multi_precision(self, index, weight, grad, state):
+        if not isinstance(index, (tuple, list)):
+            use_multi_precision = self.multi_precision and weight.dtype == numpy.float16
+        else:
+            use_multi_precision = self.multi_precision and weight[0].dtype == numpy.float16
+        self._update_impl(index, weight, grad, state,
+                          multi_precision=use_multi_precision)
 
 
 # pylint: enable=line-too-long
diff --git a/src/operator/optimizer_op-inl.h b/src/operator/optimizer_op-inl.h
@@ -1751,6 +1751,164 @@ inline void LambUpdatePhaseTwo(const nnvm::NodeAttrs& attrs,
   });
 }
 
+template<int n_in, int n_out, int total_in>
+inline bool MPLambPhaseOneType(const nnvm::NodeAttrs& attrs,
+                             std::vector<int> *in_attrs,
+                             std::vector<int> *out_attrs) {
+  CHECK_EQ(in_attrs->size(), static_cast<size_t>(total_in)) << " in operator " << attrs.name;
+  CHECK_EQ(out_attrs->size(), static_cast<size_t>(n_out)) << " in operator " << attrs.name;
+  for (int i = 0; i < n_in; ++i) {
+    TYPE_ASSIGN_CHECK(*in_attrs, i, mshadow::kFloat16);
+  }
+  for (int i = n_in; i < total_in; ++i) {
+    TYPE_ASSIGN_CHECK(*in_attrs, i, mshadow::kFloat32);
+  }
+  for (int i = 0; i < n_out; ++i) {
+    TYPE_ASSIGN_CHECK(*out_attrs, i, mshadow::kFloat32);
+  }
+  return true;
+}
+
+struct MPLambUpdatePhaseOneKernel {
+  template<typename DType>
+  MSHADOW_XINLINE static void Map(int i, float* out_data,
+    float* mean_data, float* var_data, const DType* weight_data,
+    const DType* grad_data, const float* weight32_data,
+    const float clip_gradient, const float rescale_grad,
+    const float beta1_t, const float beta1,
+    const float beta2_t, const float beta2,
+    const float wd, const float epsilon, const int t,
+    bool bias_correction, const OpReqType req) {
+    using namespace mshadow_op;
+
+    float grad_rescaled = grad_data[i] * rescale_grad;
+    if (clip_gradient >= 0.f) {
+      grad_rescaled = clip::Map(grad_rescaled, clip_gradient);
+    }
+
+    mean_data[i] = beta1 * mean_data[i] + (1.f - beta1) * grad_rescaled;
+    var_data[i] = beta2 * var_data[i] + (1.f - beta2) * grad_rescaled * grad_rescaled;
+
+    float g = mean_data[i] / (square_root::Map(var_data[i]) + epsilon) + wd * weight32_data[i];
+
+    if (bias_correction) {
+      float mean_hat = mean_data[i] / (1. - beta1_t);
+      float var_hat = var_data[i] / (1 - beta2_t);
+      g = mean_hat / (square_root::Map(var_hat) + epsilon) + wd * weight32_data[i];
+    }
+    KERNEL_ASSIGN(out_data[i], req, g);
+  }
+};
+
+template<typename xpu>
+inline void MPLambUpdatePhaseOne(const nnvm::NodeAttrs& attrs,
+                       const OpContext &ctx,
+                       const std::vector<TBlob> &inputs,
+                       const std::vector<OpReqType> &req,
+                       const std::vector<TBlob> &outputs) {
+  using namespace mxnet_op;
+  const LambUpdatePhaseOneParam& param = nnvm::get<LambUpdatePhaseOneParam>(attrs.parsed);
+  Stream<xpu>* s = ctx.get_stream<xpu>();
+  MSHADOW_REAL_TYPE_SWITCH(inputs[0].type_flag_, DType, {
+    float beta1_t = std::pow(param.beta1, param.t);
+    float beta2_t = std::pow(param.beta2, param.t);
+    Tensor<xpu, 2, DType> weight = inputs[0].FlatTo2D<xpu, DType>(s);
+    Tensor<xpu, 2, DType> grad = inputs[1].FlatTo2D<xpu, DType>(s);
+    Tensor<xpu, 2, float> mean = inputs[2].FlatTo2D<xpu, float>(s);
+    Tensor<xpu, 2, float> var = inputs[3].FlatTo2D<xpu, float>(s);
+    Tensor<xpu, 2, float> weight32 = inputs[4].FlatTo2D<xpu, float>(s);
+    Tensor<xpu, 2, float> out = outputs[0].FlatTo2D<xpu, float>(s);
+
+  Kernel<MPLambUpdatePhaseOneKernel, xpu>::Launch(s, weight.shape_.Size(),
+    out.dptr_, mean.dptr_, var.dptr_, weight.dptr_, grad.dptr_, weight32.dptr_,
+    param.clip_gradient, param.rescale_grad, beta1_t, param.beta1, beta2_t, param.beta2,
+    param.wd, param.epsilon, param.t, param.bias_correction, req[0]);
+  });
+}
+
+inline bool MPLambUpdatePhaseTwoShape(const nnvm::NodeAttrs& attrs,
+                            mxnet::ShapeVector* in_attrs,
+                            mxnet::ShapeVector* out_attrs) {
+  CHECK_EQ(in_attrs->size(), 5U);
+  CHECK_EQ(out_attrs->size(), 1U);
+
+  mxnet::TShape expected_out(in_attrs->at(0).ndim(), -1);
+
+  mxnet::TShape& weight_shape = in_attrs->at(0);
+  mxnet::TShape& g_shape = in_attrs->at(1);
+  mxnet::TShape& weight32_shape = in_attrs->at(4);
+  CHECK_EQ(weight_shape.ndim(), g_shape.ndim())
+           << "total no. of dimensions for weights and g must match";
+  CHECK_EQ(weight_shape.ndim(), weight32_shape.ndim())
+           << "total no. of dimensions for weights and g must match";
+  for (int i=0; i < weight_shape.ndim(); ++i) {
+    CHECK_EQ(weight_shape[i], g_shape[i])
+           << "weight and g dimension size mismatch at " << i << "-th index";
+    CHECK_EQ(weight_shape[i], weight32_shape[i])
+           << "weight and g dimension size mismatch at " << i << "-th index";
+  }
+  mxnet::TShape& r1_shape = in_attrs->at(2);
+  mxnet::TShape& r2_shape = in_attrs->at(3);
+  CHECK_EQ(r1_shape[0], 1U) << "r1 shape incorrect";
+  CHECK_EQ(r2_shape[0], 1U) << "r2 shape incorrect";
+  for (int i=0; i < expected_out.ndim(); ++i) {
+    expected_out[i] = weight_shape[i];
+  }
+
+  SHAPE_ASSIGN_CHECK(*out_attrs, 0, expected_out);
+  return shape_is_known(expected_out);
+}
+
+struct MPLambUpdatePhaseTwoKernel {
+  template<typename DType>
+  MSHADOW_XINLINE static void Map(int i, DType* out_data,
+    const DType* weight_data, const float* g,
+    const float* r1, const float* r2, const float* weight32_data,
+    float lr, const float lower_bound,
+    const float upper_bound, const OpReqType req) {
+    using namespace mshadow_op;
+
+    float new_r1 = r1[0];
+    if (lower_bound >= 0) {
+      new_r1 = maximum::Map(new_r1, lower_bound);
+    }
+    if (upper_bound >= 0) {
+      new_r1 = minimum::Map(new_r1, upper_bound);
+    }
+    if (new_r1 == 0.0f || r2[0] == 0.0f) {
+      lr = lr * 1.0f;
+    } else {
+      lr = lr * new_r1 / r2[0];
+    }
+
+    KERNEL_ASSIGN(out_data[i], req, weight32_data[i] - lr * g[i]);
+  }
+};
+
+template<typename xpu>
+inline void MPLambUpdatePhaseTwo(const nnvm::NodeAttrs& attrs,
+                       const OpContext &ctx,
+                       const std::vector<TBlob> &inputs,
+                       const std::vector<OpReqType> &req,
+                       const std::vector<TBlob> &outputs) {
+  using namespace mxnet_op;
+  const LambUpdatePhaseTwoParam& param = nnvm::get<LambUpdatePhaseTwoParam>(attrs.parsed);
+  Stream<xpu>* s = ctx.get_stream<xpu>();
+  MSHADOW_REAL_TYPE_SWITCH(inputs[0].type_flag_, DType, {
+    Tensor<xpu, 2, DType> weight = inputs[0].FlatTo2D<xpu, DType>(s);
+    Tensor<xpu, 2, float> g = inputs[1].FlatTo2D<xpu, float>(s);
+    Tensor<xpu, 2, float> r1 = inputs[2].FlatTo2D<xpu, float>(s);
+    Tensor<xpu, 2, float> r2 = inputs[3].FlatTo2D<xpu, float>(s);
+    Tensor<xpu, 2, float> weight32 = inputs[4].FlatTo2D<xpu, float>(s);
+    Tensor<xpu, 2, DType> out = outputs[0].FlatTo2D<xpu, DType>(s);
+
+  Kernel<MPLambUpdatePhaseTwoKernel, xpu>::Launch(s, weight.shape_.Size(),
+    out.dptr_, weight.dptr_, g.dptr_, r1.dptr_, r2.dptr_, weight32.dptr_,
+    param.lr, param.lower_bound,
+    param.upper_bound, req[0]);
+  });
+}
+
 // This RMSProp code follows the version in
 // http://arxiv.org/pdf/1308.0850v5.pdf Eq(38) - Eq(45)
 // by Alex Graves, 2013.
@@ -2493,5 +2651,4 @@ inline void AdagradUpdateEx(const nnvm::NodeAttrs& attrs,
 }  // namespace op
 }  // namespace mxnet
 
-
 #endif  // MXNET_OPERATOR_OPTIMIZER_OP_INL_H_
diff --git a/src/operator/optimizer_op.cc b/src/operator/optimizer_op.cc
@@ -947,7 +947,7 @@ Link to paper: https://arxiv.org/pdf/1904.00962.pdf
          var_hat = var / (1 - beta2^t);
          g = mean_hat / (var_hat^(1/2) + epsilon) + wd * weight;
     else
-         g = mean / (var_data^(1/2) + epsilon) + wd * weight_data[i];
+         g = mean / (var_data^(1/2) + epsilon) + wd * weight;
     \end{gather*}
 
 )code" ADD_FILELINE)
@@ -1002,5 +1002,93 @@ Link to paper: https://arxiv.org/pdf/1904.00962.pdf
 .add_argument("r2", "NDArray-or-Symbol", "r2")
 .add_arguments(LambUpdatePhaseTwoParam::__FIELDS__());
 
+NNVM_REGISTER_OP(mp_lamb_update_phase1)
+.describe(R"code(Mixed Precision version of Phase I of lamb update 
+it performs the following operations and returns g:.
+
+          Link to paper: https://arxiv.org/pdf/1904.00962.pdf
+
+          .. math::
+              \begin{gather*}
+              grad32 = grad(float16) * rescale_grad
+              if (grad < -clip_gradient)
+              then
+                   grad = -clip_gradient
+              if (grad > clip_gradient)
+              then
+                   grad = clip_gradient
+
+              mean = beta1 * mean + (1 - beta1) * grad;
+              variance = beta2 * variance + (1. - beta2) * grad ^ 2;
+
+              if (bias_correction)
+              then
+                   mean_hat = mean / (1. - beta1^t);
+                   var_hat = var / (1 - beta2^t);
+                   g = mean_hat / (var_hat^(1/2) + epsilon) + wd * weight32;
+              else
+                   g = mean / (var_data^(1/2) + epsilon) + wd * weight32;
+              \end{gather*}
+
+          )code" ADD_FILELINE)
+.set_num_inputs(5)
+.set_num_outputs(1)
+.set_attr_parser(ParamParser<LambUpdatePhaseOneParam>)
+.set_attr<mxnet::FInferShape>("FInferShape", ElemwiseShape<5, 1>)
+.set_attr<nnvm::FInferType>("FInferType", MPLambPhaseOneType<2, 1, 5>)
+.set_attr<FCompute>("FCompute<cpu>", MPLambUpdatePhaseOne<cpu>)
+.set_attr<nnvm::FMutateInputs>("FMutateInputs",
+  [](const nnvm::NodeAttrs& attrs) {
+    return std::vector<uint32_t>{2, 3};
+  })
+.add_argument("weight", "NDArray-or-Symbol", "Weight")
+.add_argument("grad", "NDArray-or-Symbol", "Gradient")
+.add_argument("mean", "NDArray-or-Symbol", "Moving mean")
+.add_argument("var", "NDArray-or-Symbol", "Moving variance")
+.add_argument("weight32", "NDArray-or-Symbol", "Weight32")
+.add_arguments(LambUpdatePhaseOneParam::__FIELDS__());
+
+NNVM_REGISTER_OP(mp_lamb_update_phase2)
+.describe(R"code(Mixed Precision version Phase II of lamb update 
+it performs the following operations and updates grad.
+
+          Link to paper: https://arxiv.org/pdf/1904.00962.pdf
+
+          .. math::
+              \begin{gather*}
+              if (lower_bound >= 0)
+              then
+                   r1 = max(r1, lower_bound)
+              if (upper_bound >= 0)
+              then
+                   r1 = max(r1, upper_bound)
+
+              if (r1 == 0 or r2 == 0)
+              then
+                   lr = lr
+              else
+                   lr = lr * (r1/r2)
+              weight32 = weight32 - lr * g
+              weight(float16) = weight32
+              \end{gather*}
+
+          )code" ADD_FILELINE)
+.set_num_inputs(5)
+.set_num_outputs(1)
+.set_attr_parser(ParamParser<LambUpdatePhaseTwoParam>)
+.set_attr<mxnet::FInferShape>("FInferShape", MPLambUpdatePhaseTwoShape)
+.set_attr<nnvm::FInferType>("FInferType", MP_InferType<1, 1, 5>)
+.set_attr<FCompute>("FCompute<cpu>", MPLambUpdatePhaseTwo<cpu>)
+.set_attr<nnvm::FMutateInputs>("FMutateInputs",
+  [](const nnvm::NodeAttrs& attrs) {
+    return std::vector<uint32_t>{4};
+  })
+.add_argument("weight", "NDArray-or-Symbol", "Weight")
+.add_argument("g", "NDArray-or-Symbol", "Output of mp_lamb_update_phase 1")
+.add_argument("r1", "NDArray-or-Symbol", "r1")
+.add_argument("r2", "NDArray-or-Symbol", "r2")
+.add_argument("weight32", "NDArray-or-Symbol", "Weight32")
+.add_arguments(LambUpdatePhaseTwoParam::__FIELDS__());
+
 }  // namespace op
 }  // namespace mxnet
diff --git a/src/operator/optimizer_op.cu b/src/operator/optimizer_op.cu
@@ -283,6 +283,11 @@ NNVM_REGISTER_OP(lamb_update_phase1)
 NNVM_REGISTER_OP(lamb_update_phase2)
 .set_attr<FCompute>("FCompute<gpu>", LambUpdatePhaseTwo<gpu>);
 
+NNVM_REGISTER_OP(mp_lamb_update_phase1)
+.set_attr<FCompute>("FCompute<gpu>", MPLambUpdatePhaseOne<gpu>);
+
+NNVM_REGISTER_OP(mp_lamb_update_phase2)
+.set_attr<FCompute>("FCompute<gpu>", MPLambUpdatePhaseTwo<gpu>);
 
 }  // namespace op
 }  // namespace mxnet
diff --git a/tests/python/gpu/test_operator_gpu.py b/tests/python/gpu/test_operator_gpu.py
@@ -422,6 +422,7 @@ def test_preloaded_multi_sgd():
                 shapes = [np.random.randint(1, maxdim + 1, size=maxndim) for i in range(nparam)]
                 check_preloaded_multi_sgd(dtype, shapes, momentum, use_master_weights)
 
+
 @with_seed()
 def test_batchnorm_with_type():
   ctx_list_v1_2D = [
diff --git a/tests/python/unittest/test_optimizer.py b/tests/python/unittest/test_optimizer.py