fix(distributed): support pre-computed features (#436)

jmoralez · web-flow · commit 3cbaa1693302 · 2024-10-28T13:53:38.000-06:00
diff --git a/mlforecast/core.py b/mlforecast/core.py
@@ -322,9 +322,9 @@ def _fit(
                     "are dynamic please set `static_features=[]`."
                 )
         self.static_features_ = statics_on_ends
-        self.features_order_ = [
-            c for c in df.columns if c not in to_drop
-        ] + self.features
+        self.features_order_ = [c for c in df.columns if c not in to_drop] + [
+            f for f in self.features if f not in df.columns
+        ]
         return self
 
     def _compute_transforms(
@@ -377,8 +377,12 @@ def _transform(
         """Add the features to `df`.
 
         if `dropna=True` then all the null rows are dropped."""
-        transforms = {k: v for k, v in self.transforms.items() if k not in df}
-        features = self._compute_transforms(transforms=transforms, updates_only=False)
+        # we need to compute all transformations in case they save state
+        features = self._compute_transforms(
+            transforms=self.transforms, updates_only=False
+        )
+        # filter out the features that already exist in df to avoid overwriting them
+        features = {k: v for k, v in features.items() if k not in df}
         if self._restore_idxs is not None:
             for k, v in features.items():
                 features[k] = v[self._restore_idxs]
@@ -433,8 +437,9 @@ def _transform(
         del self._restore_idxs, self._sort_idxs
 
         # lag transforms
-        for feat in transforms.keys():
-            df = ufp.assign_columns(df, feat, features[feat])
+        for feat in self.transforms.keys():
+            if feat in features:
+                df = ufp.assign_columns(df, feat, features[feat])
 
         # date features
         names = [f.__name__ if callable(f) else f for f in self.date_features]
diff --git a/mlforecast/distributed/forecast.py b/mlforecast/distributed/forecast.py
@@ -293,12 +293,14 @@ def _preprocess(
             keep_last_n=keep_last_n,
             window_info=window_info,
         )
-        base_schema = str(fa.get_schema(data))
-        features_schema = ",".join(f"{feat}:double" for feat in self._base_ts.features)
+        base_schema = fa.get_schema(data)
+        features_schema = {
+            f: "double" for f in self._base_ts.features if f not in base_schema
+        }
         res = fa.transform(
             self._partition_results,
             DistributedMLForecast._retrieve_df,
-            schema=f"{base_schema},{features_schema}",
+            schema=base_schema + features_schema,
             engine=self.engine,
         )
         return fa.get_native_as_df(res)
diff --git a/nbs/core.ipynb b/nbs/core.ipynb
@@ -805,7 +805,9 @@
     "                    'are dynamic please set `static_features=[]`.'\n",
     "                )\n",
     "        self.static_features_ = statics_on_ends\n",
-    "        self.features_order_ = [c for c in df.columns if c not in to_drop] + self.features\n",
+    "        self.features_order_ = [\n",
+    "            c for c in df.columns if c not in to_drop\n",
+    "        ] + [f for f in self.features if f not in df.columns]\n",
     "        return self\n",
     "\n",
     "    def _compute_transforms(\n",
@@ -858,8 +860,13 @@
     "        \"\"\"Add the features to `df`.\n",
     "        \n",
     "        if `dropna=True` then all the null rows are dropped.\"\"\"\n",
-    "        transforms = {k: v for k, v in self.transforms.items() if k not in df}\n",
-    "        features = self._compute_transforms(transforms=transforms, updates_only=False)\n",
+    "        # we need to compute all transformations in case they save state\n",
+    "        features = self._compute_transforms(\n",
+    "            transforms=self.transforms,\n",
+    "            updates_only=False\n",
+    "        )\n",
+    "        # filter out the features that already exist in df to avoid overwriting them\n",
+    "        features = {k: v for k, v in features.items() if k not in df}\n",
     "        if self._restore_idxs is not None:\n",
     "            for k, v in features.items():\n",
     "                features[k] = v[self._restore_idxs]\n",
@@ -914,8 +921,9 @@
     "        del self._restore_idxs, self._sort_idxs\n",
     "\n",
     "        # lag transforms\n",
-    "        for feat in transforms.keys():\n",
-    "            df = ufp.assign_columns(df, feat, features[feat])\n",
+    "        for feat in self.transforms.keys():\n",
+    "            if feat in features:\n",
+    "                df = ufp.assign_columns(df, feat, features[feat])\n",
     "\n",
     "        # date features\n",
     "        names = [f.__name__ if callable(f) else f for f in self.date_features]\n",
@@ -1663,13 +1671,12 @@
       "text/markdown": [
        "---\n",
        "\n",
-       "[source](https://github.com/Nixtla/mlforecast/blob/main/mlforecast/core.py#L481){target=\"_blank\" style=\"float:right; font-size:smaller\"}\n",
+       "[source](https://github.com/Nixtla/mlforecast/blob/main/mlforecast/core.py#L486){target=\"_blank\" style=\"float:right; font-size:smaller\"}\n",
        "\n",
        "## TimeSeries.fit_transform\n",
        "\n",
-       ">      TimeSeries.fit_transform (data:Union[pandas.core.frame.DataFrame,polars.d\n",
-       ">                                ataframe.frame.DataFrame], id_col:str,\n",
-       ">                                time_col:str, target_col:str,\n",
+       ">      TimeSeries.fit_transform (data:~DFType, id_col:str, time_col:str,\n",
+       ">                                target_col:str,\n",
        ">                                static_features:Optional[List[str]]=None,\n",
        ">                                dropna:bool=True,\n",
        ">                                keep_last_n:Optional[int]=None,\n",
@@ -1685,13 +1692,12 @@
       "text/plain": [
        "---\n",
        "\n",
-       "[source](https://github.com/Nixtla/mlforecast/blob/main/mlforecast/core.py#L481){target=\"_blank\" style=\"float:right; font-size:smaller\"}\n",
+       "[source](https://github.com/Nixtla/mlforecast/blob/main/mlforecast/core.py#L486){target=\"_blank\" style=\"float:right; font-size:smaller\"}\n",
        "\n",
        "## TimeSeries.fit_transform\n",
        "\n",
-       ">      TimeSeries.fit_transform (data:Union[pandas.core.frame.DataFrame,polars.d\n",
-       ">                                ataframe.frame.DataFrame], id_col:str,\n",
-       ">                                time_col:str, target_col:str,\n",
+       ">      TimeSeries.fit_transform (data:~DFType, id_col:str, time_col:str,\n",
+       ">                                target_col:str,\n",
        ">                                static_features:Optional[List[str]]=None,\n",
        ">                                dropna:bool=True,\n",
        ">                                keep_last_n:Optional[int]=None,\n",
@@ -1972,45 +1978,7 @@
    "cell_type": "code",
    "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/markdown": [
-       "---\n",
-       "\n",
-       "[source](https://github.com/Nixtla/mlforecast/blob/main/mlforecast/core.py#L726){target=\"_blank\" style=\"float:right; font-size:smaller\"}\n",
-       "\n",
-       "## TimeSeries.predict\n",
-       "\n",
-       ">      TimeSeries.predict (models:Dict[str,Union[sklearn.base.BaseEstimator,List\n",
-       ">                          [sklearn.base.BaseEstimator]]], horizon:int,\n",
-       ">                          before_predict_callback:Optional[Callable]=None,\n",
-       ">                          after_predict_callback:Optional[Callable]=None, X_df:\n",
-       ">                          Union[pandas.core.frame.DataFrame,polars.dataframe.fr\n",
-       ">                          ame.DataFrame,NoneType]=None,\n",
-       ">                          ids:Optional[List[str]]=None)"
-      ],
-      "text/plain": [
-       "---\n",
-       "\n",
-       "[source](https://github.com/Nixtla/mlforecast/blob/main/mlforecast/core.py#L726){target=\"_blank\" style=\"float:right; font-size:smaller\"}\n",
-       "\n",
-       "## TimeSeries.predict\n",
-       "\n",
-       ">      TimeSeries.predict (models:Dict[str,Union[sklearn.base.BaseEstimator,List\n",
-       ">                          [sklearn.base.BaseEstimator]]], horizon:int,\n",
-       ">                          before_predict_callback:Optional[Callable]=None,\n",
-       ">                          after_predict_callback:Optional[Callable]=None, X_df:\n",
-       ">                          Union[pandas.core.frame.DataFrame,polars.dataframe.fr\n",
-       ">                          ame.DataFrame,NoneType]=None,\n",
-       ">                          ids:Optional[List[str]]=None)"
-      ]
-     },
-     "execution_count": null,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "show_doc(TimeSeries.predict, title_level=2)"
    ]
@@ -2126,41 +2094,7 @@
    "cell_type": "code",
    "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/markdown": [
-       "---\n",
-       "\n",
-       "[source](https://github.com/Nixtla/mlforecast/blob/main/mlforecast/core.py#L831){target=\"_blank\" style=\"float:right; font-size:smaller\"}\n",
-       "\n",
-       "## TimeSeries.update\n",
-       "\n",
-       ">      TimeSeries.update\n",
-       ">                         (df:Union[pandas.core.frame.DataFrame,polars.dataframe\n",
-       ">                         .frame.DataFrame])\n",
-       "\n",
-       "*Update the values of the stored series.*"
-      ],
-      "text/plain": [
-       "---\n",
-       "\n",
-       "[source](https://github.com/Nixtla/mlforecast/blob/main/mlforecast/core.py#L831){target=\"_blank\" style=\"float:right; font-size:smaller\"}\n",
-       "\n",
-       "## TimeSeries.update\n",
-       "\n",
-       ">      TimeSeries.update\n",
-       ">                         (df:Union[pandas.core.frame.DataFrame,polars.dataframe\n",
-       ">                         .frame.DataFrame])\n",
-       "\n",
-       "*Update the values of the stored series.*"
-      ]
-     },
-     "execution_count": null,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "show_doc(TimeSeries.update, title_level=2)"
    ]
@@ -2246,15 +2180,7 @@
    "cell_type": "code",
    "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "sys:1: CategoricalRemappingWarning: Local categoricals have different encodings, expensive re-encoding is done to perform this merge operation. Consider using a StringCache or an Enum type if the categories are known in advance\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "#| hide\n",
     "#| polars\n",
diff --git a/nbs/distributed.forecast.ipynb b/nbs/distributed.forecast.ipynb