resolves: unionai-oss#992

Arne Recknagel · Arne Recknagel · commit 1ad202384295 · 2022-11-30T15:53:33.000+01:00
Signed-off-by: Arne Recknagel &lt;recknagel@auxmoney.com&gt;
diff --git a/pandera/model.py b/pandera/model.py
@@ -37,7 +37,7 @@
     FieldInfo,
 )
 from .schemas import DataFrameSchema
-from .typing import INDEX_TYPES, SERIES_TYPES, AnnotationInfo
+from .typing import INDEX_TYPES, SERIES_TYPES, AnnotationInfo, DataFrame
 from .typing.common import DataFrameBase
 from .typing.config import BaseConfig
 
@@ -521,6 +521,12 @@ def __modify_schema__(cls, field_schema):
         """Update pydantic field schema."""
         field_schema.update(to_json_schema(cls.to_schema()))
 
+    @classmethod
+    @docstring_substitution(validate_doc=DataFrameSchema.empty.__doc__)
+    def empty(cls: Type[TSchemaModel]) -> DataFrame[TSchemaModel]:
+        """%(validate_doc)s"""
+        return cast(DataFrame[TSchemaModel], cls.to_schema().empty())
+
     def __class_getitem__(
         cls: Type[TSchemaModel],
         params: Union[Type[Any], Tuple[Type[Any], ...]],
diff --git a/pandera/schemas.py b/pandera/schemas.py
@@ -798,9 +798,9 @@ def _validate(
                         with ps.option_context(
                             "compute.ops_on_diff_frames", True
                         ):
-                            failure_cases = df_to_validate.loc[duplicates, lst]
+                            failure_cases = df_to_validate.loc[duplicates, lst]  # type: ignore
                     else:
-                        failure_cases = df_to_validate.loc[duplicates, lst]
+                        failure_cases = df_to_validate.loc[duplicates, lst]  # type: ignore
 
                     failure_cases = reshape_failure_cases(failure_cases)
                     error_handler.collect_error(
@@ -1747,6 +1747,15 @@ def _pydantic_validate(cls, schema: Any) -> "DataFrameSchema":
 
         return cast("DataFrameSchema", schema)
 
+    def empty(self) -> pd.DataFrame:
+        """Return an empty dataframe with correctly named and typed columns."""
+        coerce_old = self.coerce
+        try:
+            self.coerce = True
+            return self.coerce_dtype(pd.DataFrame(columns=[*self.columns]))
+        finally:
+            self.coerce = coerce_old
+
 
 class SeriesSchemaBase:
     """Base series validator object."""
diff --git a/tests/core/test_model.py b/tests/core/test_model.py
@@ -70,6 +70,20 @@ class EmptyParentSchema(EmptySchema):
     assert empty_parent_schema == EmptyParentSchema.to_schema()
 
 
+def test_create_empty_dataframe():
+    """Ensure that SchemaModel proxies the `empty` method correctly."""
+
+    class Schema(pa.SchemaModel):
+        col_a: pa.typing.Series[int]
+        col_b: pa.typing.Series[str]
+        col_c: pa.typing.Series[float]
+
+    result = Schema.empty()
+
+    assert result.empty
+    assert Schema.validate(result).empty
+
+
 def test_invalid_annotations() -> None:
     """Test that SchemaModel.to_schema() fails if annotations or types are not
     recognized.
diff --git a/tests/core/test_schemas.py b/tests/core/test_schemas.py
@@ -25,6 +25,7 @@
 from pandera.dtypes import UniqueSettings
 from pandera.engines.pandas_engine import Engine
 from pandera.schemas import SeriesSchemaBase
+from pandera.engines.engine import DataType
 
 
 def test_dataframe_schema() -> None:
@@ -1283,6 +1284,48 @@ def test_lazy_dataframe_validation_nullable_with_checks() -> None:
         )
 
 
+def test_schema_empty():
+    """Ensure that an empty dataframe works for all valid pandera dtypes."""
+    # make sure all subclasses of pandera.dtypes.DataType are instantiated
+    import pandera.dtypes  # pylint: disable=C0415:
+    import pandera.engines.pandas_engine  # pylint: disable=C0415:
+    import pandera.engines.numpy_engine  # pylint: disable=C0415:
+
+    # find all subclasses
+    def get_subclasses(parent: type):
+        yield parent
+        for child in parent.__subclasses__():
+            yield from get_subclasses(child)
+
+    # create a valid schema of all possible dtypes pandera supports
+    skip = {
+        # these are abstract and should be excluded from column creation
+        pandera.dtypes.DataType,
+        pandera.engines.numpy_engine.DataType,
+        pandera.engines.pandas_engine.DataType,
+        # these fail when trying to make columns from them, but probably shouldn't
+        pandera.dtypes._Number,
+        pandera.dtypes._PhysicalNumber,
+        pandera.engines.pandas_engine.Period,
+        pandera.engines.pandas_engine.PydanticModel,
+        pandera.engines.pandas_engine.Interval,
+        # these fail during validation, and definitely shouldn't
+        pandera.engines.numpy_engine.DateTime64,
+        pandera.engines.numpy_engine.Bytes,
+    }
+    columns = {
+        f"{cls.__module__}.{cls.__qualname__}": pandera.Column(cls)
+        for cls in get_subclasses(DataType)
+        if cls not in skip
+    }
+    schema = pandera.DataFrameSchema(columns=columns)
+
+    result = schema.empty()
+
+    assert result.empty
+    assert schema.validate(result).empty
+
+
 @pytest.mark.parametrize(
     "schema_cls, data",
     [