Remove result_df from mlflow.genai.evaluation result (mlflow#15896)

B-Step62 · web-flow · commit 61b8e4d6aa61 · 2025-05-27T20:34:59.000+09:00
Signed-off-by: B-Step62 &lt;yuki.watanabe@databricks.com&gt;
Signed-off-by: Yuki Watanabe &lt;31463517+B-Step62@users.noreply.github.com&gt;
diff --git a/mlflow/genai/evaluation/base.py b/mlflow/genai/evaluation/base.py
@@ -1,6 +1,5 @@
 import logging
 import warnings
-from dataclasses import dataclass
 from typing import TYPE_CHECKING, Any, Callable, Optional
 
 import mlflow
@@ -14,6 +13,7 @@
 from mlflow.genai.scorers.validation import valid_data_for_builtin_scorers, validate_scorers
 from mlflow.genai.utils.trace_utils import convert_predict_fn
 from mlflow.models.evaluation.base import (
+    EvaluationResult,
     _is_model_deployment_endpoint_uri,
 )
 from mlflow.utils.annotations import experimental
@@ -22,24 +22,10 @@
 if TYPE_CHECKING:
     from genai.evaluation.utils import EvaluationDatasetTypes
 
-try:
-    # `pandas` is not required for `mlflow-skinny`.
-    import pandas as pd
-except ImportError:
-    pass
-
 
 logger = logging.getLogger(__name__)
 
 
-@experimental
-@dataclass
-class EvaluationResult:
-    run_id: str
-    metrics: dict[str, float]
-    result_df: "pd.DataFrame"
-
-
 @experimental
 def evaluate(
     data: "EvaluationDatasetTypes",
@@ -218,6 +204,9 @@ def predict_fn(question: str) -> str:
             the evaluation results. Can be also set globally via the
             :py:func:`mlflow.set_active_model` function.
 
+    Returns:
+        An :py:class:`mlflow.models.EvaluationResult~` object.
+
     Note:
         This function is only supported on Databricks. The tracking URI must be
         set to Databricks.
@@ -288,7 +277,7 @@ def predict_fn(question: str) -> str:
             module="mlflow.data.evaluation_dataset",
         )
 
-        result = mlflow.models.evaluate(
+        return mlflow.models.evaluate(
             model=predict_fn,
             data=data,
             evaluator_config=evaluation_config,
@@ -298,12 +287,6 @@ def predict_fn(question: str) -> str:
             _called_from_genai_evaluate=True,
         )
 
-    return EvaluationResult(
-        run_id=result._run_id,
-        metrics=result.metrics,
-        result_df=result.tables["eval_results"],
-    )
-
 
 @experimental
 def to_predict_fn(endpoint_uri: str) -> Callable:
diff --git a/mlflow/models/evaluation/base.py b/mlflow/models/evaluation/base.py
@@ -670,6 +670,13 @@ def artifacts(self) -> dict[str, "mlflow.models.EvaluationArtifact"]:
         """
         return self._artifacts
 
+    @property
+    def run_id(self) -> str:
+        """
+        The ID of the MLflow Run to which the evaluation results were logged.
+        """
+        return self._run_id
+
     @property
     def tables(self) -> dict[str, "pd.DataFrame"]:
         """
diff --git a/tests/genai/test_scorer.py b/tests/genai/test_scorer.py
@@ -204,30 +204,8 @@ def dummy_scorer(inputs, outputs):
         data=sample_data,
         scorers=[dummy_scorer],
     )
-
     assert any("metric/dummy_scorer" in metric for metric in results.metrics.keys())
 
-    dummy_scorer_cols = [
-        col for col in results.result_df.keys() if "dummy_scorer" in col and "value" in col
-    ]
-    dummy_scorer_values = set()
-    for col in dummy_scorer_cols:
-        for _val in results.result_df[col]:
-            dummy_scorer_values.add(_val)
-
-    scorer_return_values = set()
-    if isinstance(scorer_return, list):
-        for _assessment in scorer_return:
-            scorer_return_values.add(_assessment.feedback.value)
-    elif isinstance(scorer_return, Assessment):
-        scorer_return_values.add(scorer_return.feedback.value)
-    elif isinstance(scorer_return, mlflow.evaluation.Assessment):
-        scorer_return_values.add(scorer_return.value)
-    else:
-        scorer_return_values.add(scorer_return)
-
-    assert dummy_scorer_values == scorer_return_values
-
 
 def test_scorer_returns_feedback_with_error(sample_data):
     @scorer