feat: Add _ModelBasedMetric base class to vertexai.preview.evaluation.metrics and allow metric spec customization

jsondai · copybara-github · commit 536f1d5bfc0e · 2024-06-18T10:48:15.000-07:00
PiperOrigin-RevId: 644440372
diff --git a/tests/unit/vertexai/test_evaluation.py b/tests/unit/vertexai/test_evaluation.py
@@ -31,6 +31,9 @@
 from vertexai.preview.evaluation import _base as eval_base
 from vertexai.preview.evaluation import _evaluation
 from vertexai.preview.evaluation import utils
+from vertexai.preview.evaluation.metrics import (
+    _pairwise_summarization_quality,
+)
 import numpy as np
 import pandas as pd
 import pytest
@@ -111,6 +114,18 @@
         )
     ),
 )
+_MOCK_SUMMARIZATION_QUALITY_RESULT = (
+    gapic_evaluation_service_types.EvaluateInstancesResponse(
+        summarization_quality_result=gapic_evaluation_service_types.SummarizationQualityResult(
+            score=5, explanation="explanation", confidence=1.0
+        )
+    ),
+    gapic_evaluation_service_types.EvaluateInstancesResponse(
+        summarization_quality_result=gapic_evaluation_service_types.SummarizationQualityResult(
+            score=4, explanation="explanation", confidence=0.5
+        )
+    ),
+)
 
 _MOCK_PAIRWISE_SUMMARIZATION_QUALITY_RESULT = (
     gapic_evaluation_service_types.EvaluateInstancesResponse(
@@ -331,8 +346,7 @@ def test_compute_pairwise_metrics_with_model_inference(self, api_transport):
         )
         mock_candidate_model._model_name = "publishers/google/model/gemini-pro"
         test_metrics = [
-            evaluation.PairwiseMetric(
-                metric="pairwise_summarization_quality",
+            _pairwise_summarization_quality.PairwiseSummarizationQuality(
                 baseline_model=mock_baseline_model,
                 use_reference=False,
             )
@@ -418,8 +432,7 @@ def test_compute_pairwise_metrics_without_inference(self, api_transport):
             }
         )
         test_metrics = [
-            evaluation.PairwiseMetric(
-                metric="summarization_quality",
+            _pairwise_summarization_quality.PairwiseSummarizationQuality(
                 baseline_model=None,
                 use_reference=True,
             )
@@ -608,12 +621,10 @@ def test_evaluate_pairwise_metrics_with_multiple_baseline_models(self):
         )
         mock_candidate_model._model_name = "publishers/google/model/gemini-1.0-ultra"
         test_metrics = [
-            evaluation.PairwiseMetric(
-                metric="pairwise_summarization_quality",
+            _pairwise_summarization_quality.PairwiseSummarizationQuality(
                 baseline_model=mock_baseline_model_1,
             ),
-            evaluation.PairwiseMetric(
-                metric="pairwise_summarization_quality",
+            _pairwise_summarization_quality.PairwiseSummarizationQuality(
                 baseline_model=mock_baseline_model_2,
             ),
         ]
diff --git a/vertexai/preview/evaluation/_eval_tasks.py b/vertexai/preview/evaluation/_eval_tasks.py
@@ -210,6 +210,7 @@ def __init__(
                 ],
                 metrics_base.CustomMetric,
                 metrics_base.PairwiseMetric,
+                metrics_base._ModelBasedMetric,
             ]
         ],
         experiment: Optional[str] = None,
diff --git a/vertexai/preview/evaluation/_evaluation.py b/vertexai/preview/evaluation/_evaluation.py
@@ -91,8 +91,22 @@
 
 
 def _replace_metric_bundle_with_metrics(
-    metrics: List[Union[str, metrics_base.CustomMetric, metrics_base.PairwiseMetric]],
-) -> List[Union[str, metrics_base.CustomMetric, metrics_base.PairwiseMetric]]:
+    metrics: List[
+        Union[
+            str,
+            metrics_base.CustomMetric,
+            metrics_base.PairwiseMetric,
+            metrics_base._ModelBasedMetric,
+        ]
+    ],
+) -> List[
+    Union[
+        str,
+        metrics_base.CustomMetric,
+        metrics_base.PairwiseMetric,
+        metrics_base._ModelBasedMetric,
+    ]
+]:
     """Replaces metric bundles with corresponding metrics.
 
     Args:
@@ -147,9 +161,17 @@ def _compute_custom_metrics(
 
 
 def _separate_custom_metrics(
-    metrics: List[Union[str, metrics_base.CustomMetric, metrics_base.PairwiseMetric]],
+    metrics: List[
+        Union[
+            str,
+            metrics_base.CustomMetric,
+            metrics_base.PairwiseMetric,
+            metrics_base._ModelBasedMetric,
+        ]
+    ],
 ) -> Tuple[
-    List[Union[str, metrics_base.PairwiseMetric]], List[metrics_base.CustomMetric]
+    List[Union[str, metrics_base.PairwiseMetric, metrics_base._ModelBasedMetric]],
+    List[metrics_base.CustomMetric],
 ]:
     """Separates the metrics list into API and custom metrics."""
     custom_metrics = []
@@ -180,17 +202,12 @@ def _compute_summary_metrics(
     for metric in evaluation_run_config.metrics:
         try:
             if isinstance(metric, metrics_base.PairwiseMetric):
-                summary_metrics[
-                    f"{metric.pairwise_metric_name}/candidate_model_win_rate"
-                ] = (
-                    metrics_table[f"{metric.pairwise_metric_name}/pairwise_choice"]
+                summary_metrics[f"{metric.metric_name}/candidate_model_win_rate"] = (
+                    metrics_table[f"{metric.metric_name}/pairwise_choice"]
                     == "CANDIDATE"
                 ).mean()
-                summary_metrics[
-                    f"{metric.pairwise_metric_name}/baseline_model_win_rate"
-                ] = (
-                    metrics_table[f"{metric.pairwise_metric_name}/pairwise_choice"]
-                    == "BASELINE"
+                summary_metrics[f"{metric.metric_name}/baseline_model_win_rate"] = (
+                    metrics_table[f"{metric.metric_name}/pairwise_choice"] == "BASELINE"
                 ).mean()
             else:
                 # TODO(b/325078638): implement additional aggregate methods.
@@ -303,11 +320,11 @@ def _generate_response_from_gemini_model(
                         model=model,
                     )
                 )
-    respones = [task.result() for task in tasks]
+    responses = [task.result() for task in tasks]
     if is_baseline_model:
-        evaluation_run_config.dataset = df.assign(baseline_model_response=respones)
+        evaluation_run_config.dataset = df.assign(baseline_model_response=responses)
     else:
-        evaluation_run_config.dataset = df.assign(response=respones)
+        evaluation_run_config.dataset = df.assign(response=responses)
 
     _LOGGER.info(
         f"All {evaluation_run_config.dataset.shape[0]} responses are successfully"
@@ -358,11 +375,11 @@ def _generate_response_from_custom_model_fn(
     except (ValueError, IndexError) as e:
         _LOGGER.warning(f"Failed to generate response from model function: {e}")
 
-    respones = [task.result() for task in tasks]
+    responses = [task.result() for task in tasks]
     if is_baseline_model:
-        evaluation_run_config.dataset = df.assign(baseline_model_response=respones)
+        evaluation_run_config.dataset = df.assign(baseline_model_response=responses)
     else:
-        evaluation_run_config.dataset = df.assign(response=respones)
+        evaluation_run_config.dataset = df.assign(response=responses)
 
     _LOGGER.info(
         f"All {evaluation_run_config.dataset.shape[0]} responses are successfully"
@@ -582,11 +599,7 @@ async def _compute_metrics(
                     retry_timeout=evaluation_run_config.retry_timeout,
                 )
             )
-            if isinstance(metric, metrics_base.PairwiseMetric):
-                metric_name = metric.pairwise_metric_name
-            else:
-                metric_name = metric
-            tasks_by_metric[metric_name].append(task)
+            tasks_by_metric[str(metric)].append(task)
 
     api_request_count = len(api_metrics) * len(evaluation_run_config.dataset)
     _LOGGER.info(
@@ -608,7 +621,14 @@ async def _compute_metrics(
 
 def evaluate(
     dataset: "pd.DataFrame",
-    metrics: List[Union[str, metrics_base.CustomMetric, metrics_base.PairwiseMetric]],
+    metrics: List[
+        Union[
+            str,
+            metrics_base.CustomMetric,
+            metrics_base.PairwiseMetric,
+            metrics_base._ModelBasedMetric,
+        ]
+    ],
     *,
     model: Optional[
         Union[generative_models.GenerativeModel, Callable[[str], str]]
diff --git a/vertexai/preview/evaluation/metrics/_base.py b/vertexai/preview/evaluation/metrics/_base.py
@@ -16,10 +16,20 @@
 #
 
 from typing import Any, Callable, Dict, Literal, Optional, Union
+import warnings
+
 from vertexai import generative_models
 from vertexai.preview.evaluation import constants
 
 
+_DEPRECATION_WARNING_MESSAGE = (
+    "After google-cloud-aiplatform>1.60.0, using metric name `summarization_quality`"
+    "and `question_answering_quality` will result in an error. "
+    "Please use `pairwise_summarization_quality` and "
+    "`pairwise_question_answering_quality` instead."
+)
+
+
 class PairwiseMetric:
     """The Side-by-side(SxS) Pairwise Metric.
 
@@ -64,7 +74,7 @@ class PairwiseMetric:
         candidate_model = GenerativeModel("gemini-1.5-pro")
 
         pairwise_summarization_quality = PairwiseMetric(
-          metric = "summarization_quality",
+          metric = "pairwise_summarization_quality",
           baseline_model=baseline_model,
         )
 
@@ -109,16 +119,19 @@ def __init__(
         # TODO(b/311221071): Remove the legacy metric names for GA.
         if metric in ("summarization_quality", "question_answering_quality"):
             metric = f"pairwise_{metric}"
+            warnings.warn(
+                _DEPRECATION_WARNING_MESSAGE, DeprecationWarning, stacklevel=2
+            )
         self._metric = metric
         self._baseline_model = baseline_model
         self._use_reference = use_reference
         self._version = version
 
     def __str__(self):
-        return self.pairwise_metric_name
+        return self.metric_name
 
     @property
-    def pairwise_metric_name(self) -> str:
+    def metric_name(self) -> str:
         return self._metric
 
     @property
@@ -136,6 +149,64 @@ def version(self) -> int:
         return self._version
 
 
+class _ModelBasedMetric:
+    """The Model-based Metric.
+
+    A model-based evaluation metric that evaluate a generative model's response
+    on the given evaluation task.
+
+    For more details on when to use model-based metrics, see
+    [Evaluation methods and metrics](https://cloud.google.com/vertex-ai/generative-ai/docs/models/determine-eval).
+    """
+
+    def __init__(
+        self,
+        *,
+        metric: Literal[
+            constants.Metric.COHERENCE,
+            constants.Metric.FLUENCY,
+            constants.Metric.SAFETY,
+            constants.Metric.GROUNDEDNESS,
+            constants.Metric.FULFILLMENT,
+            constants.Metric.SUMMARIZATION_QUALITY,
+            constants.Metric.SUMMARIZATION_HELPFULNESS,
+            constants.Metric.SUMMARIZATION_VERBOSITY,
+            constants.Metric.QUESTION_ANSWERING_QUALITY,
+            constants.Metric.QUESTION_ANSWERING_RELEVANCE,
+            constants.Metric.QUESTION_ANSWERING_HELPFULNESS,
+            constants.Metric.QUESTION_ANSWERING_CORRECTNESS,
+        ],
+        use_reference: bool = False,
+        version: Optional[int] = None,
+    ):
+        """Initializes the model-based evaluation metric.
+
+        Args:
+          metric: The model-based evaluation metric name.
+          use_reference: Whether to use reference to compute the metric. If
+            specified, the reference column is required in the dataset.
+          version: The metric version to use for evaluation.
+        """
+        self._metric = metric
+        self._use_reference = use_reference
+        self._version = version
+
+    def __str__(self):
+        return self.metric_name
+
+    @property
+    def metric_name(self) -> str:
+        return self._metric
+
+    @property
+    def use_reference(self) -> bool:
+        return self._use_reference
+
+    @property
+    def version(self) -> int:
+        return self._version
+
+
 class CustomMetric:
     """The custom evaluation metric.
 
diff --git a/vertexai/preview/evaluation/metrics/_instance_evaluation.py b/vertexai/preview/evaluation/metrics/_instance_evaluation.py

Original file line number	Diff line number	Diff line change
`@@ -210,6 +210,7 @@ def __init__(`
`210`	`210`	`],`
`211`	`211`	`metrics_base.CustomMetric,`
`212`	`212`	`metrics_base.PairwiseMetric,`
	`213`	`+ metrics_base._ModelBasedMetric,`
`213`	`214`	`]`
`214`	`215`	`],`
`215`	`216`	`experiment: Optional[str] = None,`