pr feeedback

tchow-zlai · thomaschow · tchow-zlai · commit 3271f727e401 · 2025-01-03T16:47:10.000-08:00
Co-authored-by: Thomas Chow &lt;thomaschow369@gmail.com&gt;
diff --git a/cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/BigQueryFormat.scala b/cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/BigQueryFormat.scala
@@ -11,6 +11,7 @@ import com.google.cloud.bigquery.Table
 import com.google.cloud.bigquery.connector.common.BigQueryUtil
 import com.google.cloud.spark.bigquery.repackaged.com.google.cloud.bigquery.TableId
 import org.apache.spark.sql.SparkSession
+import org.apache.spark.sql.functions.{col, to_date}
 
 import scala.collection.JavaConverters._
 
@@ -87,7 +88,6 @@ case class GcpFormatProvider(sparkSession: SparkSession) extends FormatProvider
       * case None             => throw new IllegalStateException("Dataproc federation service must be available.")
       *
       * }
-      * }
       *
       * case Some("hive") | None => Hive
       * }
@@ -151,6 +151,13 @@ case class BQuery(project: String) extends Format {
         .option("project", project)
         .option("query", partValsSql)
         .load()
+        .select(
+          to_date(col("partition_id"),
+                  "yyyyMMdd"
+          ) // Note: this "yyyyMMdd" format is hardcoded but we need to change it to be something else.
+            .as("partition_id"))
+        .na // Should filter out '__NULL__' and '__UNPARTITIONED__'. See: https://cloud.google.com/bigquery/docs/partitioned-tables#date_timestamp_partitioned_tables
+        .drop()
         .as[String]
         .collect
         .toList
diff --git a/cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/GCSFormat.scala b/cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/GCSFormat.scala
@@ -7,10 +7,9 @@ import org.apache.spark.sql.SparkSession
 import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder
 import org.apache.spark.sql.execution.FileSourceScanExec
 import org.apache.spark.sql.execution.datasources.PartitioningAwareFileIndex
+case class GCS(project: String, sourceUri: String, fileFormat: String) extends Format {
 
-case class GCS(project: String, sourceUri: String, format: String) extends Format {
-
-  override def name: String = format
+  override def name: String = fileFormat
 
   override def primaryPartitions(tableName: String, partitionColumn: String, subPartitionsFilter: Map[String, String])(
       implicit sparkSession: SparkSession): Seq[String] =
@@ -39,7 +38,8 @@ case class GCS(project: String, sourceUri: String, format: String) extends Forma
       *
       */
     val partitionSpec = sparkSession.read
-      .parquet(sourceUri)
+      .format(fileFormat)
+      .load(sourceUri)
       .queryExecution
       .sparkPlan
       .asInstanceOf[FileSourceScanExec]
@@ -52,7 +52,12 @@ case class GCS(project: String, sourceUri: String, format: String) extends Forma
     val partitions = partitionSpec.partitions.map(_.values)
 
     val deserializer =
-      Encoders.row(partitionColumns).asInstanceOf[ExpressionEncoder[Row]].resolveAndBind().createDeserializer()
+      try {
+        Encoders.row(partitionColumns).asInstanceOf[ExpressionEncoder[Row]].resolveAndBind().createDeserializer()
+      } catch {
+        case e: Exception =>
+          throw new RuntimeException(s"Failed to create deserializer for partition columns: ${e.getMessage}", e)
+      }
 
     val roundTripped = sparkSession
       .createDataFrame(sparkSession.sparkContext.parallelize(partitions.map(deserializer)), partitionColumns)
diff --git a/cloud_gcp/src/test/scala/ai/chronon/integrations/cloud_gcp/GCSFormatTest.scala b/cloud_gcp/src/test/scala/ai/chronon/integrations/cloud_gcp/GCSFormatTest.scala
@@ -0,0 +1,89 @@
+package ai.chronon.integrations.cloud_gcp
+
+import ai.chronon.spark.SparkSessionBuilder
+import org.apache.spark.sql.{Row, SaveMode, SparkSession}
+import org.apache.spark.sql.functions._
+import org.apache.spark.sql.types.{StringType, StructField, StructType}
+
+import org.junit.Assert.assertEquals
+import org.scalatest.funsuite.AnyFunSuite
+
+import java.nio.file.Files
+
+class GCSFormatTest extends AnyFunSuite {
+
+  lazy val spark: SparkSession = SparkSessionBuilder.build(
+    "BigQuerySparkTest",
+    local = true
+  )
+
+  test("partitions method should return correctly parsed partitions as maps") {
+
+    val testData = List(
+      ("20241223", "b", "c"),
+      ("20241224", "e", "f"),
+      ("20241225", "h", "i")
+    )
+
+    val dir = Files.createTempDirectory("spark-test-output").toFile
+    dir.deleteOnExit()
+
+    val df = spark.createDataFrame(testData).toDF("ds", "first", "second")
+    df.write.partitionBy("ds").format("parquet").mode(SaveMode.Overwrite).save(dir.getAbsolutePath)
+    val gcsFormat = GCS(project = "test-project", sourceUri = dir.getAbsolutePath, fileFormat = "parquet")
+    val partitions = gcsFormat.partitions("unused_table")(spark)
+
+    assertEquals(Set(Map("ds" -> "20241223"), Map("ds" -> "20241224"), Map("ds" -> "20241225")), partitions.toSet)
+
+  }
+
+  test("partitions method should handle empty partitions gracefully") {
+
+    val testData = List(
+      ("20241223", "b", "c"),
+      ("20241224", "e", "f"),
+      ("20241225", "h", "i")
+    )
+
+    val dir = Files.createTempDirectory("spark-test-output").toFile
+    dir.deleteOnExit()
+
+    val df = spark.createDataFrame(testData).toDF("ds", "first", "second")
+    df.write.format("parquet").mode(SaveMode.Overwrite).save(dir.getAbsolutePath)
+    val gcsFormat = GCS(project = "test-project", sourceUri = dir.getAbsolutePath, fileFormat = "parquet")
+    val partitions = gcsFormat.partitions("unused_table")(spark)
+
+    assertEquals(Set.empty, partitions.toSet)
+
+  }
+
+  test("partitions method should handle date types") {
+    val testData = List(
+      Row("2024-12-23", "b", "c"),
+      Row("2024-12-24", "e", "f"),
+      Row("2024-12-25", "h", "i")
+    )
+
+    val dir = Files.createTempDirectory("spark-test-output").toFile
+    dir.deleteOnExit()
+
+    val schema = StructType(
+      Seq(
+        StructField("ds", StringType, nullable = true),
+        StructField("first", StringType, nullable = true),
+        StructField("second", StringType, nullable = true)
+      ))
+
+    val df =
+      spark
+        .createDataFrame(spark.sparkContext.parallelize(testData), schema)
+        .toDF("ds", "first", "second")
+        .select(to_date(col("ds"), "yyyy-MM-dd").as("ds"), col("first"), col("second"))
+    df.write.format("parquet").partitionBy("ds").mode(SaveMode.Overwrite).save(dir.getAbsolutePath)
+    val gcsFormat = GCS(project = "test-project", sourceUri = dir.getAbsolutePath, fileFormat = "parquet")
+    val partitions = gcsFormat.partitions("unused_table")(spark)
+
+    assertEquals(Set(Map("ds" -> "2024-12-23"), Map("ds" -> "2024-12-24"), Map("ds" -> "2024-12-25")), partitions.toSet)
+
+  }
+}
diff --git a/spark/src/main/scala/ai/chronon/spark/Driver.scala b/spark/src/main/scala/ai/chronon/spark/Driver.scala
@@ -278,7 +278,7 @@ object Driver {
       val join = new Join(
         args.joinConf,
         args.endDate(),
-        args.buildTableUtils(),
+        tableUtils,
         !args.runFirstHole(),
         selectedJoinParts = args.selectedJoinParts.toOption
       )
diff --git a/spark/src/main/scala/ai/chronon/spark/Extensions.scala b/spark/src/main/scala/ai/chronon/spark/Extensions.scala
@@ -309,6 +309,7 @@ object Extensions {
               dfw
                 .format("bigquery")
                 .options(dataPointer.options)
+                .option("writeMethod", "direct")
                 .save(dataPointer.tableOrPath)
             case "snowflake" | "sf" =>
               dfw
diff --git a/spark/src/main/scala/ai/chronon/spark/JoinBase.scala b/spark/src/main/scala/ai/chronon/spark/JoinBase.scala
@@ -441,7 +441,7 @@ abstract class JoinBase(joinConf: api.Join,
         if (tableUtils.backfillValidationEnforced) throw ex
       case e: Throwable =>
         metrics.gauge(Metrics.Name.validationFailure, 1)
-        logger.error(s"An unexpected error occurred during validation. ${e.getMessage}")
+        throw e
     }
 
     // First run command to archive tables that have changed semantically since the last run
@@ -494,7 +494,11 @@ abstract class JoinBase(joinConf: api.Join,
     val runSmallMode = {
       if (tableUtils.smallModelEnabled) {
         val thresholdCount =
-          leftDf(joinConf, wholeRange, tableUtils, limit = Some(tableUtils.smallModeNumRowsCutoff + 1)).get.count()
+          leftDf(joinConf,
+                 wholeRange,
+                 tableUtils,
+                 allowEmpty = true,
+                 limit = Some(tableUtils.smallModeNumRowsCutoff + 1)).get.count()
         val result = thresholdCount <= tableUtils.smallModeNumRowsCutoff
         if (result) {
           logger.info(s"Counted $thresholdCount rows, running join in small mode.")
diff --git a/spark/src/main/scala/ai/chronon/spark/TableUtils.scala b/spark/src/main/scala/ai/chronon/spark/TableUtils.scala
@@ -233,7 +233,11 @@ class TableUtils(@transient val sparkSession: SparkSession) extends Serializable
     try {
       // retrieve one row from the table
       val partitionFilter = lastAvailablePartition(tableName).getOrElse(fallbackPartition)
-      sparkSession.sql(s"SELECT * FROM $tableName where $partitionColumn='$partitionFilter' LIMIT 1").collect()
+      sparkSession.read
+        .load(DataPointer(tableName, sparkSession))
+        .where(s"$partitionColumn='$partitionFilter'")
+        .limit(1)
+        .collect()
       true
     } catch {
       case e: SparkException =>

Original file line number	Diff line number	Diff line change
`@@ -278,7 +278,7 @@ object Driver {`
`278`	`278`	`val join = new Join(`
`279`	`279`	`args.joinConf,`
`280`	`280`	`args.endDate(),`
`281`		`- args.buildTableUtils(),`
	`281`	`+ tableUtils,`
`282`	`282`	`!args.runFirstHole(),`
`283`	`283`	`selectedJoinParts = args.selectedJoinParts.toOption`
`284`	`284`	`)`