Merge branch 'main' into tchow/bq-support-7

tchow-zlai · web-flow · commit 883c9a8b7250 · 2024-12-23T01:03:52.000-08:00
diff --git a/build.sbt b/build.sbt
@@ -206,7 +206,7 @@ lazy val flink = project
 
 // GCP requires java 11, can't cross compile higher
 lazy val cloud_gcp = project
-  .dependsOn(api.%("compile->compile;test->test"), online, spark)
+  .dependsOn(api % ("compile->compile;test->test"), online, spark % ("compile->compile;test->test"))
   .settings(
     libraryDependencies += "com.google.cloud" % "google-cloud-bigquery" % "2.42.0",
     libraryDependencies += "com.google.cloud" % "google-cloud-bigtable" % "2.41.0",
@@ -217,7 +217,8 @@ lazy val cloud_gcp = project
     libraryDependencies += "com.google.cloud.spark" %% s"spark-bigquery-with-dependencies" % "0.41.0",
     libraryDependencies ++= circe,
     libraryDependencies ++= avro,
-    libraryDependencies ++= spark_all
+    libraryDependencies ++= spark_all_provided,
+    dependencyOverrides ++= jackson
   )
 
 lazy val cloud_aws = project
diff --git a/cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/BigQueryFormat.scala b/cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/BigQueryFormat.scala
@@ -0,0 +1,113 @@
+package ai.chronon.integrations.cloud_gcp
+
+import ai.chronon.spark.Format
+import ai.chronon.spark.FormatProvider
+import ai.chronon.spark.Hive
+import com.google.cloud.bigquery.connector.common.BigQueryUtil
+import org.apache.spark.sql.SparkSession
+
+case class GCPFormatProvider(sparkSession: SparkSession) extends FormatProvider {
+  def readFormat(tableName: String): Format = {
+
+    val tableIdentifier = sparkSession.sessionState.sqlParser.parseTableIdentifier(tableName)
+    val tableMeta = sparkSession.sessionState.catalog.getTableRawMetadata(tableIdentifier)
+
+    val storageProvider = tableMeta.provider
+    storageProvider match {
+      case Some("com.google.cloud.spark.bigquery") => {
+
+        val tableProperties = tableMeta.properties
+        val project = tableProperties
+          .get("FEDERATION_BIGQUERY_TABLE_PROPERTY")
+          .map(BigQueryUtil.parseTableId)
+          .map(_.getProject)
+          .getOrElse(throw new IllegalStateException("bigquery project required!"))
+
+        val bigQueryTableType = tableProperties.get("federation.bigquery.table.type")
+        bigQueryTableType.map(_.toUpperCase) match {
+          case Some("EXTERNAL") => throw new IllegalStateException("External tables not yet supported.")
+          case Some("MANAGED")  => BQuery(project)
+          case None             => throw new IllegalStateException("Dataproc federation service must be available.")
+        }
+      }
+
+      case Some("hive") | None => Hive
+    }
+
+  }
+
+  // For now, fix to BigQuery. We'll clean this up.
+  def writeFormat(tableName: String): Format = ???
+}
+
+case class BQuery(project: String) extends Format {
+
+  override def primaryPartitions(tableName: String, partitionColumn: String, subPartitionsFilter: Map[String, String])(
+      implicit sparkSession: SparkSession): Seq[String] =
+    super.primaryPartitions(tableName, partitionColumn, subPartitionsFilter)
+
+  override def partitions(tableName: String)(implicit sparkSession: SparkSession): Seq[Map[String, String]] = {
+    import sparkSession.implicits._
+    val tableIdentifier = BigQueryUtil.parseTableId(tableName)
+    val table = tableIdentifier.getTable
+    val database =
+      Option(tableIdentifier.getDataset).getOrElse(throw new IllegalArgumentException("database required!"))
+
+    val originalViewsEnabled = sparkSession.conf.get("viewsEnabled", false.toString)
+    val originalMaterializationDataset = sparkSession.conf.get("materializationDataset", "")
+
+    // See: https://github.com/GoogleCloudDataproc/spark-bigquery-connector/issues/434#issuecomment-886156191
+    // and: https://cloud.google.com/bigquery/docs/information-schema-intro#limitations
+
+    sparkSession.conf.set("viewsEnabled", true)
+    sparkSession.conf.set("materializationDataset", database)
+
+    try {
+      // See: https://cloud.google.com/bigquery/docs/information-schema-columns
+      val partColsSql =
+        s"""
+           |SELECT column_name FROM `${project}.${database}.INFORMATION_SCHEMA.COLUMNS`
+           |WHERE table_name = '${table}' AND is_partitioning_column = 'YES'
+           |
+           |""".stripMargin
+
+      val partitionCol = sparkSession.read
+        .format("bigquery")
+        .option("project", project)
+        .option("query", partColsSql)
+        .load()
+        .as[String]
+        .collect
+        .headOption
+        .getOrElse(throw new UnsupportedOperationException(s"No partition column for table ${tableName} found."))
+
+      // See: https://cloud.google.com/bigquery/docs/information-schema-partitions
+      val partValsSql =
+        s"""
+           |SELECT partition_id FROM `${project}.${database}.INFORMATION_SCHEMA.PARTITIONS`
+           |WHERE table_name = '${table}'
+           |
+           |""".stripMargin
+
+      val partitionVals = sparkSession.read
+        .format("bigquery")
+        .option("project", project)
+        .option("query", partValsSql)
+        .load()
+        .as[String]
+        .collect
+        .toList
+      partitionVals.map((p) => Map(partitionCol -> p))
+
+    } finally {
+      sparkSession.conf.set("viewsEnabled", originalViewsEnabled)
+      sparkSession.conf.set("materializationDataset", originalMaterializationDataset)
+    }
+
+  }
+
+  def createTableTypeString: String = "BIGQUERY"
+  def fileFormatString(format: String): String = ""
+
+  override def supportSubPartitionsFilter: Boolean = true
+}
diff --git a/spark/src/main/scala/ai/chronon/spark/GroupBy.scala b/spark/src/main/scala/ai/chronon/spark/GroupBy.scala
@@ -677,7 +677,8 @@ object GroupBy {
     tableUtils.scanDfBase(
       selects,
       if (mutations) source.getEntities.mutationTable.cleanSpec else source.table,
-      Option(source.query.wheres).map(_.toScala).getOrElse(Seq.empty[String]) ++ partitionConditions,
+      Option(source.query.wheres).map(_.toScala).getOrElse(Seq.empty[String]),
+      partitionConditions,
       Some(metaColumns ++ keys.map(_ -> null))
     )
   }
diff --git a/spark/src/main/scala/ai/chronon/spark/Join.scala b/spark/src/main/scala/ai/chronon/spark/Join.scala
@@ -213,10 +213,10 @@ class Join(joinConf: api.Join,
         } else {
           leftRange
         }
-      val wheres = Seq(s"ds >= '${effectiveRange.start}'", s"ds <= '${effectiveRange.end}'")
+      val wheres = effectiveRange.whereClauses("ds")
       val sql = QueryUtils.build(null, partTable, wheres)
       logger.info(s"Pulling data from joinPart table with: $sql")
-      (joinPart, tableUtils.scanDfBase(null, partTable, wheres))
+      (joinPart, tableUtils.scanDfBase(null, partTable, List.empty, wheres, None))
     }
   }
 
diff --git a/spark/src/main/scala/ai/chronon/spark/TableUtils.scala b/spark/src/main/scala/ai/chronon/spark/TableUtils.scala
@@ -785,7 +785,8 @@ case class TableUtils(sparkSession: SparkSession) {
 
   def scanDfBase(selectMap: Map[String, String],
                  table: String,
-                 wheres: scala.collection.Seq[String],
+                 wheres: Seq[String],
+                 rangeWheres: Seq[String],
                  fallbackSelects: Option[Map[String, String]] = None): DataFrame = {
     val dp = DataPointer(table)
     var df = dp.toDf(sparkSession)
@@ -798,9 +799,12 @@ case class TableUtils(sparkSession: SparkSession) {
          |    ${selects.mkString("\n    ").green}
          |  wheres:
          |    ${wheres.mkString(",\n    ").green}
+         |  partition filters:
+         |    ${rangeWheres.mkString(",\n    ").green}
          |""".stripMargin.yellow)
     if (selects.nonEmpty) df = df.selectExpr(selects: _*)
     if (wheres.nonEmpty) df = df.where(wheres.map(w => s"($w)").mkString(" AND "))
+    if (rangeWheres.nonEmpty) df = df.where(rangeWheres.map(w => s"($w)").mkString(" AND "))
     df
   }
 
@@ -822,7 +826,7 @@ case class TableUtils(sparkSession: SparkSession) {
 
     val selects = Option(query).flatMap(q => Option(q.selects)).map(_.toScala).getOrElse(Map.empty)
 
-    scanDfBase(selects, table, wheres, fallbackSelects)
+    scanDfBase(selects, table, wheres, rangeWheres, fallbackSelects)
   }
 
   def partitionRange(table: String): PartitionRange = {

Original file line number	Diff line number	Diff line change
`@@ -677,7 +677,8 @@ object GroupBy {`
`677`	`677`	`tableUtils.scanDfBase(`
`678`	`678`	`selects,`
`679`	`679`	`if (mutations) source.getEntities.mutationTable.cleanSpec else source.table,`
`680`		`- Option(source.query.wheres).map(_.toScala).getOrElse(Seq.empty[String]) ++ partitionConditions,`
	`680`	`+ Option(source.query.wheres).map(_.toScala).getOrElse(Seq.empty[String]),`
	`681`	`+ partitionConditions,`
`681`	`682`	`Some(metaColumns ++ keys.map(_ -> null))`
`682`	`683`	`)`
`683`	`684`	`}`
Original file line number	Diff line number	Diff line change
`@@ -213,10 +213,10 @@ class Join(joinConf: api.Join,`
`213`	`213`	`} else {`
`214`	`214`	`leftRange`
`215`	`215`	`}`
`216`		`- val wheres = Seq(s"ds >= '${effectiveRange.start}'", s"ds <= '${effectiveRange.end}'")`
	`216`	`+ val wheres = effectiveRange.whereClauses("ds")`
`217`	`217`	`val sql = QueryUtils.build(null, partTable, wheres)`
`218`	`218`	`logger.info(s"Pulling data from joinPart table with: $sql")`
`219`		`- (joinPart, tableUtils.scanDfBase(null, partTable, wheres))`
	`219`	`+ (joinPart, tableUtils.scanDfBase(null, partTable, List.empty, wheres, None))`
`220`	`220`	`}`
`221`	`221`	`}`
`222`	`222`