perf: resolve schema only once and cache (#696)

nikhil-zlai · web-flow · commit abd7556a2e16 · 2025-04-29T01:30:11.000-07:00
diff --git a/cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/BigQueryNative.scala b/cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/BigQueryNative.scala
@@ -14,7 +14,9 @@ case object BigQueryNative extends Format {
 
   private val internalBQCol = "__chronon_internal_bq_col__"
 
-  override def table(tableName: String, partitionFilters: String)(implicit sparkSession: SparkSession): DataFrame = {
+  // TODO(tchow): use the cache flag
+  override def table(tableName: String, partitionFilters: String, cacheDf: Boolean = false)(implicit
+      sparkSession: SparkSession): DataFrame = {
     import sparkSession.implicits._
 
     // First, need to clean the spark-based table name for the bigquery queries below.
diff --git a/spark/src/main/scala/ai/chronon/spark/Extensions.scala b/spark/src/main/scala/ai/chronon/spark/Extensions.scala
@@ -28,7 +28,7 @@ import org.apache.spark.sql.functions._
 import org.apache.spark.sql.types.{LongType, StructType}
 import org.apache.spark.util.sketch.BloomFilter
 import org.slf4j.{Logger, LoggerFactory}
-import ai.chronon.spark.catalog.TableUtils
+import ai.chronon.spark.catalog.{TableCache, TableUtils}
 
 import java.util
 import scala.collection.Seq
@@ -76,7 +76,6 @@ object Extensions {
       if (intersectedCounts.isEmpty) return None
       Some(DfWithStats(df.prunePartition(range), intersectedCounts))
     }
-    def stats: DfStats = DfStats(count, partitionRange)
   }
 
   object DfWithStats {
@@ -143,6 +142,7 @@ object Extensions {
              tableProperties: Map[String, String] = null,
              partitionColumns: Seq[String] = List(tableUtils.partitionColumn),
              autoExpand: Boolean = false): Unit = {
+
       TableUtils(df.sparkSession).insertPartitions(df,
                                                    tableName,
                                                    tableProperties,
diff --git a/spark/src/main/scala/ai/chronon/spark/GroupBy.scala b/spark/src/main/scala/ai/chronon/spark/GroupBy.scala
@@ -687,7 +687,8 @@ object GroupBy {
       if (mutations) source.getEntities.mutationTable.cleanSpec else source.table,
       Option(source.query.wheres).map(_.toScala).getOrElse(Seq.empty[String]),
       partitionConditions,
-      Some(metaColumns ++ keys.map(_ -> null))
+      Some(metaColumns ++ keys.map(_ -> null)),
+      cacheDf = true
     )
   }
 
diff --git a/spark/src/main/scala/ai/chronon/spark/Join.scala b/spark/src/main/scala/ai/chronon/spark/Join.scala
@@ -287,13 +287,6 @@ class Join(joinConf: api.Join,
       }
     }
 
-    val leftTimeRangeOpt = if (leftTaggedDf.schema.fieldNames.contains(Constants.TimePartitionColumn)) {
-      val leftTimePartitionMinMax = leftTaggedDf.range[String](Constants.TimePartitionColumn)
-      Some(PartitionRange(leftTimePartitionMinMax._1, leftTimePartitionMinMax._2))
-    } else {
-      None
-    }
-
     implicit val executionContext: ExecutionContextExecutorService =
       ExecutionContext.fromExecutorService(Executors.newFixedThreadPool(tableUtils.joinPartParallelism))
 
@@ -342,7 +335,7 @@ class Join(joinConf: api.Join,
               }
 
               val runContext =
-                JoinPartJobContext(unfilledLeftDf, bloomFilterOpt, leftTimeRangeOpt, tableProps, runSmallMode)
+                JoinPartJobContext(unfilledLeftDf, bloomFilterOpt, tableProps, runSmallMode)
 
               val skewKeys: Option[Map[String, Seq[String]]] = Option(joinConfCloned.skewKeys).map { jmap =>
                 val scalaMap = jmap.toScala
diff --git a/spark/src/main/scala/ai/chronon/spark/JoinUtils.scala b/spark/src/main/scala/ai/chronon/spark/JoinUtils.scala
@@ -71,27 +71,33 @@ object JoinUtils {
              tableUtils: TableUtils,
              allowEmpty: Boolean = false,
              limit: Option[Int] = None): Option[DataFrame] = {
+
     val timeProjection = if (joinConf.left.dataModel == EVENTS) {
       Seq(Constants.TimeColumn -> Option(joinConf.left.query).map(_.timeColumn).orNull)
     } else {
       Seq()
     }
+
     var df = tableUtils.scanDf(joinConf.left.query,
                                joinConf.left.table,
                                Some((Map(tableUtils.partitionColumn -> null) ++ timeProjection).toMap),
                                range = Some(range))
+
     limit.foreach(l => df = df.limit(l))
+
     val skewFilter = joinConf.skewFilter()
     val result = skewFilter
       .map(sf => {
         logger.info(s"left skew filter: $sf")
         df.filter(sf)
       })
       .getOrElse(df)
+
     if (!allowEmpty && result.isEmpty) {
       logger.info(s"Left side query below produced 0 rows in range $range, and allowEmpty=false.")
       return None
     }
+
     Some(result)
   }
 
@@ -561,11 +567,7 @@ object JoinUtils {
     }.toMap)
   }
 
-  def shiftDays(leftDataModel: DataModel,
-                joinPart: JoinPart,
-                leftTimeRangeOpt: Option[PartitionRange],
-                leftDf: Option[DfWithStats],
-                leftRange: PartitionRange) = {
+  def shiftDays(leftDataModel: DataModel, joinPart: JoinPart, leftRange: PartitionRange): PartitionRange = {
     val shiftDays =
       if (leftDataModel == EVENTS && joinPart.groupBy.inferredAccuracy == Accuracy.SNAPSHOT) {
         -1
@@ -580,7 +582,7 @@ object JoinUtils {
     // events | entities | temporal => right part tables are aligned - so scan by leftRange
     // entities | entities | snapshot => right part tables are aligned - so scan by leftRange
     val rightRange = if (leftDataModel == EVENTS && joinPart.groupBy.inferredAccuracy == Accuracy.SNAPSHOT) {
-      // Diabling for now
+      // Disabling for now
       // val leftTimeRange = leftTimeRangeOpt.getOrElse(leftDf.get.timeRange.toPartitionRange)
       leftRange.shift(shiftDays)
     } else {
diff --git a/spark/src/main/scala/ai/chronon/spark/batch/JoinPartJob.scala b/spark/src/main/scala/ai/chronon/spark/batch/JoinPartJob.scala
@@ -3,7 +3,7 @@ package ai.chronon.spark.batch
 import ai.chronon.api.DataModel.{ENTITIES, EVENTS}
 import ai.chronon.api.Extensions.{DateRangeOps, DerivationOps, GroupByOps, JoinPartOps, MetadataOps}
 import ai.chronon.api.PartitionRange.toTimeRange
-import ai.chronon.api.{Accuracy, Builders, Constants, DateRange, JoinPart, PartitionRange}
+import ai.chronon.api.{Accuracy, Builders, Constants, DateRange, JoinPart, PartitionRange, PartitionSpec}
 import ai.chronon.online.metrics.Metrics
 import ai.chronon.orchestration.JoinPartNode
 import ai.chronon.spark.Extensions._
@@ -20,13 +20,12 @@ import scala.jdk.CollectionConverters._
 
 case class JoinPartJobContext(leftDf: Option[DfWithStats],
                               joinLevelBloomMapOpt: Option[util.Map[String, BloomFilter]],
-                              leftTimeRangeOpt: Option[PartitionRange],
                               tableProps: Map[String, String],
                               runSmallMode: Boolean)
 
 class JoinPartJob(node: JoinPartNode, range: DateRange, showDf: Boolean = false)(implicit tableUtils: TableUtils) {
   @transient lazy val logger: Logger = LoggerFactory.getLogger(getClass)
-  implicit val partitionSpec = tableUtils.partitionSpec
+  implicit val partitionSpec: PartitionSpec = tableUtils.partitionSpec
 
   private val leftTable = node.leftSourceTable
   private val joinPart = node.joinPart
@@ -50,14 +49,6 @@ class JoinPartJob(node: JoinPartNode, range: DateRange, showDf: Boolean = false)
       val query = Builders.Query(selects = relevantLeftCols.map(t => t -> t).toMap)
       val cachedLeftDf = tableUtils.scanDf(query = query, leftTable, range = Some(dateRange))
 
-      val leftTimeRangeOpt: Option[PartitionRange] =
-        if (cachedLeftDf.schema.fieldNames.contains(Constants.TimePartitionColumn)) {
-          val leftTimePartitionMinMax = cachedLeftDf.range[String](Constants.TimePartitionColumn)
-          Some(PartitionRange(leftTimePartitionMinMax._1, leftTimePartitionMinMax._2))
-        } else {
-          None
-        }
-
       val runSmallMode = JoinUtils.runSmallMode(tableUtils, cachedLeftDf)
 
       val leftWithStats = cachedLeftDf.withStats
@@ -67,7 +58,6 @@ class JoinPartJob(node: JoinPartNode, range: DateRange, showDf: Boolean = false)
 
       JoinPartJobContext(Option(leftWithStats),
                          joinLevelBloomMapOpt,
-                         leftTimeRangeOpt,
                          Option(node.metaData.tableProps).getOrElse(Map.empty[String, String]),
                          runSmallMode)
     }
@@ -77,27 +67,25 @@ class JoinPartJob(node: JoinPartNode, range: DateRange, showDf: Boolean = false)
       jobContext.leftDf,
       joinPart,
       dateRange,
-      jobContext.leftTimeRangeOpt,
       node.metaData.outputTable,
       jobContext.tableProps,
       jobContext.joinLevelBloomMapOpt,
       jobContext.runSmallMode
     )
   }
 
-  def computeRightTable(leftDfOpt: Option[DfWithStats],
-                        joinPart: JoinPart,
-                        leftRange: PartitionRange, // missing left partitions
-                        leftTimeRangeOpt: Option[PartitionRange], // range of timestamps within missing left partitions
-                        partTable: String,
-                        tableProps: Map[String, String] = Map(),
-                        joinLevelBloomMapOpt: Option[util.Map[String, BloomFilter]],
-                        smallMode: Boolean = false): Option[DataFrame] = {
+  private def computeRightTable(leftDfOpt: Option[DfWithStats],
+                                joinPart: JoinPart,
+                                leftRange: PartitionRange, // missing left partitions
+                                partTable: String,
+                                tableProps: Map[String, String] = Map(),
+                                joinLevelBloomMapOpt: Option[util.Map[String, BloomFilter]],
+                                smallMode: Boolean = false): Option[DataFrame] = {
 
     // val partMetrics = Metrics.Context(metrics, joinPart) -- TODO is this metrics context sufficient, or should we pass thru for monolith join?
     val partMetrics = Metrics.Context(Metrics.Environment.JoinOffline, joinPart.groupBy)
 
-    val rightRange = JoinUtils.shiftDays(node.leftDataModel, joinPart, leftTimeRangeOpt, leftDfOpt, leftRange)
+    val rightRange = JoinUtils.shiftDays(node.leftDataModel, joinPart, leftRange)
 
     // Can kill the option after we deprecate monolith join job
     leftDfOpt.map { leftDf =>
diff --git a/spark/src/main/scala/ai/chronon/spark/catalog/Format.scala b/spark/src/main/scala/ai/chronon/spark/catalog/Format.scala
@@ -1,20 +1,47 @@
 package ai.chronon.spark.catalog
 
-import org.apache.spark.sql.SparkSession
+import org.apache.spark.sql.{DataFrame, SparkSession}
 import org.slf4j.{Logger, LoggerFactory}
-import org.apache.spark.sql.DataFrame
+
+import java.util.concurrent.{ConcurrentHashMap, ConcurrentMap}
+import java.util.function
+
+object TableCache {
+  private val dfMap: ConcurrentMap[String, DataFrame] = new ConcurrentHashMap[String, DataFrame]()
+
+  def get(tableName: String)(implicit sparkSession: SparkSession): DataFrame = {
+    dfMap.computeIfAbsent(tableName,
+                          new function.Function[String, DataFrame] {
+                            override def apply(t: String): DataFrame = {
+                              sparkSession.read.table(t)
+                            }
+                          })
+  }
+
+  def remove(tableName: String): Unit = {
+    dfMap.remove(tableName)
+  }
+}
 
 trait Format {
 
   @transient protected lazy val logger: Logger = LoggerFactory.getLogger(getClass)
 
-  def table(tableName: String, partitionFilters: String)(implicit sparkSession: SparkSession): DataFrame = {
-    val df = sparkSession.read.table(tableName)
+  def table(tableName: String, partitionFilters: String, cacheDf: Boolean = false)(implicit
+      sparkSession: SparkSession): DataFrame = {
+
+    val df = if (cacheDf) {
+      TableCache.get(tableName)
+    } else {
+      sparkSession.read.table(tableName)
+    }
+
     if (partitionFilters.isEmpty) {
       df
     } else {
       df.where(partitionFilters)
     }
+
   }
 
   // Return the primary partitions (based on the 'partitionColumn') filtered down by sub-partition filters if provided
diff --git a/spark/src/main/scala/ai/chronon/spark/catalog/TableUtils.scala b/spark/src/main/scala/ai/chronon/spark/catalog/TableUtils.scala
@@ -112,10 +112,12 @@ class TableUtils(@transient val sparkSession: SparkSession) extends Serializable
     }
   }
 
-  def loadTable(tableName: String, rangeWheres: Seq[String] = List.empty[String]): DataFrame = {
+  def loadTable(tableName: String,
+                rangeWheres: Seq[String] = List.empty[String],
+                cacheDf: Boolean = false): DataFrame = {
     tableFormatProvider
       .readFormat(tableName)
-      .map(_.table(tableName, andPredicates(rangeWheres))(sparkSession))
+      .map(_.table(tableName, andPredicates(rangeWheres), cacheDf)(sparkSession))
       .getOrElse(
         throw new RuntimeException(s"Could not load table: ${tableName} with partition filter: ${rangeWheres}"))
   }
@@ -292,14 +294,18 @@ class TableUtils(@transient val sparkSession: SparkSession) extends Serializable
       dfRearranged
     }
 
+    TableCache.remove(tableName)
+
     logger.info(s"Writing to $tableName ...")
+
     finalizedDf.write
       .mode(saveMode)
       // Requires table to exist before inserting.
       // Fails if schema does not match.
       // Does NOT overwrite the schema.
       // Handles dynamic partition overwrite.
       .insertInto(tableName)
+
     logger.info(s"Finished writing to $tableName")
   }
 
@@ -575,7 +581,8 @@ class TableUtils(@transient val sparkSession: SparkSession) extends Serializable
                  table: String,
                  wheres: Seq[String],
                  rangeWheres: Seq[String],
-                 fallbackSelects: Option[Map[String, String]] = None): DataFrame = {
+                 fallbackSelects: Option[Map[String, String]] = None,
+                 cacheDf: Boolean = false): DataFrame = {
 
     val selects = QueryUtils.buildSelects(selectMap, fallbackSelects)
 
@@ -589,7 +596,7 @@ class TableUtils(@transient val sparkSession: SparkSession) extends Serializable
                    |    ${rangeWheres.mkString(",\n    ").green}
                    |""".stripMargin)
 
-    var df = loadTable(table, rangeWheres)
+    var df = loadTable(table, rangeWheres, cacheDf)
 
     if (selects.nonEmpty) df = df.selectExpr(selects: _*)
 
diff --git a/spark/src/test/scala/ai/chronon/spark/test/ResultValidationAbilityTest.scala b/spark/src/test/scala/ai/chronon/spark/test/ResultValidationAbilityTest.scala
@@ -36,7 +36,7 @@ import org.scalatest.flatspec.AnyFlatSpec
 class ResultValidationAbilityTest extends AnyFlatSpec with BeforeAndAfter {
   val confPath = "joins/team/example_join.v1"
   val spark: SparkSession = SparkSessionBuilder.build("test", local = true)
-  val mockTableUtils: TableUtils = mock(classOf[TableUtils])
+  private val mockTableUtils: TableUtils = mock(classOf[TableUtils])
 
   before {
     when(mockTableUtils.partitionColumn).thenReturn("ds")
@@ -46,7 +46,7 @@ class ResultValidationAbilityTest extends AnyFlatSpec with BeforeAndAfter {
   class TestArgs(args: Array[String]) extends ScallopConf(args) with OfflineSubcommand with ResultValidationAbility {
     verify()
 
-    override def subcommandName: String = "test"
+    override def subcommandName(): String = "test"
     override def buildSparkSession(): SparkSession = spark
   }
 
@@ -69,7 +69,7 @@ class ResultValidationAbilityTest extends AnyFlatSpec with BeforeAndAfter {
     val rdd = args.sparkSession.sparkContext.parallelize(leftData)
     val df = args.sparkSession.createDataFrame(rdd).toDF(columns: _*)
 
-    when(mockTableUtils.loadTable(any(), any())).thenReturn(df)
+    when(mockTableUtils.loadTable(any(), any(), any())).thenReturn(df)
 
     assertTrue(args.validateResult(df, Seq("keyId", "ds"), mockTableUtils))
   }
@@ -85,7 +85,7 @@ class ResultValidationAbilityTest extends AnyFlatSpec with BeforeAndAfter {
     val rightRdd = args.sparkSession.sparkContext.parallelize(rightData)
     val rightDf = args.sparkSession.createDataFrame(rightRdd).toDF(columns: _*)
 
-    when(mockTableUtils.loadTable(any(), any())).thenReturn(rightDf)
+    when(mockTableUtils.loadTable(any(), any(), any())).thenReturn(rightDf)
 
     assertFalse(args.validateResult(leftDf, Seq("keyId", "ds"), mockTableUtils))
   }

Original file line number	Diff line number	Diff line change
`@@ -687,7 +687,8 @@ object GroupBy {`
`687`	`687`	`if (mutations) source.getEntities.mutationTable.cleanSpec else source.table,`
`688`	`688`	`Option(source.query.wheres).map(_.toScala).getOrElse(Seq.empty[String]),`
`689`	`689`	`partitionConditions,`
`690`		`- Some(metaColumns ++ keys.map(_ -> null))`
	`690`	`+ Some(metaColumns ++ keys.map(_ -> null)),`
	`691`	`+ cacheDf = true`
`691`	`692`	`)`
`692`	`693`	`}`
`693`	`694`
Original file line number	Diff line number	Diff line change
`@@ -287,13 +287,6 @@ class Join(joinConf: api.Join,`
`287`	`287`	`}`
`288`	`288`	`}`
`289`	`289`
`290`		`- val leftTimeRangeOpt = if (leftTaggedDf.schema.fieldNames.contains(Constants.TimePartitionColumn)) {`
`291`		`- val leftTimePartitionMinMax = leftTaggedDf.range[String](Constants.TimePartitionColumn)`
`292`		`- Some(PartitionRange(leftTimePartitionMinMax._1, leftTimePartitionMinMax._2))`
`293`		`- } else {`
`294`		`- None`
`295`		`- }`
`296`		`-`
`297`	`290`	`implicit val executionContext: ExecutionContextExecutorService =`
`298`	`291`	`ExecutionContext.fromExecutorService(Executors.newFixedThreadPool(tableUtils.joinPartParallelism))`
`299`	`292`
`@@ -342,7 +335,7 @@ class Join(joinConf: api.Join,`
`342`	`335`	`}`
`343`	`336`
`344`	`337`	`val runContext =`
`345`		`- JoinPartJobContext(unfilledLeftDf, bloomFilterOpt, leftTimeRangeOpt, tableProps, runSmallMode)`
	`338`	`+ JoinPartJobContext(unfilledLeftDf, bloomFilterOpt, tableProps, runSmallMode)`
`346`	`339`
`347`	`340`	`val skewKeys: Option[Map[String, Seq[String]]] = Option(joinConfCloned.skewKeys).map { jmap =>`
`348`	`341`	`val scalaMap = jmap.toScala`