zipline-ai
diff --git a/‎spark/BUILD.bazel
Lines changed: 56 additions & 2 deletions b/‎spark/BUILD.bazel
Lines changed: 56 additions & 2 deletions
diff --git a/‎spark/src/test/scala/ai/chronon/spark/test/AnalyzerTest.scala renamed to ‎spark/src/test/scala/ai/chronon/spark/test/analyzer/AnalyzerTest.scala
Lines changed: 5 additions & 9 deletions b/‎spark/src/test/scala/ai/chronon/spark/test/AnalyzerTest.scala renamed to ‎spark/src/test/scala/ai/chronon/spark/test/analyzer/AnalyzerTest.scala
Lines changed: 5 additions & 9 deletions
diff --git a/‎spark/src/test/scala/ai/chronon/spark/test/bootstrap/DerivationTest.scala renamed to ‎spark/src/test/scala/ai/chronon/spark/test/analyzer/DerivationTest.scala
Lines changed: 5 additions & 8 deletions b/‎spark/src/test/scala/ai/chronon/spark/test/bootstrap/DerivationTest.scala renamed to ‎spark/src/test/scala/ai/chronon/spark/test/analyzer/DerivationTest.scala
Lines changed: 5 additions & 8 deletions
diff --git a/‎spark/src/test/scala/ai/chronon/spark/test/ChainingFetcherTest.scala renamed to ‎spark/src/test/scala/ai/chronon/spark/test/fetcher/ChainingFetcherTest.scala
Lines changed: 7 additions & 12 deletions b/‎spark/src/test/scala/ai/chronon/spark/test/ChainingFetcherTest.scala renamed to ‎spark/src/test/scala/ai/chronon/spark/test/fetcher/ChainingFetcherTest.scala
Lines changed: 7 additions & 12 deletions
diff --git a/‎spark/src/test/scala/ai/chronon/spark/test/FetcherTest.scala renamed to ‎spark/src/test/scala/ai/chronon/spark/test/fetcher/FetcherTest.scala
Lines changed: 12 additions & 132 deletions b/‎spark/src/test/scala/ai/chronon/spark/test/FetcherTest.scala renamed to ‎spark/src/test/scala/ai/chronon/spark/test/fetcher/FetcherTest.scala
Lines changed: 12 additions & 132 deletions
@@ -90,13 +90,67 @@ scala_library(
     name = "test_lib",
     srcs = glob(["src/test/**/*.scala"]),
     format = True,
-    visibility = ["//visibility:public"],
     deps = test_deps,
 )
 
 scala_test_suite(
     name = "tests",
-    srcs = glob(["src/test/**/*.scala"]),
+    tags = ["large"],
+    srcs = glob(["src/test/scala/ai/chronon/spark/test/*.scala",
+                 "src/test/scala/ai/chronon/spark/test/udafs/*.scala",
+                 "src/test/scala/ai/chronon/spark/test/stats/drift/*.scala",
+                 "src/test/scala/ai/chronon/spark/test/bootstrap/*.scala"]),
+    data = glob(["spark/src/test/resources/**/*"]),
+    # defined in prelude_bazel file
+    jvm_flags = _JVM_FLAGS_FOR_ACCESSING_BASE_JAVA_CLASSES,
+    visibility = ["//visibility:public"],
+    deps = test_deps + [":test_lib"],
+)
+
+scala_test_suite(
+    name = "fetcher_test",
+    srcs = glob(["src/test/scala/ai/chronon/spark/test/fetcher/*.scala"]),
+    resources = ["//spark/src/test/resources:test-resources"],
+    # defined in prelude_bazel file
+    jvm_flags = _JVM_FLAGS_FOR_ACCESSING_BASE_JAVA_CLASSES,
+    visibility = ["//visibility:public"],
+    deps = test_deps + [":test_lib"],
+)
+
+scala_test_suite(
+    name = "groupby_test",
+    srcs = glob(["src/test/scala/ai/chronon/spark/test/groupby/*.scala"]),
+    data = glob(["spark/src/test/resources/**/*"]),
+    # defined in prelude_bazel file
+    jvm_flags = _JVM_FLAGS_FOR_ACCESSING_BASE_JAVA_CLASSES,
+    visibility = ["//visibility:public"],
+    deps = test_deps + [":test_lib"],
+)
+
+scala_test_suite(
+    name = "join_test",
+    srcs = glob(["src/test/scala/ai/chronon/spark/test/join/*.scala"]),
+    tags = ["large"],
+    data = glob(["spark/src/test/resources/**/*"]),
+    # defined in prelude_bazel file
+    jvm_flags = _JVM_FLAGS_FOR_ACCESSING_BASE_JAVA_CLASSES,
+    visibility = ["//visibility:public"],
+    deps = test_deps + [":test_lib"],
+)
+
+scala_test_suite(
+    name = "analyzer_test",
+    srcs = glob(["src/test/scala/ai/chronon/spark/test/analyzer/*.scala"]),
+    data = glob(["spark/src/test/resources/**/*"]),
+    # defined in prelude_bazel file
+    jvm_flags = _JVM_FLAGS_FOR_ACCESSING_BASE_JAVA_CLASSES,
+    visibility = ["//visibility:public"],
+    deps = test_deps + [":test_lib"],
+)
+
+scala_test_suite(
+    name = "streaming_test",
+    srcs = glob(["src/test/scala/ai/chronon/spark/test/streaming/*.scala"]),
     data = glob(["spark/src/test/resources/**/*"]),
     # defined in prelude_bazel file
     jvm_flags = _JVM_FLAGS_FOR_ACCESSING_BASE_JAVA_CLASSES,
 
@@ -14,25 +14,21 @@
  *    limitations under the License.
  */
 
-package ai.chronon.spark.test
+package ai.chronon.spark.test.analyzer
 
 import ai.chronon.aggregator.test.Column
 import ai.chronon.api
 import ai.chronon.api._
-import ai.chronon.spark.Analyzer
 import ai.chronon.spark.Extensions._
-import ai.chronon.spark.Join
-import ai.chronon.spark.SparkSessionBuilder
-import ai.chronon.spark.TableUtils
+import ai.chronon.spark.{Analyzer, Join, SparkSessionBuilder, TableUtils}
+import ai.chronon.spark.test.DataFrameGen
 import org.apache.spark.sql.SparkSession
-import org.apache.spark.sql.functions.col
-import org.apache.spark.sql.functions.lit
+import org.apache.spark.sql.functions.{col, lit}
 import org.junit.Assert.assertTrue
 import org.scalatest.BeforeAndAfter
 import org.scalatest.flatspec.AnyFlatSpec
 import org.scalatest.matchers.should.Matchers.convertToAnyShouldWrapper
-import org.slf4j.Logger
-import org.slf4j.LoggerFactory
+import org.slf4j.{Logger, LoggerFactory}
 
 class AnalyzerTest extends AnyFlatSpec with BeforeAndAfter {
   @transient lazy val logger: Logger = LoggerFactory.getLogger(getClass)
 
@@ -14,7 +14,7 @@
  *    limitations under the License.
  */
 
-package ai.chronon.spark.test.bootstrap
+package ai.chronon.spark.test.analyzer
 
 import ai.chronon.api.Builders.Derivation
 import ai.chronon.api.Extensions._
@@ -24,17 +24,14 @@ import ai.chronon.online.Fetcher.Request
 import ai.chronon.online.MetadataStore
 import ai.chronon.spark.Extensions.DataframeOps
 import ai.chronon.spark._
-import ai.chronon.spark.test.OnlineUtils
-import ai.chronon.spark.test.SchemaEvolutionUtils
+import ai.chronon.spark.test.{OnlineUtils, SchemaEvolutionUtils}
+import ai.chronon.spark.test.bootstrap.BootstrapUtils
 import ai.chronon.spark.utils.MockApi
 import org.apache.spark.sql.SparkSession
 import org.apache.spark.sql.functions._
-import org.junit.Assert.assertEquals
-import org.junit.Assert.assertFalse
-import org.junit.Assert.assertTrue
+import org.junit.Assert.{assertEquals, assertFalse, assertTrue}
 import org.scalatest.flatspec.AnyFlatSpec
-import org.slf4j.Logger
-import org.slf4j.LoggerFactory
+import org.slf4j.{Logger, LoggerFactory}
 
 import scala.concurrent.Await
 import scala.concurrent.duration.Duration
 
@@ -14,31 +14,26 @@
  *    limitations under the License.
  */
 
-package ai.chronon.spark.test
+package ai.chronon.spark.test.fetcher
 
 import ai.chronon.aggregator.windowing.TsUtils
 import ai.chronon.api
 import ai.chronon.api.Constants.MetadataDataset
-import ai.chronon.api.Extensions.JoinOps
-import ai.chronon.api.Extensions.MetadataOps
+import ai.chronon.api.Extensions.{JoinOps, MetadataOps}
 import ai.chronon.api.ScalaJavaConversions._
 import ai.chronon.api._
 import ai.chronon.online.Fetcher.Request
-import ai.chronon.online.MetadataStore
-import ai.chronon.online.SparkConversions
+import ai.chronon.online.{MetadataStore, SparkConversions}
 import ai.chronon.spark.Extensions._
+import ai.chronon.spark.test.{OnlineUtils, TestUtils}
 import ai.chronon.spark.utils.MockApi
 import ai.chronon.spark.{Join => _, _}
-import org.apache.spark.sql.DataFrame
-import org.apache.spark.sql.Row
-import org.apache.spark.sql.SparkSession
 import org.apache.spark.sql.catalyst.expressions.GenericRow
 import org.apache.spark.sql.functions.lit
-import org.junit.Assert.assertEquals
-import org.junit.Assert.assertTrue
+import org.apache.spark.sql.{DataFrame, Row, SparkSession}
+import org.junit.Assert.{assertEquals, assertTrue}
 import org.scalatest.flatspec.AnyFlatSpec
-import org.slf4j.Logger
-import org.slf4j.LoggerFactory
+import org.slf4j.{Logger, LoggerFactory}
 
 import java.lang
 import java.util.TimeZone
 
@@ -14,58 +14,37 @@
  *    limitations under the License.
  */
 
-package ai.chronon.spark.test
+package ai.chronon.spark.test.fetcher
 
 import ai.chronon.aggregator.test.Column
 import ai.chronon.aggregator.windowing.TsUtils
 import ai.chronon.api
 import ai.chronon.api.Constants.MetadataDataset
-import ai.chronon.api.Extensions.JoinOps
-import ai.chronon.api.Extensions.MetadataOps
+import ai.chronon.api.Extensions.{JoinOps, MetadataOps}
 import ai.chronon.api.ScalaJavaConversions._
 import ai.chronon.api._
-import ai.chronon.online.Fetcher.Request
-import ai.chronon.online.Fetcher.Response
-import ai.chronon.online.Fetcher.StatsRequest
-import ai.chronon.online.FlagStore
-import ai.chronon.online.FlagStoreConstants
-import ai.chronon.online.JavaRequest
+import ai.chronon.online.Fetcher.{Request, StatsRequest}
 import ai.chronon.online.KVStore.GetRequest
-import ai.chronon.online.LoggableResponseBase64
-import ai.chronon.online.MetadataDirWalker
-import ai.chronon.online.MetadataEndPoint
-import ai.chronon.online.MetadataStore
-import ai.chronon.online.SparkConversions
+import ai.chronon.online._
 import ai.chronon.spark.Extensions._
 import ai.chronon.spark.stats.ConsistencyJob
+import ai.chronon.spark.test.{DataFrameGen, OnlineUtils, SchemaEvolutionUtils}
 import ai.chronon.spark.utils.MockApi
 import ai.chronon.spark.{Join => _, _}
 import com.google.gson.GsonBuilder
-import org.apache.spark.sql.DataFrame
-import org.apache.spark.sql.Row
-import org.apache.spark.sql.SparkSession
 import org.apache.spark.sql.catalyst.expressions.GenericRow
-import org.apache.spark.sql.functions.avg
-import org.apache.spark.sql.functions.col
-import org.apache.spark.sql.functions.lit
-import org.junit.Assert.assertEquals
-import org.junit.Assert.assertFalse
-import org.junit.Assert.assertTrue
+import org.apache.spark.sql.functions.{avg, col, lit}
+import org.apache.spark.sql.{Row, SparkSession}
+import org.junit.Assert.{assertEquals, assertFalse, assertTrue}
 import org.scalatest.flatspec.AnyFlatSpec
-import org.slf4j.Logger
-import org.slf4j.LoggerFactory
+import org.slf4j.{Logger, LoggerFactory}
 
-import java.lang
-import java.util
 import java.util.TimeZone
 import java.util.concurrent.Executors
+import java.{lang, util}
 import scala.collection.Seq
-import scala.compat.java8.FutureConverters
-import scala.concurrent.Await
-import scala.concurrent.ExecutionContext
-import scala.concurrent.Future
 import scala.concurrent.duration.Duration
-import scala.concurrent.duration.SECONDS
+import scala.concurrent.{Await, ExecutionContext, Future}
 import scala.io.Source
 
 class FetcherTest extends AnyFlatSpec {
@@ -86,8 +65,8 @@ class FetcherTest extends AnyFlatSpec {
 
     val joinPath = "joins/team/example_join.v1"
     val confResource = getClass.getResource(s"/$joinPath")
+    val src = Source.fromResource(joinPath)
     println(s"conf resource path for dir walker: ${confResource.getPath}")
-    val src = Source.fromFile(confResource.getPath)
 
     val expected = {
       try src.mkString
@@ -785,102 +764,3 @@ class FetcherTest extends AnyFlatSpec {
     assertTrue(responseMap.keys.forall(_.endsWith("_exception")))
   }
 }
-
-object FetcherTestUtil {
-  @transient lazy val logger: Logger = LoggerFactory.getLogger(getClass)
-  def joinResponses(spark: SparkSession,
-                    requests: Array[Request],
-                    mockApi: MockApi,
-                    useJavaFetcher: Boolean = false,
-                    runCount: Int = 1,
-                    samplePercent: Double = -1,
-                    logToHive: Boolean = false,
-                    debug: Boolean = false)(implicit ec: ExecutionContext): (List[Response], DataFrame) = {
-    val chunkSize = 100
-    @transient lazy val fetcher = mockApi.buildFetcher(debug)
-    @transient lazy val javaFetcher = mockApi.buildJavaFetcher()
-
-    def fetchOnce = {
-      var latencySum: Long = 0
-      var latencyCount = 0
-      val blockStart = System.currentTimeMillis()
-      val result = requests.iterator
-        .grouped(chunkSize)
-        .map { oldReqs =>
-          // deliberately mis-type a few keys
-          val r = oldReqs
-            .map(r =>
-              r.copy(keys = r.keys.mapValues { v =>
-                if (v.isInstanceOf[java.lang.Long]) v.toString else v
-              }.toMap))
-          val responses = if (useJavaFetcher) {
-            // Converting to java request and using the toScalaRequest functionality to test conversion
-            val convertedJavaRequests = r.map(new JavaRequest(_)).toJava
-            val javaResponse = javaFetcher.fetchJoin(convertedJavaRequests)
-            FutureConverters
-              .toScala(javaResponse)
-              .map(
-                _.toScala.map(jres =>
-                  Response(
-                    Request(jres.request.name, jres.request.keys.toScala.toMap, Option(jres.request.atMillis)),
-                    jres.values.toScala.map(_.toScala)
-                  )))
-          } else {
-            fetcher.fetchJoin(r)
-          }
-
-          // fix mis-typed keys in the request
-          val fixedResponses =
-            responses.map(resps => resps.zip(oldReqs).map { case (resp, req) => resp.copy(request = req) })
-          System.currentTimeMillis() -> fixedResponses
-        }
-        .flatMap { case (start, future) =>
-          val result = Await.result(future, Duration(10000, SECONDS)) // todo: change back to millis
-          val latency = System.currentTimeMillis() - start
-          latencySum += latency
-          latencyCount += 1
-          result
-        }
-        .toList
-      val latencyMillis = latencySum.toFloat / latencyCount.toFloat
-      val qps = (requests.length * 1000.0) / (System.currentTimeMillis() - blockStart).toFloat
-      (latencyMillis, qps, result)
-    }
-
-    // to overwhelm the profiler with fetching code path
-    // so as to make it prominent in the flamegraph & collect enough stats
-
-    var latencySum = 0.0
-    var qpsSum = 0.0
-    var loggedValues: Seq[LoggableResponseBase64] = null
-    var result: List[Response] = null
-    (0 until runCount).foreach { _ =>
-      val (latency, qps, resultVal) = fetchOnce
-      result = resultVal
-      loggedValues = mockApi.flushLoggedValues
-      latencySum += latency
-      qpsSum += qps
-    }
-    val fetcherNameString = if (useJavaFetcher) "Java" else "Scala"
-
-    logger.info(s"""
-         |Averaging fetching stats for $fetcherNameString Fetcher over ${requests.length} requests $runCount times
-         |with batch size: $chunkSize
-         |average qps: ${qpsSum / runCount}
-         |average latency: ${latencySum / runCount}
-         |""".stripMargin)
-    val loggedDf = mockApi.loggedValuesToDf(loggedValues, spark)
-    if (logToHive) {
-      TableUtils(spark).insertPartitions(
-        loggedDf,
-        mockApi.logTable,
-        partitionColumns = Seq("ds", "name")
-      )
-    }
-    if (samplePercent > 0) {
-      logger.info(s"logged count: ${loggedDf.count()}")
-      loggedDf.show()
-    }
-    result -> loggedDf
-  }
-}