zipline-ai
diff --git a/‎.github/workflows/require_triggered_status_checks.yaml
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/require_triggered_status_checks.yaml
Lines changed: 1 addition & 1 deletion
diff --git a/‎cloud_gcp/BUILD.bazel
Lines changed: 20 additions & 41 deletions b/‎cloud_gcp/BUILD.bazel
Lines changed: 20 additions & 41 deletions
diff --git a/‎cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/DelegatingBigQueryMetastoreCatalog.scala
Lines changed: 166 additions & 0 deletions b/‎cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/DelegatingBigQueryMetastoreCatalog.scala
Lines changed: 166 additions & 0 deletions
diff --git a/‎cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/GCSFormat.scala
Lines changed: 36 additions & 37 deletions b/‎cloud_gcp/src/main/scala/ai/chronon/integrations/cloud_gcp/GCSFormat.scala
Lines changed: 36 additions & 37 deletions
@@ -1,6 +1,6 @@
 name: branch_protection
 on:
-  pull_request:
+  push:
 jobs:
   enforce_triggered_workflows:
     runs-on: ubuntu-latest
 
@@ -1,12 +1,5 @@
-scala_library(
-    name = "cloud_gcp_lib",
-    srcs = glob(["src/main/**/*.scala"]),
-    format = select({
-        "//tools/config:scala_2_13": False,  # Disable for 2.13
-        "//conditions:default": True,  # Enable for other versions
-    }),
-    visibility = ["//visibility:public"],
-    deps = [
+shared_deps = [
+        ":iceberg_bigquery_catalog_lib",
         "//api:lib",
         "//api:thrift_java",
         "//online:lib",
@@ -24,9 +17,11 @@ scala_library(
         maven_artifact("com.google.cloud:google-cloud-pubsub"),
         maven_artifact("com.google.cloud:google-cloud-dataproc"),
         maven_artifact("com.google.cloud.bigdataoss:gcsio"),
+        maven_artifact("com.google.cloud.bigdataoss:gcs-connector"),
+        maven_artifact("com.google.cloud.bigdataoss:util"),
         maven_artifact("com.google.cloud.bigdataoss:util-hadoop"),
+        maven_artifact("org.apache.hadoop:hadoop-client-api"),
         maven_artifact("com.google.cloud.hosted.kafka:managed-kafka-auth-login-handler"),
-        scala_artifact_with_suffix("com.google.cloud.spark:spark-bigquery-with-dependencies"),
         maven_artifact("com.google.api:api-common"),
         maven_artifact("com.google.api.grpc:proto-google-cloud-dataproc-v1"),
         maven_artifact("com.google.api:gax"),
@@ -39,7 +34,16 @@ scala_library(
         maven_artifact("org.apache.logging.log4j:log4j-slf4j-impl"),
         maven_artifact("org.threeten:threetenbp"),
         maven_artifact("org.apache.kafka:kafka-clients"),
-    ],
+        maven_artifact("com.google.cloud.spark:spark-3.5-bigquery"),
+        scala_artifact_with_suffix("org.apache.iceberg:iceberg-spark-runtime-3.5"),
+]
+
+scala_library(
+    name = "cloud_gcp_lib",
+    srcs = glob(["src/main/**/*.scala"]),
+    format = True,
+    visibility = ["//visibility:public"],
+    deps = shared_deps,
 )
 
 jvm_binary(
@@ -52,28 +56,8 @@ jvm_binary(
 )
 
 test_deps = [
-    ":cloud_gcp_lib",
-    "//api:thrift_java",
-    "//api:lib",
-    "//online:lib",
-    "//spark:lib",
-    "//tools/build_rules/spark:spark-exec",
-    # Libraries
-    scala_artifact_with_suffix("org.scala-lang.modules:scala-java8-compat"),
-    scala_artifact_with_suffix("org.scala-lang.modules:scala-collection-compat"),
-    maven_artifact("com.google.cloud:google-cloud-bigquery"),
-    maven_artifact("com.google.cloud:google-cloud-bigtable"),
-    maven_artifact("com.google.cloud:google-cloud-dataproc"),
-    maven_artifact("com.google.cloud.bigdataoss:gcs-connector"),
-    maven_artifact("com.google.cloud.bigdataoss:gcsio"),
-    maven_artifact("com.google.cloud.bigdataoss:util-hadoop"),
     maven_artifact("com.google.cloud:google-cloud-bigtable-emulator"),
-    maven_artifact("com.google.api:api-common"),
-    maven_artifact("com.google.api.grpc:proto-google-cloud-dataproc-v1"),
-    scala_artifact_with_suffix("com.google.cloud.spark:spark-bigquery-with-dependencies"),
-    maven_artifact("com.google.api:gax"),
-    maven_artifact("com.google.protobuf:protobuf-java"),
-    maven_artifact("org.apache.hadoop:hadoop-client-api"),
+
     # Testing
     scala_artifact_with_suffix("org.scalatest:scalatest-matchers-core"),
     scala_artifact_with_suffix("org.scalatest:scalatest-core"),
@@ -90,15 +74,10 @@ test_deps = [
     maven_artifact("com.novocode:junit-interface"),
 ]
 
-scala_library(
-    name = "test_lib",
-    srcs = glob(["src/test/**/*.scala"]),
-    format = select({
-        "//tools/config:scala_2_13": False,  # Disable for 2.13
-        "//conditions:default": True,  # Enable for other versions
-    }),
+java_import(
+    name = "iceberg_bigquery_catalog_lib",
+    jars = ["iceberg-bigquery-catalog-1.5.2-1.0.1-beta.jar"],
     visibility = ["//visibility:public"],
-    deps = test_deps,
 )
 
 scala_test_suite(
@@ -107,5 +86,5 @@ scala_test_suite(
     # defined in prelude_bazel file
     jvm_flags = _JVM_FLAGS_FOR_ACCESSING_BASE_JAVA_CLASSES,
     visibility = ["//visibility:public"],
-    deps = test_deps + [":test_lib"],
+    deps = shared_deps + test_deps + [":cloud_gcp_lib"],
 )
@@ -0,0 +1,166 @@
+package ai.chronon.integrations.cloud_gcp
+
+import com.google.cloud.bigquery.{
+  BigQuery,
+  BigQueryOptions,
+  ExternalTableDefinition,
+  StandardTableDefinition,
+  TableDefinition,
+  TableId
+}
+import com.google.cloud.spark.bigquery.BigQueryCatalog
+import org.apache.iceberg.spark.SparkCatalog
+import org.apache.spark.sql.SparkSession
+import org.apache.spark.sql.connector.catalog._
+import org.apache.spark.sql.connector.catalog.functions.UnboundFunction
+import org.apache.spark.sql.connector.expressions.Transform
+import org.apache.spark.sql.connector.read.ScanBuilder
+import org.apache.spark.sql.connector.write.{LogicalWriteInfo, WriteBuilder}
+import org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat
+import org.apache.spark.sql.execution.datasources.v2.parquet.ParquetTable
+import org.apache.spark.sql.types.StructType
+import org.apache.spark.sql.util.CaseInsensitiveStringMap
+
+import java.util
+import scala.jdk.CollectionConverters._
+import scala.util.Try
+
+/** For now, just delegate to the iceberg catalog.
+  * todo(tchow): Given a chronon catalog, delegate to the correct catalog.
+  *
+  * In order of resolution:
+  * 1. BigQuery native
+  * 2. Iceberg
+  * 3. External tables
+  *
+  * @param chrononCat
+  * @param icebergCatalog
+  */
+class DelegatingTable(internalTable: Table, additionalProperties: Map[String, String])
+    extends Table
+    with SupportsRead
+    with SupportsWrite {
+
+  override def name(): String = internalTable.name
+
+  override def schema(): StructType = internalTable.schema
+
+  override def capabilities(): util.Set[TableCapability] = internalTable.capabilities()
+
+  override def newScanBuilder(options: CaseInsensitiveStringMap): ScanBuilder =
+    internalTable.asInstanceOf[SupportsRead].newScanBuilder(options)
+
+  override def newWriteBuilder(info: LogicalWriteInfo): WriteBuilder =
+    internalTable.asInstanceOf[SupportsWrite].newWriteBuilder(info)
+
+  override def properties(): util.Map[String, String] =
+    (internalTable.properties().asScala ++ additionalProperties).asJava
+}
+
+object DelegatingTable {
+  def apply(table: Table, additionalProperties: Map[String, String] = Map.empty): Table =
+    new DelegatingTable(table, additionalProperties = additionalProperties)
+}
+
+class DelegatingBigQueryMetastoreCatalog extends CatalogExtension {
+
+  @transient private lazy val bqOptions = BigQueryOptions.getDefaultInstance
+  @transient private lazy val bigQueryClient: BigQuery = bqOptions.getService
+
+  @transient private lazy val icebergCatalog: SparkCatalog = new SparkCatalog()
+  @transient private lazy val connectorCatalog: BigQueryCatalog = new BigQueryCatalog()
+  private var defaultSessionCatalog: CatalogPlugin = null
+
+  override def listNamespaces: Array[Array[String]] = icebergCatalog.listNamespaces()
+
+  override def listNamespaces(namespace: Array[String]): Array[Array[String]] = icebergCatalog.listNamespaces(namespace)
+
+  override def loadNamespaceMetadata(namespace: Array[String]): util.Map[String, String] =
+    icebergCatalog.loadNamespaceMetadata(namespace)
+
+  override def createNamespace(namespace: Array[String], metadata: util.Map[String, String]): Unit = {
+    icebergCatalog.createNamespace(namespace, metadata)
+  }
+
+  override def alterNamespace(namespace: Array[String], changes: NamespaceChange*): Unit = {
+    icebergCatalog.alterNamespace(namespace, changes: _*)
+  }
+
+  override def dropNamespace(namespace: Array[String], cascade: Boolean): Boolean =
+    icebergCatalog.dropNamespace(namespace, cascade)
+
+  override def listTables(namespace: Array[String]): Array[Identifier] = icebergCatalog.listTables(namespace)
+
+  override def loadTable(ident: Identifier): Table = {
+    Try { icebergCatalog.loadTable(ident) }
+      .recover {
+        case _ => {
+          val connectorTable = connectorCatalog.loadTable(ident)
+          val tId = ident.namespace().toList match {
+            case database :: Nil            => TableId.of(database, ident.name())
+            case project :: database :: Nil => TableId.of(project, database, ident.name())
+          }
+          val table = bigQueryClient.getTable(tId)
+          table.getDefinition.asInstanceOf[TableDefinition] match {
+            case externalTable: ExternalTableDefinition => {
+              val uris = externalTable.getSourceUris.asScala
+              val uri = scala
+                .Option(externalTable.getHivePartitioningOptions)
+                .map(_.getSourceUriPrefix)
+                .getOrElse {
+                  require(uris.size == 1, s"External table ${table} can be backed by only one URI.")
+                  uris.head.replaceAll("/\\*\\.parquet$", "")
+                }
+
+              val fileBasedTable = ParquetTable(tId.toString,
+                                                SparkSession.active,
+                                                CaseInsensitiveStringMap.empty(),
+                                                List(uri),
+                                                None,
+                                                classOf[ParquetFileFormat])
+              DelegatingTable(fileBasedTable,
+                              Map(TableCatalog.PROP_EXTERNAL -> "true", TableCatalog.PROP_LOCATION -> uri))
+            }
+            case _: StandardTableDefinition => {
+              DelegatingTable(connectorTable, Map(TableCatalog.PROP_EXTERNAL -> "false"))
+            }
+            case _ => throw new IllegalStateException(s"Cannot support table of type: ${table.getFriendlyName}")
+          }
+        }
+      }
+      .getOrElse(defaultSessionCatalog.asInstanceOf[TableCatalog].loadTable(ident))
+  }
+
+  override def createTable(ident: Identifier,
+                           schema: StructType,
+                           partitions: Array[Transform],
+                           properties: util.Map[String, String]): Table = {
+    icebergCatalog.createTable(ident, schema, partitions, properties)
+  }
+
+  override def alterTable(ident: Identifier, changes: TableChange*): Table = {
+    icebergCatalog.alterTable(ident, changes: _*)
+  }
+
+  override def dropTable(ident: Identifier): Boolean = icebergCatalog.dropTable(ident)
+
+  override def renameTable(oldIdent: Identifier, newIdent: Identifier): Unit = {
+    icebergCatalog.renameTable(oldIdent, newIdent)
+  }
+
+  override def initialize(name: String, options: CaseInsensitiveStringMap): Unit = {
+    icebergCatalog.initialize(name, options)
+    connectorCatalog.initialize(name, options)
+  }
+
+  override def name() = "bigquery-delegate"
+
+  override def setDelegateCatalog(delegate: CatalogPlugin): Unit = {
+    defaultSessionCatalog = delegate
+  }
+
+  override def listFunctions(namespace: Array[String]): Array[Identifier] = icebergCatalog.listFunctions(namespace)
+
+  override def loadFunction(ident: Identifier): UnboundFunction = icebergCatalog.loadFunction(ident)
+
+}
@@ -1,24 +1,15 @@
 package ai.chronon.integrations.cloud_gcp
 
 import ai.chronon.api.Extensions.StringOps
-import ai.chronon.api.ScalaJavaConversions.JListOps
 import ai.chronon.spark.TableUtils
-import ai.chronon.spark.TableUtils.{TableCreatedWithInitialData, TableCreationStatus}
+import ai.chronon.spark.TableUtils.{TableCreatedWithoutInitialData, TableCreationStatus}
 import ai.chronon.spark.format.Format
 import com.google.cloud.bigquery.connector.common.BigQueryUtil
-import com.google.cloud.spark.bigquery.repackaged.com.google.cloud.bigquery.{
-  BigQuery,
-  BigQueryOptions,
-  ExternalTableDefinition,
-  FormatOptions,
-  HivePartitioningOptions,
-  TableInfo
-}
-import com.google.cloud.spark.bigquery.{SchemaConverters, SchemaConvertersConfiguration}
-import org.apache.spark.sql.{DataFrame, Encoders, Row, SparkSession}
+import com.google.cloud.spark.bigquery.repackaged.com.google.cloud.bigquery._
 import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder
 import org.apache.spark.sql.execution.FileSourceScanExec
 import org.apache.spark.sql.execution.datasources.PartitioningAwareFileIndex
+import org.apache.spark.sql.{DataFrame, Encoders, Row, SparkSession}
 import org.slf4j.LoggerFactory
 
 case class GCS(sourceUri: String, fileFormat: String) extends Format {
@@ -116,31 +107,39 @@ case class GCS(sourceUri: String, fileFormat: String) extends Format {
            |partition uri: $path
            |""".stripMargin)
 
-      df.write
-        .partitionBy(partitionColumns: _*)
-        .mode("overwrite") // or "append" based on your needs
-        .parquet(path)
-
-      val baseTableDef = ExternalTableDefinition
-        .newBuilder(dataGlob, FormatOptions.parquet())
-        .setAutodetect(true)
-
-      if (partitionColumns.nonEmpty) {
-        val timePartitioning = HivePartitioningOptions
-          .newBuilder()
-          .setFields(partitionColumns.toJava)
-          .setSourceUriPrefix(path)
-          .setMode("STRINGS")
-          .build()
-        baseTableDef.setHivePartitioningOptions(timePartitioning)
-      }
-
-      val tableInfo = TableInfo.newBuilder(shadedTableId, baseTableDef.build).build()
-      val createdTable = bigQueryClient.create(tableInfo)
-
-      println(s"Created external table ${createdTable.getTableId}")
-
-      TableCreatedWithInitialData
+      val partCols = partitionColumns.map(df.col)
+
+      val noProjectTableName = f"${shadedTableId.getDataset}.${shadedTableId.getTable}"
+
+      val tableWriter =
+        df.writeTo(noProjectTableName)
+          .tableProperty("write.format.default", "parquet")
+
+      partCols.headOption
+        .map((c) => tableWriter.partitionedBy(c, partCols.tail: _*))
+        .getOrElse(tableWriter)
+        .using("iceberg")
+        .create()
+//      val baseTableDef = ExternalTableDefinition
+//        .newBuilder(dataGlob, FormatOptions.parquet())
+//        .setAutodetect(true)
+//
+//      if (partitionColumns.nonEmpty) {
+//        val timePartitioning = HivePartitioningOptions
+//          .newBuilder()
+//          .setFields(partitionColumns.toJava)
+//          .setSourceUriPrefix(path)
+//          .setMode("STRINGS")
+//          .build()
+//        baseTableDef.setHivePartitioningOptions(timePartitioning)
+//      }
+//
+//      val tableInfo = TableInfo.newBuilder(shadedTableId, baseTableDef.build).build()
+//      val createdTable = bigQueryClient.create(tableInfo)
+//
+//      println(s"Created external table ${createdTable.getTableId}")
+
+      TableCreatedWithoutInitialData
     }
 
     inner(df, tableName, partitionColumns)