elastic
diff --git a/‎.travis.yml
Lines changed: 8 additions & 3 deletions b/‎.travis.yml
Lines changed: 8 additions & 3 deletions
diff --git a/‎buildSrc/src/main/groovy/org/elasticsearch/hadoop/gradle/BaseBuildPlugin.groovy
Lines changed: 7 additions & 0 deletions b/‎buildSrc/src/main/groovy/org/elasticsearch/hadoop/gradle/BaseBuildPlugin.groovy
Lines changed: 7 additions & 0 deletions
diff --git a/‎gradle.properties
Lines changed: 10 additions & 0 deletions b/‎gradle.properties
Lines changed: 10 additions & 0 deletions
diff --git a/‎hive/src/test/java/org/elasticsearch/hadoop/serialization/handler/write/impl/HiveSerializationEventConverterTest.java
Lines changed: 1 addition & 1 deletion b/‎hive/src/test/java/org/elasticsearch/hadoop/serialization/handler/write/impl/HiveSerializationEventConverterTest.java
Lines changed: 1 addition & 1 deletion
diff --git a/‎mr/src/main/java/org/elasticsearch/hadoop/serialization/dto/NodeInfo.java
Lines changed: 3 additions & 3 deletions b/‎mr/src/main/java/org/elasticsearch/hadoop/serialization/dto/NodeInfo.java
Lines changed: 3 additions & 3 deletions
diff --git a/‎mr/src/test/java/org/elasticsearch/hadoop/serialization/handler/write/impl/SerializationEventConverterTest.java
Lines changed: 1 addition & 1 deletion b/‎mr/src/test/java/org/elasticsearch/hadoop/serialization/handler/write/impl/SerializationEventConverterTest.java
Lines changed: 1 addition & 1 deletion
diff --git a/‎settings.gradle
Lines changed: 4 additions & 0 deletions b/‎settings.gradle
Lines changed: 4 additions & 0 deletions
diff --git a/‎spark/core/main/scala/org/elasticsearch/spark/rdd/AbstractEsRDD.scala
Lines changed: 3 additions & 4 deletions b/‎spark/core/main/scala/org/elasticsearch/spark/rdd/AbstractEsRDD.scala
Lines changed: 3 additions & 4 deletions
diff --git a/‎spark/core/main/scala/org/elasticsearch/spark/rdd/EsRDDWriter.scala
Lines changed: 5 additions & 1 deletion b/‎spark/core/main/scala/org/elasticsearch/spark/rdd/EsRDDWriter.scala
Lines changed: 5 additions & 1 deletion
diff --git a/‎spark/sql-30/build.gradle
Lines changed: 220 additions & 0 deletions b/‎spark/sql-30/build.gradle
Lines changed: 220 additions & 0 deletions
diff --git a/‎spark/sql-30/licenses/commons-logging-1.1.1.jar.sha1
Lines changed: 1 addition & 0 deletions b/‎spark/sql-30/licenses/commons-logging-1.1.1.jar.sha1
Lines changed: 1 addition & 0 deletions
@@ -1,12 +1,17 @@
 language: java
 jdk:
- - oraclejdk8
-
+ - openjdk12
 
 dist: trusty
 
+addons:
+ apt:
+  packages:
+   - oracle-java8-installer
+
 before_install:
  - "chmod +x gradlew"
  - export JAVA_OPTS="-Xmx2048m -XX:MaxPermSize=386m"
+ - export JAVA8_HOME=$(update-alternatives --list java | grep java-8-oracle | sed 's|/bin/java$||' | sed 's|/jre$||')
 
-install: ./gradlew assemble -Pskip.signing
+install: ./gradlew assemble -Pskip.signing updateSHAs
@@ -124,6 +124,13 @@ class BaseBuildPlugin implements Plugin<Project> {
                     project.rootProject.ext.hadoopVersion = project.hadoop22Version
                     println "Using Apache Hadoop [$project.hadoop22Version]"
                     break
+            // Hadoop YARN/3.2.x
+                case "hadoopYarn3":
+                    String version = project.hadoop32Version
+                    project.rootProject.ext.hadoopVersion = version
+                    project.rootProject.ext.hadoopClient = ["org.apache.hadoop:hadoop-client:$version"]
+                    println "Using Apache Hadoop on YARN [$version]"
+                    break
                 default:
                     throw new GradleException("Invalid [hadoopDistro] setting: [$project.rootProject.ext.hadoopDistro]")
             }
 
@@ -8,6 +8,13 @@ log4jVersion = 2.6.2
 # Hadoop versions
 hadoop2Version  = 2.7.6
 hadoop22Version = 2.2.0
+hadoop32Version = 3.2.0
+
+# `distro` property can be one of the following: [hadoopYarn, hadoopYarn3, hadoopStable]
+# default: hadoopYarn => build with hadoop2Version
+# hadoopStable => build with hadoop22Version
+# hadoopYarn3 => build with hadoop32Version
+# distro = hadoopYarn3
 
 # Common libraries
 hiveVersion = 1.2.1
@@ -19,11 +26,14 @@ jacksonVersion = 1.8.8
 # Spark
 spark13Version = 1.6.2
 spark20Version = 2.3.0
+spark30Version = 3.0.0
 # same as Spark's
 scala210Version = 2.10.7
 scala210MajorVersion = 2.10
 scala211Version = 2.11.12
 scala211MajorVersion = 2.11
+scala212Version = 2.12.10
+scala212MajorVersion = 2.12
 
 stormVersion = 1.0.6
 
 
@@ -85,7 +85,7 @@ public void generateEventHiveRecordLimited() throws Exception {
         SerializationFailure iaeFailure = new SerializationFailure(new IllegalArgumentException("garbage"), tuple, new ArrayList<String>());
 
         String rawEvent = eventConverter.getRawEvent(iaeFailure);
-        assertThat(rawEvent, startsWith("HiveType{object=org.apache.hadoop.io.MapWritable@"));
+        assertTrue(rawEvent.matches("HiveType\\{object=\\{three=3, one=1, two=2\\}.*|^HiveType\\{object=org.apache.hadoop.io.MapWritable@.*"));
         String timestamp = eventConverter.getTimestamp(iaeFailure);
         assertTrue(StringUtils.hasText(timestamp));
         assertTrue(DateUtils.parseDate(timestamp).getTime().getTime() > 1L);
 
@@ -52,13 +52,13 @@ public NodeInfo(String id, Map<String, Object> map) {
                 this.isData = true;
             } else {
                 String data = (String) attributes.get("data");
-                this.isClient = data == null ? true : !Boolean.parseBoolean(data);
-                this.isData = data == null ? true : Boolean.parseBoolean(data);
+                this.isClient = data == null || !Boolean.parseBoolean(data);
+                this.isData = data == null || Boolean.parseBoolean(data);
             }
             this.isIngest = false;
         } else {
             List<String> roles = (List<String>) map.get("roles");
-            this.isClient = roles.contains("data") == false;
+            this.isClient = !roles.contains("data");
             this.isData = roles.contains("data");
             this.isIngest = roles.contains("ingest");
         }
 
@@ -69,7 +69,7 @@ public void generateEventWritable() throws Exception {
         SerializationFailure iaeFailure = new SerializationFailure(new IllegalArgumentException("garbage"), document, new ArrayList<String>());
 
         String rawEvent = eventConverter.getRawEvent(iaeFailure);
-        assertThat(rawEvent, Matchers.startsWith("org.apache.hadoop.io.MapWritable@"));
+        assertTrue(rawEvent.matches("\\{field=value\\}|^org.apache.hadoop.io.MapWritable@.*"));
         String timestamp = eventConverter.getTimestamp(iaeFailure);
         assertTrue(StringUtils.hasText(timestamp));
         assertTrue(DateUtils.parseDate(timestamp).getTime().getTime() > 1L);
 
@@ -15,6 +15,10 @@ include 'sql-20'
 project(":sql-20").projectDir = new File(settingsDir, "spark/sql-20")
 project(":sql-20").name = "elasticsearch-spark-20"
 
+include 'sql-30'
+project(":sql-30").projectDir = new File(settingsDir, "spark/sql-30")
+project(":sql-30").name = "elasticsearch-spark-30"
+
 include 'storm'
 project(":storm").name = "elasticsearch-storm"
 
 
@@ -18,8 +18,7 @@
  */
 package org.elasticsearch.spark.rdd;
 
-import scala.collection.JavaConversions.collectionAsScalaIterable
-import scala.collection.JavaConversions.mapAsJavaMap
+import scala.collection.JavaConverters._
 import scala.reflect.ClassTag
 import org.apache.commons.logging.LogFactory
 import org.apache.spark.Partition
@@ -45,7 +44,7 @@ private[spark] abstract class AbstractEsRDD[T: ClassTag](
   @transient protected lazy val logger = LogFactory.getLog(this.getClass())
 
   override def getPartitions: Array[Partition] = {
-    esPartitions.zipWithIndex.map { case(esPartition, idx) =>
+    esPartitions.asScala.zipWithIndex.map { case(esPartition, idx) =>
       new EsPartition(id, idx, esPartition)
     }.toArray
   }
@@ -70,7 +69,7 @@ private[spark] abstract class AbstractEsRDD[T: ClassTag](
 
   @transient private[spark] lazy val esCfg = {
     val cfg = new SparkSettingsManager().load(sc.getConf).copy();
-    cfg.merge(params)
+    cfg.merge(params.asJava)
     InitializationUtils.setUserProviderIfNotSet(cfg, classOf[HadoopUserProvider], logger)
     cfg
   }
 
@@ -21,6 +21,7 @@ package org.elasticsearch.spark.rdd
 import org.apache.commons.logging.Log
 import org.apache.commons.logging.LogFactory
 import org.apache.spark.TaskContext
+import org.apache.spark.util.TaskCompletionListener
 import org.elasticsearch.hadoop.cfg.PropertiesSettings
 import org.elasticsearch.hadoop.cfg.Settings
 import org.elasticsearch.hadoop.mr.security.HadoopUserProvider
@@ -64,7 +65,10 @@ private[spark] class EsRDDWriter[T: ClassTag](val serializedSettings: String,
   def write(taskContext: TaskContext, data: Iterator[T]): Unit = {
     val writer = RestService.createWriter(settings, taskContext.partitionId.toLong, -1, log)
 
-    taskContext.addTaskCompletionListener((TaskContext) => writer.close())
+    val taskCompletionListener = new TaskCompletionListener {
+      override def onTaskCompletion(context: TaskContext): Unit = writer.close()
+    }
+    taskContext.addTaskCompletionListener(taskCompletionListener)
 
     if (runtimeMetadata) {
       writer.repository.addRuntimeFieldExtractor(metaExtractor)
 
@@ -0,0 +1,220 @@
+
+description = "Elasticsearch Spark (for Spark 3.X)"
+
+evaluationDependsOn(':elasticsearch-hadoop-mr')
+
+apply plugin: 'java-library'
+apply plugin: 'scala'
+apply plugin: 'es.hadoop.build.integration'
+apply plugin: 'scala.variants'
+
+variants {
+    defaultVersion '2.12.10'
+    targetVersions '2.12.10'
+}
+
+configurations {
+    embedded {
+        transitive = false
+        canBeResolved = true
+    }
+    implementation {
+        extendsFrom project.configurations.embedded
+    }
+    if (project.ext.scalaMajorVersion != '2.10') {
+        scalaCompilerPlugin {
+            defaultDependencies { dependencies ->
+                dependencies.add(project.dependencies.create( "com.typesafe.genjavadoc:genjavadoc-plugin_${scalaVersion}:0.16"))
+            }
+        }
+    }
+}
+
+println "Compiled using Scala ${project.ext.scalaMajorVersion} [${project.ext.scalaVersion}]"
+String sparkVersion = spark30Version
+
+// Revert to spark 2.2.0 for scala 2.10 as 2.3+ does not support scala 2.10
+if (project.ext.scalaMajorVersion == '2.10') {
+    sparkVersion = '2.2.0'
+}
+
+tasks.withType(ScalaCompile) { ScalaCompile task ->
+    task.sourceCompatibility = project.ext.minimumRuntimeVersion
+    task.targetCompatibility = project.ext.minimumRuntimeVersion
+    task.options.forkOptions.executable = new File(project.ext.runtimeJavaHome, 'bin/java').absolutePath
+}
+
+compileScala {
+    configure(scalaCompileOptions.forkOptions) {
+        memoryMaximumSize = '1g'
+        jvmArgs = ['-XX:MaxPermSize=512m']
+    }
+    scalaCompileOptions.additionalParameters = [
+        "-feature",
+        "-unchecked",
+        "-deprecation",
+        "-Xfuture",
+        "-Yno-adapted-args",
+        "-Ywarn-dead-code",
+        "-Ywarn-numeric-widen",
+        "-Xfatal-warnings"
+    ]
+}
+
+String coreSrc = file("$projectDir/../core").absolutePath.replace('\\','/')
+
+sourceSets {
+    main.scala.srcDirs += "$coreSrc/main/scala"
+    test.scala.srcDirs += "$coreSrc/test/scala"
+    itest.java.srcDirs += "$coreSrc/itest/java"
+    itest.scala.srcDirs += "$coreSrc/itest/scala"
+    itest.resources.srcDirs += "$coreSrc/itest/resources"
+}
+
+def javaFilesOnly = { FileTreeElement spec ->
+    spec.file.name.endsWith('.java') || spec.isDirectory()
+}
+
+artifacts {
+    sourceElements(project.file("$coreSrc/main/scala"))
+    // Add java files from core source to javadocElements.
+    project.fileTree("$coreSrc/main/scala").include(javaFilesOnly).each {
+        javadocElements(it)
+    }
+    project.fileTree("src/main/scala").include(javaFilesOnly).each {
+        javadocElements(it)
+    }
+}
+
+// currently the outside project folders are transformed into linked resources however
+// Gradle only supports one so the project will be invalid as not all sources will be in there
+// as such, they are setup here manually for Eclipse. IntelliJ probably needs a similar approach
+eclipse {
+    project.file.whenMerged { pj ->
+        // eliminated resources created by gradle
+
+        linkedResources.clear()
+        linkedResources.add(new org.gradle.plugins.ide.eclipse.model.Link("core/main/scala", "2", "$coreSrc/main/scala", null))
+        linkedResources.add(new org.gradle.plugins.ide.eclipse.model.Link("core/test/scala", "2", "$coreSrc/test/scala", null))
+        linkedResources.add(new org.gradle.plugins.ide.eclipse.model.Link("core/itest/java", "2", "$coreSrc/itest/java", null))
+        linkedResources.add(new org.gradle.plugins.ide.eclipse.model.Link("core/itest/scala", "2", "$coreSrc/itest/scala", null))
+        linkedResources.add(new org.gradle.plugins.ide.eclipse.model.Link("core/itest/resources","2", "$coreSrc/itest/resources", null))
+
+    }
+    classpath.file {
+        whenMerged { cp ->
+            entries.removeAll { entry ->
+                entry.kind == 'src' && (entry.path in ["scala", "java", "resources"] || entry.path.startsWith("itest-") || entry.path.endsWith("-scala"))
+            }
+
+            entries.add(new org.gradle.plugins.ide.eclipse.model.SourceFolder("core/main/scala", null))
+            entries.add(new org.gradle.plugins.ide.eclipse.model.SourceFolder("core/test/scala", null))
+            entries.add(new org.gradle.plugins.ide.eclipse.model.SourceFolder("core/itest/java", null))
+            entries.add(new org.gradle.plugins.ide.eclipse.model.SourceFolder("core/itest/scala", null))
+            entries.add(new org.gradle.plugins.ide.eclipse.model.SourceFolder("core/itest/resources", null))
+        }
+    }
+}
+
+dependencies {
+    embedded(project(":elasticsearch-hadoop-mr"))
+
+    api("org.scala-lang:scala-library:$scalaVersion")
+    api("org.scala-lang:scala-reflect:$scalaVersion")
+    api("org.apache.spark:spark-core_${project.ext.scalaMajorVersion}:$sparkVersion") {
+        exclude group: 'javax.servlet'
+        exclude group: 'org.apache.hadoop'
+    }
+
+    implementation("org.apache.spark:spark-sql_${project.ext.scalaMajorVersion}:$sparkVersion") {
+        exclude group: 'org.apache.hadoop'
+    }
+    implementation("org.apache.spark:spark-streaming_${project.ext.scalaMajorVersion}:$sparkVersion") {
+        exclude group: 'org.apache.hadoop'
+    }
+    implementation("org.slf4j:slf4j-api:1.7.6") {
+        because 'spark exposes slf4j components in traits that we need to extend'
+    }
+    implementation("commons-logging:commons-logging:1.1.1")
+    implementation("javax.xml.bind:jaxb-api:2.3.1")
+    implementation("org.apache.spark:spark-catalyst_${project.ext.scalaMajorVersion}:$sparkVersion")
+    implementation("org.apache.spark:spark-yarn_${project.ext.scalaMajorVersion}:$sparkVersion") {
+        exclude group: 'org.apache.hadoop'
+    }
+
+    // Scala compiler needs these for arcane reasons, but they are not used in the api nor the runtime
+    compileOnly("com.fasterxml.jackson.core:jackson-annotations:2.6.7")
+    compileOnly("org.json4s:json4s-jackson_${project.ext.scalaMajorVersion}:3.2.11")
+    compileOnly("org.json4s:json4s-ast_${project.ext.scalaMajorVersion}:3.2.11")
+    compileOnly("org.apache.spark:spark-tags_${project.ext.scalaMajorVersion}:$sparkVersion")
+
+    if ('2.10' == scalaMajorVersion) {
+        implementation("org.apache.spark:spark-unsafe_${project.ext.scalaMajorVersion}:$sparkVersion")
+        implementation("org.apache.avro:avro:1.7.7")
+        implementation("log4j:log4j:1.2.17")
+        implementation("com.google.code.findbugs:jsr305:2.0.1")
+        implementation("org.json4s:json4s-ast_2.10:3.2.10")
+        implementation("com.esotericsoftware.kryo:kryo:2.21")
+        compileOnly("org.apache.hadoop:hadoop-annotations:${project.ext.hadoopVersion}")
+        compileOnly("org.codehaus.jackson:jackson-core-asl:${project.ext.jacksonVersion}")
+        compileOnly("org.codehaus.jackson:jackson-mapper-asl:${project.ext.jacksonVersion}")
+    }
+
+    testImplementation(project(":test:shared"))
+    testImplementation(project.ext.hadoopClient)
+    testImplementation("org.elasticsearch:securemock:1.2")
+    testImplementation("org.apache.spark:spark-core_${project.ext.scalaMajorVersion}:$sparkVersion") {
+        exclude group: 'javax.servlet'
+        exclude group: 'org.apache.hadoop'
+    }
+    testImplementation("org.apache.spark:spark-sql_${project.ext.scalaMajorVersion}:$sparkVersion") {
+        exclude group: 'org.apache.hadoop'
+    }
+    
+    itestImplementation(project(":test:shared"))
+    itestImplementation("org.apache.spark:spark-yarn_${project.ext.scalaMajorVersion}:$sparkVersion") {
+        exclude group: 'org.apache.hadoop'
+    }
+    itestImplementation("org.apache.spark:spark-streaming_${project.ext.scalaMajorVersion}:$sparkVersion") {
+        exclude group: 'org.apache.hadoop'
+    }
+
+    additionalSources(project(":elasticsearch-hadoop-mr"))
+    javadocSources(project(":elasticsearch-hadoop-mr"))
+}
+
+// Export generated Java code from the genjavadoc compiler plugin
+artifacts {
+    javadocElements(project.file("$buildDir/generated/java")) {
+        builtBy compileScala
+    }
+}
+
+jar {
+    dependsOn(project.configurations.embedded)
+    from(project.configurations.embedded.collect { it.isDirectory() ? it : zipTree(it)}) {
+        include "org/elasticsearch/hadoop/**"
+        include "esh-build.properties"
+        include "META-INF/services/*"
+    }
+}
+
+javadoc {
+    dependsOn compileScala
+    source += "$buildDir/generated/java"
+}
+
+scaladoc {
+    title = "${rootProject.description} ${version} API"
+}
+
+if (project.ext.scalaMajorVersion != '2.10') {
+    tasks.withType(ScalaCompile) {
+        scalaCompileOptions.with {
+            additionalParameters = [
+                    "-Xplugin:" + configurations.scalaCompilerPlugin.asPath,
+                    "-P:genjavadoc:out=$buildDir/generated/java".toString()
+            ]
+        }
+    }
+}
@@ -0,0 +1 @@
+5043bfebc3db072ed80fbd362e7caf00e885d8ae
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+5043bfebc3db072ed80fbd362e7caf00e885d8ae`