Changes for scala 2.13 compatibility later (#558)

srowen · web-flow · commit d76a5009669e · 2021-09-20T11:05:50.000-05:00
diff --git a/README.md b/README.md
@@ -279,7 +279,7 @@ You can also use `.format("xml")` and `.load(...)`.
 import org.apache.spark.sql.SparkSession
 import com.databricks.spark.xml._
 
-val spark = SparkSession.builder.getOrCreate()
+val spark = SparkSession.builder().getOrCreate()
 val df = spark.read
   .option("rowTag", "book")
   .xml("books.xml")
@@ -298,7 +298,7 @@ import org.apache.spark.sql.SparkSession
 import org.apache.spark.sql.types.{StructType, StructField, StringType, DoubleType}
 import com.databricks.spark.xml._
 
-val spark = SparkSession.builder.getOrCreate()
+val spark = SparkSession.builder().getOrCreate()
 val customSchema = StructType(Array(
   StructField("_id", StringType, nullable = true),
   StructField("author", StringType, nullable = true),
@@ -372,7 +372,7 @@ df.select("author", "_id").write()
 
 ```python
 from pyspark.sql import SparkSession
-spark = SparkSession.builder.getOrCreate()
+spark = SparkSession.builder().getOrCreate()
 
 df = spark.read.format('xml').options(rowTag='book').load('books.xml')
 df.select("author", "_id").write \
@@ -386,7 +386,7 @@ You can manually specify schema:
 from pyspark.sql import SparkSession
 from pyspark.sql.types import *
 
-spark = SparkSession.builder.getOrCreate()
+spark = SparkSession.builder().getOrCreate()
 customSchema = StructType([
     StructField("_id", StringType(), True),
     StructField("author", StringType(), True),
diff --git a/src/main/scala/com/databricks/spark/xml/XmlReader.scala b/src/main/scala/com/databricks/spark/xml/XmlReader.scala
@@ -32,15 +32,15 @@ class XmlReader(private var schema: StructType,
 
   // Explicit constructors for Java compatibility
 
-  def this() {
+  def this() = {
     this(null, Map.empty)
   }
 
-  def this(schema: StructType) {
+  def this(schema: StructType) = {
     this(schema, Map.empty)
   }
 
-  def this(options: Map[String, Any]) {
+  def this(options: Map[String, Any]) = {
     this(null, options)
   }
 
diff --git a/src/main/scala/com/databricks/spark/xml/package.scala b/src/main/scala/com/databricks/spark/xml/package.scala
@@ -86,7 +86,7 @@ package object xml {
 
     @deprecated("Use XmlReader directly", "0.13.0")
     def xml(xmlDataset: Dataset[String]): DataFrame = {
-      val spark = SparkSession.builder.getOrCreate()
+      val spark = SparkSession.builder().getOrCreate()
       new XmlReader().xmlDataset(spark, xmlDataset)
     }
   }
diff --git a/src/main/scala/com/databricks/spark/xml/parsers/StaxXmlParser.scala b/src/main/scala/com/databricks/spark/xml/parsers/StaxXmlParser.scala
@@ -122,7 +122,7 @@ private[xml] object StaxXmlParser extends Serializable {
         }
         val corruptFieldIndex = Try(schema.fieldIndex(options.columnNameOfCorruptRecord)).toOption
         corruptFieldIndex.foreach(resultRow(_) = record)
-        Some(Row.fromSeq(resultRow))
+        Some(Row.fromSeq(resultRow.toIndexedSeq))
     }
   }
 
@@ -281,7 +281,7 @@ private[xml] object StaxXmlParser extends Serializable {
       // Return an empty row with all nested elements by the schema set to null.
       Row.fromSeq(Seq.fill(schema.fieldNames.length)(null))
     } else {
-      Row.fromSeq(row)
+      Row.fromSeq(row.toIndexedSeq)
     }
   }
 
@@ -366,9 +366,9 @@ private[xml] object StaxXmlParser extends Serializable {
     }
 
     if (badRecordException.isEmpty) {
-      Row.fromSeq(row)
+      Row.fromSeq(row.toIndexedSeq)
     } else {
-      throw PartialResultException(Row.fromSeq(row), badRecordException.get)
+      throw PartialResultException(Row.fromSeq(row.toIndexedSeq), badRecordException.get)
     }
   }
 }
diff --git a/src/main/scala/com/databricks/spark/xml/util/InferSchema.scala b/src/main/scala/com/databricks/spark/xml/util/InferSchema.scala
@@ -23,7 +23,6 @@ import javax.xml.transform.stream.StreamSource
 
 import scala.annotation.tailrec
 import scala.collection.JavaConverters._
-import scala.collection.Seq
 import scala.collection.mutable.ArrayBuffer
 import scala.util.control.NonFatal
 
diff --git a/src/main/scala/com/databricks/spark/xml/util/XSDToSchema.scala b/src/main/scala/com/databricks/spark/xml/util/XSDToSchema.scala
@@ -134,7 +134,7 @@ object XSDToSchema {
                       xmlSchema.getParent.getTypeByQName(attribute.getSchemaTypeName))
                     StructField(s"_${attribute.getName}", baseStructField.dataType,
                       attribute.getUse != XmlSchemaUse.REQUIRED)
-                }
+                }.toSeq
                 StructField(complexType.getName, StructType(value +: attributes))
               case unsupported =>
                 throw new IllegalArgumentException(s"Unsupported content: $unsupported")
@@ -153,7 +153,7 @@ object XSDToSchema {
                       } else {
                         StructField(element.getName, ArrayType(baseStructField.dataType), nullable)
                       }
-                  }
+                  }.toSeq
                 // xs:choice
                 case choice: XmlSchemaChoice =>
                   choice.getItems.asScala.map {
@@ -167,7 +167,7 @@ object XSDToSchema {
                     case any: XmlSchemaAny =>
                       val dataType = if (any.getMaxOccurs > 1) ArrayType(StringType) else StringType
                       StructField(XmlOptions.DEFAULT_WILDCARD_COL_NAME, dataType, true)
-                  }
+                  }.toSeq
                 // xs:sequence
                 case sequence: XmlSchemaSequence =>
                   // flatten xs:choice nodes
@@ -192,7 +192,7 @@ object XSDToSchema {
                     case unsupported =>
                       throw new IllegalArgumentException(s"Unsupported item: $unsupported")
                     }
-                  }
+                  }.toSeq
                 case unsupported =>
                   throw new IllegalArgumentException(s"Unsupported particle: $unsupported")
               }
@@ -202,7 +202,7 @@ object XSDToSchema {
                   xmlSchema.getParent.getTypeByQName(attribute.getSchemaTypeName))
                 StructField(s"_${attribute.getName}", baseStructField.dataType,
                   attribute.getUse != XmlSchemaUse.REQUIRED)
-            }
+            }.toSeq
             StructField(complexType.getName, StructType(childFields ++ attributes))
           case unsupported =>
             throw new IllegalArgumentException(s"Unsupported content model: $unsupported")
diff --git a/src/main/scala/com/databricks/spark/xml/util/XmlFile.scala b/src/main/scala/com/databricks/spark/xml/util/XmlFile.scala
@@ -105,7 +105,7 @@ private[xml] object XmlFile {
 
         override def hasNext: Boolean = iter.hasNext || firstRow || lastRow
 
-        override def next: String = {
+        override def next(): String = {
           if (iter.nonEmpty) {
             if (firstRow) {
               indentingXmlWriter.writeStartElement(rootElementName)
diff --git a/src/test/scala/com/databricks/spark/xml/XmlSuite.scala b/src/test/scala/com/databricks/spark/xml/XmlSuite.scala
@@ -327,8 +327,8 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
 
     val carsCopy = spark.read.xml(copyFilePath.toString)
 
-    assert(carsCopy.count === cars.count)
-    assert(carsCopy.collect.map(_.toString).toSet === cars.collect.map(_.toString).toSet)
+    assert(carsCopy.count() === cars.count())
+    assert(carsCopy.collect().map(_.toString).toSet === cars.collect().map(_.toString).toSet)
   }
 
   test("DSL save with gzip compression codec by shorten name") {
@@ -345,8 +345,8 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
 
     val carsCopy = spark.read.xml(copyFilePath.toString)
 
-    assert(carsCopy.count === cars.count)
-    assert(carsCopy.collect.map(_.toString).toSet === cars.collect.map(_.toString).toSet)
+    assert(carsCopy.count() === cars.count())
+    assert(carsCopy.collect().map(_.toString).toSet === cars.collect().map(_.toString).toSet)
   }
 
   test("DSL save") {
@@ -362,8 +362,8 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
     val booksCopy = spark.read
       .option("rowTag", "book")
       .xml(copyFilePath.toString)
-    assert(booksCopy.count === books.count)
-    assert(booksCopy.collect.map(_.toString).toSet === books.collect.map(_.toString).toSet)
+    assert(booksCopy.count() === books.count())
+    assert(booksCopy.collect().map(_.toString).toSet === books.collect().map(_.toString).toSet)
   }
 
   test("DSL save with nullValue and treatEmptyValuesAsNulls") {
@@ -381,8 +381,8 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
       .option("treatEmptyValuesAsNulls", "true")
       .xml(copyFilePath.toString)
 
-    assert(booksCopy.count === books.count)
-    assert(booksCopy.collect.map(_.toString).toSet === books.collect.map(_.toString).toSet)
+    assert(booksCopy.count() === books.count())
+    assert(booksCopy.collect().map(_.toString).toSet === books.collect().map(_.toString).toSet)
   }
 
   test("Write values properly as given to valueTag even if it starts with attributePrefix") {
@@ -408,8 +408,8 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
       .option("rowTag", "book")
       .xml(copyFilePath.toString)
 
-    assert(booksCopy.count === books.count)
-    assert(booksCopy.collect.map(_.toString).toSet === books.collect.map(_.toString).toSet)
+    assert(booksCopy.count() === books.count())
+    assert(booksCopy.collect().map(_.toString).toSet === books.collect().map(_.toString).toSet)
   }
 
   test("DSL save dataframe not read from a XML file") {
@@ -429,7 +429,7 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
         field("item", ArrayType(StringType))))
     val dfCopy = spark.read.xml(copyFilePath.toString)
 
-    assert(dfCopy.count === df.count)
+    assert(dfCopy.count() === df.count())
     assert(dfCopy.schema === schemaCopy)
   }
 
@@ -582,7 +582,7 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
       field("title"))
 
     assert(resultsOne.schema === schemaOne)
-    assert(resultsOne.count === 12)
+    assert(resultsOne.count() === 12)
 
     // Explicitly set
     val attributePrefix = "@#"
@@ -602,7 +602,7 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
       field("title"))
 
     assert(resultsTwo.schema === schemaTwo)
-    assert(resultsTwo.count === 12)
+    assert(resultsTwo.count() === 12)
   }
 
   test("DSL test schema (excluding tags) inferred correctly") {
@@ -752,7 +752,7 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
     assert(result(0) === Row(111, 222))
   }
 
-  private[this] def testNextedElementFromFile(xmlFile: String) = {
+  private[this] def testNextedElementFromFile(xmlFile: String): Unit = {
     val lines = getLines(Paths.get(xmlFile)).toList
     val firstExpected = lines(2).trim
     val lastExpected = lines(3).trim
@@ -962,8 +962,8 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
     val booksCopy = spark.read
       .option("rowTag", "book")
       .xml(copyFilePath.toString)
-    assert(booksCopy.count === books.count)
-    assert(booksCopy.collect.map(_.toString).toSet === books.collect.map(_.toString).toSet)
+    assert(booksCopy.count() === books.count())
+    assert(booksCopy.collect().map(_.toString).toSet === books.collect().map(_.toString).toSet)
   }
 
   test("DSL test nulls out invalid values when set to permissive and given explicit schema") {
@@ -1213,7 +1213,7 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
     df.write.option("rootTag", "root foo='bar' bing=\"baz\"").xml(xmlPath.toString)
 
     val xmlFile =
-      Files.list(xmlPath).iterator.asScala.filter(_.getFileName.toString.startsWith("part-")).next
+      Files.list(xmlPath).iterator.asScala.filter(_.getFileName.toString.startsWith("part-")).next()
     val firstLine = getLines(xmlFile).head
     assert(firstLine === "<root foo=\"bar\" bing=\"baz\">")
   }
@@ -1378,7 +1378,7 @@ final class XmlSuite extends AnyFunSuite with BeforeAndAfterAll {
   private def getLines(path: Path): Seq[String] = {
     val source = Source.fromFile(path.toFile)
     try {
-      source.getLines.toList
+      source.getLines().toList
     } finally {
       source.close()
     }
diff --git a/src/test/scala/com/databricks/spark/xml/parsers/StaxXmlGeneratorSuite.scala b/src/test/scala/com/databricks/spark/xml/parsers/StaxXmlGeneratorSuite.scala
@@ -92,13 +92,13 @@ final class StaxXmlGeneratorSuite extends AnyFunSuite with BeforeAndAfterAll {
         nullDatum = null)
     )
     
-    val df = dataset.toDF.orderBy("booleanDatum")
+    val df = dataset.toDF().orderBy("booleanDatum")
     val targetFile =
       Files.createTempDirectory("StaxXmlGeneratorSuite").resolve("roundtrip.xml").toString
     df.write.format("xml").save(targetFile)
     val newDf =
       spark.read.schema(df.schema).format("xml").load(targetFile).orderBy("booleanDatum")
-    assert(df.collect.deep == newDf.collect.deep)
+    assert(df.collect().toSeq === newDf.collect().toSeq)
   }
 
 }

Original file line number	Diff line number	Diff line change
`@@ -32,15 +32,15 @@ class XmlReader(private var schema: StructType,`
`32`	`32`
`33`	`33`	`// Explicit constructors for Java compatibility`
`34`	`34`
`35`		`- def this() {`
	`35`	`+ def this() = {`
`36`	`36`	`this(null, Map.empty)`
`37`	`37`	`}`
`38`	`38`
`39`		`- def this(schema: StructType) {`
	`39`	`+ def this(schema: StructType) = {`
`40`	`40`	`this(schema, Map.empty)`
`41`	`41`	`}`
`42`	`42`
`43`		`- def this(options: Map[String, Any]) {`
	`43`	`+ def this(options: Map[String, Any]) = {`
`44`	`44`	`this(null, options)`
`45`	`45`	`}`
`46`	`46`
Original file line number	Diff line number	Diff line change
`@@ -86,7 +86,7 @@ package object xml {`
`86`	`86`
`87`	`87`	`@deprecated("Use XmlReader directly", "0.13.0")`
`88`	`88`	`def xml(xmlDataset: Dataset[String]): DataFrame = {`
`89`		`- val spark = SparkSession.builder.getOrCreate()`
	`89`	`+ val spark = SparkSession.builder().getOrCreate()`
`90`	`90`	`new XmlReader().xmlDataset(spark, xmlDataset)`
`91`	`91`	`}`
`92`	`92`	`}`
Original file line number	Diff line number	Diff line change
`@@ -122,7 +122,7 @@ private[xml] object StaxXmlParser extends Serializable {`
`122`	`122`	`}`
`123`	`123`	`val corruptFieldIndex = Try(schema.fieldIndex(options.columnNameOfCorruptRecord)).toOption`
`124`	`124`	`corruptFieldIndex.foreach(resultRow(_) = record)`
`125`		`- Some(Row.fromSeq(resultRow))`
	`125`	`+ Some(Row.fromSeq(resultRow.toIndexedSeq))`
`126`	`126`	`}`
`127`	`127`	`}`
`128`	`128`
`@@ -281,7 +281,7 @@ private[xml] object StaxXmlParser extends Serializable {`
`281`	`281`	`// Return an empty row with all nested elements by the schema set to null.`
`282`	`282`	`Row.fromSeq(Seq.fill(schema.fieldNames.length)(null))`
`283`	`283`	`} else {`
`284`		`- Row.fromSeq(row)`
	`284`	`+ Row.fromSeq(row.toIndexedSeq)`
`285`	`285`	`}`
`286`	`286`	`}`
`287`	`287`
`@@ -366,9 +366,9 @@ private[xml] object StaxXmlParser extends Serializable {`
`366`	`366`	`}`
`367`	`367`
`368`	`368`	`if (badRecordException.isEmpty) {`
`369`		`- Row.fromSeq(row)`
	`369`	`+ Row.fromSeq(row.toIndexedSeq)`
`370`	`370`	`} else {`
`371`		`- throw PartialResultException(Row.fromSeq(row), badRecordException.get)`
	`371`	`+ throw PartialResultException(Row.fromSeq(row.toIndexedSeq), badRecordException.get)`
`372`	`372`	`}`
`373`	`373`	`}`
`374`	`374`	`}`
Original file line number	Diff line number	Diff line change
`@@ -92,13 +92,13 @@ final class StaxXmlGeneratorSuite extends AnyFunSuite with BeforeAndAfterAll {`
`92`	`92`	`nullDatum = null)`
`93`	`93`	`)`
`94`	`94`
`95`		`- val df = dataset.toDF.orderBy("booleanDatum")`
	`95`	`+ val df = dataset.toDF().orderBy("booleanDatum")`
`96`	`96`	`val targetFile =`
`97`	`97`	`Files.createTempDirectory("StaxXmlGeneratorSuite").resolve("roundtrip.xml").toString`
`98`	`98`	`df.write.format("xml").save(targetFile)`
`99`	`99`	`val newDf =`
`100`	`100`	`spark.read.schema(df.schema).format("xml").load(targetFile).orderBy("booleanDatum")`
`101`		`- assert(df.collect.deep == newDf.collect.deep)`
	`101`	`+ assert(df.collect().toSeq === newDf.collect().toSeq)`
`102`	`102`	`}`
`103`	`103`
`104`	`104`	`}`