Merge pull request #24522: [Spark Dataset runner] Add @experimental and reduce visibility where possible

aromanenko-dev · web-flow · commit 66db2d81811d · 2022-12-05T14:08:01.000+01:00
diff --git a/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/SparkStructuredStreamingPipelineOptions.java b/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/SparkStructuredStreamingPipelineOptions.java
@@ -18,6 +18,7 @@
 package org.apache.beam.runners.spark.structuredstreaming;
 
 import org.apache.beam.runners.spark.SparkCommonPipelineOptions;
+import org.apache.beam.sdk.annotations.Experimental;
 import org.apache.beam.sdk.options.Default;
 import org.apache.beam.sdk.options.Description;
 import org.apache.beam.sdk.options.PipelineOptions;
@@ -26,6 +27,7 @@
  * Spark runner {@link PipelineOptions} handles Spark execution-related configurations, such as the
  * master address, and other user-related knobs.
  */
+@Experimental
 public interface SparkStructuredStreamingPipelineOptions extends SparkCommonPipelineOptions {
 
   /** Set to true to run the job in test mode. */
diff --git a/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/SparkStructuredStreamingRunner.java b/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/SparkStructuredStreamingRunner.java
@@ -39,6 +39,7 @@
 import org.apache.beam.runners.spark.structuredstreaming.translation.batch.PipelineTranslatorBatch;
 import org.apache.beam.sdk.Pipeline;
 import org.apache.beam.sdk.PipelineRunner;
+import org.apache.beam.sdk.annotations.Experimental;
 import org.apache.beam.sdk.metrics.MetricsEnvironment;
 import org.apache.beam.sdk.metrics.MetricsOptions;
 import org.apache.beam.sdk.options.ExperimentalOptions;
@@ -83,6 +84,7 @@
  * PipelineResult result = p.run();
  * }</pre>
  */
+@Experimental
 @SuppressWarnings({
   "nullness" // TODO(https://github.com/apache/beam/issues/20497)
 })
diff --git a/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/Aggregators.java b/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/Aggregators.java
@@ -37,6 +37,7 @@
 import java.util.function.Function;
 import javax.annotation.Nullable;
 import org.apache.beam.runners.spark.structuredstreaming.translation.utils.ScalaInterop.Fun1;
+import org.apache.beam.sdk.annotations.Internal;
 import org.apache.beam.sdk.transforms.Combine.CombineFn;
 import org.apache.beam.sdk.transforms.windowing.BoundedWindow;
 import org.apache.beam.sdk.transforms.windowing.IntervalWindow;
@@ -58,7 +59,8 @@
 import org.checkerframework.checker.nullness.qual.PolyNull;
 import org.joda.time.Instant;
 
-public class Aggregators {
+@Internal
+class Aggregators {
 
   /**
    * Creates simple value {@link Aggregator} that is not window aware.
@@ -68,7 +70,7 @@ public class Aggregators {
    * @param <ResT> {@link CombineFn} / {@link Aggregator} result type
    * @param <InT> {@link Aggregator} input type
    */
-  public static <ValT, AccT, ResT, InT> Aggregator<InT, ?, ResT> value(
+  static <ValT, AccT, ResT, InT> Aggregator<InT, ?, ResT> value(
       CombineFn<ValT, AccT, ResT> fn,
       Fun1<InT, ValT> valueFn,
       Encoder<AccT> accEnc,
@@ -89,7 +91,7 @@ public class Aggregators {
    * @param <ResT> {@link CombineFn} / {@link Aggregator} result type
    * @param <InT> {@link Aggregator} input type
    */
-  public static <ValT, AccT, ResT, InT>
+  static <ValT, AccT, ResT, InT>
       Aggregator<WindowedValue<InT>, ?, Collection<WindowedValue<ResT>>> windowedValue(
           CombineFn<ValT, AccT, ResT> fn,
           Fun1<WindowedValue<InT>, ValT> valueFn,
diff --git a/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/CombineGloballyTranslatorBatch.java b/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/CombineGloballyTranslatorBatch.java
@@ -52,7 +52,7 @@ class CombineGloballyTranslatorBatch<InT, AccT, OutT>
     extends TransformTranslator<PCollection<InT>, PCollection<OutT>, Combine.Globally<InT, OutT>> {
 
   @Override
-  public void translate(Combine.Globally<InT, OutT> transform, Context cxt) {
+  protected void translate(Combine.Globally<InT, OutT> transform, Context cxt) {
     WindowingStrategy<?, ?> windowing = cxt.getInput().getWindowingStrategy();
     CombineFn<InT, AccT, OutT> combineFn = (CombineFn<InT, AccT, OutT>) transform.getFn();
 
diff --git a/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/CombineGroupedValuesTranslatorBatch.java b/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/CombineGroupedValuesTranslatorBatch.java
@@ -37,7 +37,7 @@
  * <p>This doesn't require a Spark {@link Aggregator}. Instead it can directly use the respective
  * {@link CombineFn} to reduce each iterable of values into an aggregated output value.
  */
-public class CombineGroupedValuesTranslatorBatch<K, InT, AccT, OutT>
+class CombineGroupedValuesTranslatorBatch<K, InT, AccT, OutT>
     extends TransformTranslator<
         PCollection<? extends KV<K, ? extends Iterable<InT>>>,
         PCollection<KV<K, OutT>>,
diff --git a/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/GroupByKeyTranslatorBatch.java b/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/GroupByKeyTranslatorBatch.java
@@ -110,9 +110,9 @@ class GroupByKeyTranslatorBatch<K, V>
 
   private boolean useCollectList = true;
 
-  public GroupByKeyTranslatorBatch() {}
+  GroupByKeyTranslatorBatch() {}
 
-  public GroupByKeyTranslatorBatch(boolean useCollectList) {
+  GroupByKeyTranslatorBatch(boolean useCollectList) {
     this.useCollectList = useCollectList;
   }
 
diff --git a/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/ImpulseTranslatorBatch.java b/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/ImpulseTranslatorBatch.java
@@ -29,8 +29,7 @@
 import org.apache.beam.vendor.guava.v26_0_jre.com.google.common.collect.ImmutableList;
 import org.apache.spark.sql.Dataset;
 
-public class ImpulseTranslatorBatch
-    extends TransformTranslator<PBegin, PCollection<byte[]>, Impulse> {
+class ImpulseTranslatorBatch extends TransformTranslator<PBegin, PCollection<byte[]>, Impulse> {
 
   @Override
   public void translate(Impulse transform, Context cxt) {
diff --git a/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/ReshuffleTranslatorBatch.java b/runners/spark/3/src/main/java/org/apache/beam/runners/spark/structuredstreaming/translation/batch/ReshuffleTranslatorBatch.java
@@ -28,7 +28,7 @@
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.internal.SQLConf;
 
-public class ReshuffleTranslatorBatch<K, V>
+class ReshuffleTranslatorBatch<K, V>
     extends TransformTranslator<PCollection<KV<K, V>>, PCollection<KV<K, V>>, Reshuffle<K, V>> {
 
   @Override
@@ -37,7 +37,7 @@ protected void translate(Reshuffle<K, V> transform, Context cxt) throws IOExcept
     cxt.putDataset(cxt.getOutput(), input.repartition(col("value.key")));
   }
 
-  public static class ViaRandomKey<V>
+  static class ViaRandomKey<V>
       extends TransformTranslator<PCollection<V>, PCollection<V>, Reshuffle.ViaRandomKey<V>> {
 
     @Override

Original file line number	Diff line number	Diff line change
`@@ -110,9 +110,9 @@ class GroupByKeyTranslatorBatch<K, V>`
`110`	`110`
`111`	`111`	`private boolean useCollectList = true;`
`112`	`112`
`113`		`- public GroupByKeyTranslatorBatch() {}`
	`113`	`+ GroupByKeyTranslatorBatch() {}`
`114`	`114`
`115`		`- public GroupByKeyTranslatorBatch(boolean useCollectList) {`
	`115`	`+ GroupByKeyTranslatorBatch(boolean useCollectList) {`
`116`	`116`	`this.useCollectList = useCollectList;`
`117`	`117`	`}`
`118`	`118`