17: Spark interview Q&As with coding examples in pyspark (i.e. python)

Q01. How will you create a Spark context? A01.

from pyspark.sql import SparkSession

 spark = SparkSession.builder.appName("my spark job")
 spark.master('local[*]')

 spark.config('spark.jars.packages', 'com.amazonaws:aws-java-sdk:1.11.297,org.apache.hadoop:hadoop-aws:2.8.3,mysql:mysql-connector-java:5.1.46')
              .config('spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version', 2)
              .config('spark.speculation', 'false')

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("my spark job")

spark.master('local[*]')

spark.config('spark.jars.packages', 'com.amazonaws:aws-java-sdk:1.11.297,org.apache.hadoop:hadoop-aws:2.8.3,mysql:mysql-connector-java:5.1.46')

.config('spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version', 2)

.config('spark.speculation', 'false')

Q02. How will you create a Dataframe by reading a file from AWS S3 bucket? A02.


      csvFileAsDataframe = spark.read.format("com.databricks.spark.csv") \
                         .option("header", "false") \
                         .option("inferSchema", "true") \
                         .load(s3://my-bucket/some-path/input-file.csv) \

csvFileAsDataframe = spark.read.format("com.databricks.spark.csv") \

.option("header", "false") \

.option("inferSchema", "true") \

.load(s3://my-bucket/some-path/input-file.csv) \

Q03. How will you create a Dataframe by reading a table in a…

This content is for 100-Day-Full-Access, 200-Day-Full-Access, 365-Day-Full-Access, and 2-Year-Full-Access members only.

50+ Free Java FAQs

50+ Free Big Data FAQs

Already a member? Log in here

Categories

17: Spark interview Q&As with coding examples in pyspark (i.e. python)

300+ Java Interview FAQs

300 + Big Data Interview FAQs

16+ Java Tech Key Areas

10+ Companion Techs Q&As

300+ Java Interview Q&As

Tutorials on Java & Big Data

50+ Free Java & Big Data Interview Q&As

Disclaimer