To activate virtual python env

Usage: Setup the PySpark env (need Java 8)

Run : "source ~/configure_pyspark.sh"

Confirm : echo $JAVA_HOME java -version

To activate virtual python env

pipenv shell

To run PySpark on Google Colab

Necessary Linux commands (note: need ! as prefix):

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
!tar xf spark-2.4.4-bin-hadoop2.7.tgz
!pip install -q findspark

Setup PySpark env

import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.4-bin-hadoop2.7"

Work w/ PySpark

import findspark
findspark.init()

from pyspark import SparkConf
conf:SparkConf = SparkConf().setAppName("pyspark-local")
#
# Refer AWS-SDK dependency: https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/3.3.1
#
conf.set('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.3.1,com.amazonaws:aws-java-sdk-bundle:1.11.901')
#
# OR use: 
#    import os
#    os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages "org.apache.hadoop:hadoop-aws:3.3.1,com.amazonaws:aws-java-sdk-bundle:1.11.901" pyspark-shell'

#
# Refer: https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#Authenticating_with_S3 for Hadoop S3A file system
# e.g. conf.set('spark.hadoop.fs.s3a.aws.credentials.provider', 'org.apache.hadoop.fs.s3a.BasicAWSCredentialsProvider')
#
# To use public S3 - which does not need any credentials:
#    conf.set('spark.hadoop.fs.s3a.aws.credentials.provider', 'org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider')
#
# To use AWS profile:
#    export AWS_PROFILE="myProfile"
#    conf.set('spark.hadoop.fs.s3a.aws.credentials.provider', 'com.amazonaws.auth.profile.ProfileCredentialsProvider')
#
conf.set('com.amazonaws.services.s3.enableV4', 'true')
conf.set('spark.hadoop.fs.s3a.impl', 'org.apache.hadoop.fs.s3a.S3AFileSystem')
conf.set('spark.hadoop.fs.s3a.aws.credentials.provider', 'org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider')
conf.set('spark.hadoop.fs.s3a.access.key', <access_key>)
conf.set('spark.hadoop.fs.s3a.secret.key', <secret_key>)
conf.set('spark.hadoop.fs.s3a.session.token', <token>)

from pyspark import SparkContext
sc:SparkContext = SparkContext.getOrCreate(conf=conf)

import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.build.config(conf=conf).getOrCreate()

confirm pyspark working by typing "spark"

Spark-Submit (for Java)

spark-submit --conf "spark.driver.extraJavaOptions=-XX:+UseG1GC -verbose:gc -XX:+PrintGCTimeStamps -XX:InitiatingHeapOccupancyPercent=35 -Dlinear.properties.file=./proposal/proposal-conformance-LTS-dev.properties -DexecutionDate=2020/09/16" --conf "spark.executor.extraJavaOptions=-XX:+UseG1GC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:InitiatingHeapOccupancyPercent=35 -Dlinear.properties.file=./proposal/proposal-conformance-LTS-dev.properties -DexecutionDate=2020/09/16" --name linear-proposalheader-conformed-dev --conf spark.driver.memory=12g --conf spark.driver.cores=2 --conf spark.executor.memory=25g --conf spark.executor.cores=3 --conf spark.kryo.unsafe=true --conf spark.kryoserializer.buffer=300M --conf spark.kryoserializer.buffer.max=1024M --conf spark.task.maxFailures=10 --conf spark.yarn.executor.memoryOverhead=5120m --conf spark.dynamicAllocation.enabled=true --conf spark.dynamicAllocation.initialExecutors=75 --conf spark.executor.extraClassPath=/usr/lib/spark/jars/ --master yarn --deploy-mode cluster --class com.dtci.linear.core.spark.SparkApplication s3://dp-repository-dev/dp-linear-conformance/dp-linear-conformation-Airflow-Oct15__Sept15_as_DayOne.jar

PySpark shell with MongoDB connector

Refer: Pyspark Mongodb connector

./bin/pyspark --conf "spark.mongodb.input.uri=mongodb://127.0.0.1/test.myCollection?readPreference=primaryPreferred" \
              --conf "spark.mongodb.output.uri=mongodb://127.0.0.1/test.myCollection" \
              --packages org.mongodb.spark:mongo-spark-connector_2.12:3.0.1

Refer: Spark_on_Kubernetes.ppt for Spark on EKS

Name		Name	Last commit message	Last commit date
Latest commit History 75 Commits
Spark_Snowflake_connector		Spark_Snowflake_connector
test_data		test_data
Dedup_using_Window_over_latest_record.ipynb		Dedup_using_Window_over_latest_record.ipynb
JSON_explode.ipynb		JSON_explode.ipynb
JSON_explode.py		JSON_explode.py
Load test data in PySpark.ipynb		Load test data in PySpark.ipynb
Load test data in PySpark.py		Load test data in PySpark.py
Pipfile		Pipfile
Pipfile.lock		Pipfile.lock
README.md		README.md
Repartitioning_to_handle_duplicate_or_update.ipynb		Repartitioning_to_handle_duplicate_or_update.ipynb
Spark_on_Kubernetes.key		Spark_on_Kubernetes.key
Spark_on_Kubernetes.ppt		Spark_on_Kubernetes.ppt
check_duplicate.py		check_duplicate.py
configure_pyspark.sh		configure_pyspark.sh
csv_to_Spark_df.py		csv_to_Spark_df.py
dynamic_DF_built_inmemory.py		dynamic_DF_built_inmemory.py
install_pyspark.bash		install_pyspark.bash
left_anti_join__and__save_to_S3.ipynb		left_anti_join__and__save_to_S3.ipynb
lndcdcadsprpsl_flightrange_1630659599.557913_20210903_08_local_test.parquet		lndcdcadsprpsl_flightrange_1630659599.557913_20210903_08_local_test.parquet
netcat_streaming_word_count.py		netcat_streaming_word_count.py
pyspark_mongodb_connector.py		pyspark_mongodb_connector.py
pyspark_sandbox.ipynb		pyspark_sandbox.ipynb
pyspark_sanity.py		pyspark_sanity.py
quick_test_Spark.sh		quick_test_Spark.sh
ratings-counter.py		ratings-counter.py
read_parquet_from_S3_or_local.py		read_parquet_from_S3_or_local.py
read_parquet_schema.py		read_parquet_schema.py
run_check_duplicate_on_Spark_EMR.sh		run_check_duplicate_on_Spark_EMR.sh
spark-env.sh		spark-env.sh
spark-glue-etl.py		spark-glue-etl.py
tips_dataset_linear_regression.ipynb		tips_dataset_linear_regression.ipynb

productiveAnalytics/Spark

Folders and files

Latest commit

History

Repository files navigation

To activate virtual python env

To run PySpark on Google Colab

Necessary Linux commands (note: need ! as prefix):

Setup PySpark env

Work w/ PySpark

confirm pyspark working by typing "spark"

Spark-Submit (for Java)

PySpark shell with MongoDB connector

About

Topics

Resources

Stars

Watchers

Forks

Languages