from awsS3DataCrawlerSparkPython_v3 import SparkConf, SparkContext ############################################################################## ########################Spark Context Create################################## ############################################################################## conf = SparkConf().setAppName("SparkflatMap").setMaster("local[*]") sc = SparkContext(conf=conf) sc.setLogLevel("WARN") ############################################################################## ########################Filter Transformation################################# ############################################################################## data = sc.parallelize([2, 4, 5, 6, 7, 10, 1, 12, 14, 20]) filtered_data = data.filter(lambda x: (x % 2 == 0)) final_result = filtered_data.collect() print(final_result)
from awsS3DataCrawlerSparkPython_v3 import SparkConf, SparkContext ############################################################################## ########################Spark Context Create################################## ############################################################################## conf = SparkConf().setAppName("MapPartwithIndex").setMaster("local[*]") sc = SparkContext(conf=conf) sc.setLogLevel("WARN") student_rdd = sc.parallelize( [("Joseph", "Maths", 83), ("Joseph", "Physics", 74), ("Joseph", "Chemistry", 91), ("Joseph", "Biology", 82), ("Jimmy", "Maths", 69), ("Jimmy", "Physics", 62), ("Jimmy", "Chemistry", 97), ("Jimmy", "Biology", 80), ("Tina", "Maths", 78), ("Tina", "Physics", 73), ("Tina", "Chemistry", 68), ("Tina", "Biology", 87), ("Thomas", "Maths", 87), ("Thomas", "Physics", 93), ("Thomas", "Chemistry", 91), ("Thomas", "Biology", 74), ("Cory", "Maths", 56), ("Cory", "Physics", 65), ("Cory", "Chemistry", 71), ("Cory", "Biology", 68), ("Jackeline", "Maths", 86), ("Jackeline", "Physics", 62), ("Jackeline", "Chemistry", 75), ("Jackeline", "Biology", 83), ("Juan", "Maths", 63), ("Juan", "Physics", 69), ("Juan", "Chemistry", 64), ("Juan", "Biology", 60)], 3) # Defining Seqencial Operation and Combiner Operations def seq_op(accumulator, element): if (accumulator[1] > element[1]): return accumulator else: return element
from awsS3DataCrawlerSparkPython_v3 import SparkConf, SparkContext ############################################################################## ########################Spark Context Create################################## ############################################################################## conf = SparkConf().setAppName("MapPartwithIndex").setMaster( "spark://192.168.1.10:7077") sc = SparkContext(conf=conf) sc.setLogLevel("WARN") ############################################################################## ########################Spark Tranformation################################### ############################################################################## # baby_names = sc.textFile("/home/devbrt.shukla/Desktop/scalaoutput/Baby_Names__Beginning_2007.csv") # filtered_rows = baby_names.filter(lambda line: "Count" not in line) # filtered_map_rows = filtered_rows.map(lambda data: str(data).split(',')) # finaldata1 = filtered_map_rows.map(lambda x: ( x[1], int(x[4]) )) # # finaldata3 = finaldata1.reduceByKey(lambda x, y: x + y) # # finaldata3 = finaldata1.aggregateByKey(0, lambda k,v: k+int(v), lambda v,k: k+v) # finaldata4 = finaldata1.aggregateByKey(0, lambda k,v: k+int(v), lambda v,k: k+v) # # print(finaldata3.take(3)) # print(finaldata4.take(3)) premierRDD = sc.parallelize([("Arsenal", "2014–2015", 75), ("Arsenal", "2015–2016", 71), ("Arsenal", "2016–2017", 75), ("Arsenal", "2017–2018", 63), ("Chelsea", "2014–2015", 87), ("Chelsea", "2015–2016", 50),