示例#1
0
from awsS3DataCrawlerSparkPython_v3 import SparkConf, SparkContext

##############################################################################
########################Spark Context Create##################################
##############################################################################
conf = SparkConf().setAppName("SparkflatMap").setMaster("local[*]")
sc = SparkContext(conf=conf)
sc.setLogLevel("WARN")

##############################################################################
########################Filter Transformation#################################
##############################################################################
data = sc.parallelize([2, 4, 5, 6, 7, 10, 1, 12, 14, 20])
filtered_data = data.filter(lambda x: (x % 2 == 0))
final_result = filtered_data.collect()
print(final_result)
示例#2
0
from awsS3DataCrawlerSparkPython_v3 import SparkConf, SparkContext

##############################################################################
########################Spark Context Create##################################
##############################################################################
conf = SparkConf().setAppName("MapPartwithIndex").setMaster("local[*]")
sc = SparkContext(conf=conf)
sc.setLogLevel("WARN")

student_rdd = sc.parallelize(
    [("Joseph", "Maths", 83), ("Joseph", "Physics", 74),
     ("Joseph", "Chemistry", 91), ("Joseph", "Biology", 82),
     ("Jimmy", "Maths", 69), ("Jimmy", "Physics", 62),
     ("Jimmy", "Chemistry", 97), ("Jimmy", "Biology", 80),
     ("Tina", "Maths", 78), ("Tina", "Physics", 73), ("Tina", "Chemistry", 68),
     ("Tina", "Biology", 87), ("Thomas", "Maths", 87),
     ("Thomas", "Physics", 93), ("Thomas", "Chemistry", 91),
     ("Thomas", "Biology", 74), ("Cory", "Maths", 56), ("Cory", "Physics", 65),
     ("Cory", "Chemistry", 71), ("Cory", "Biology", 68),
     ("Jackeline", "Maths", 86), ("Jackeline", "Physics", 62),
     ("Jackeline", "Chemistry", 75), ("Jackeline", "Biology", 83),
     ("Juan", "Maths", 63), ("Juan", "Physics", 69), ("Juan", "Chemistry", 64),
     ("Juan", "Biology", 60)], 3)


# Defining Seqencial Operation and Combiner Operations
def seq_op(accumulator, element):
    if (accumulator[1] > element[1]):
        return accumulator
    else:
        return element
from awsS3DataCrawlerSparkPython_v3 import SparkConf, SparkContext

##############################################################################
########################Spark Context Create##################################
##############################################################################

conf = SparkConf().setAppName("MapPartwithIndex").setMaster(
    "spark://192.168.1.10:7077")
sc = SparkContext(conf=conf)
sc.setLogLevel("WARN")

##############################################################################
########################Spark Tranformation###################################
##############################################################################

# baby_names = sc.textFile("/home/devbrt.shukla/Desktop/scalaoutput/Baby_Names__Beginning_2007.csv")
# filtered_rows = baby_names.filter(lambda line: "Count" not in line)
# filtered_map_rows = filtered_rows.map(lambda data: str(data).split(','))
# finaldata1 = filtered_map_rows.map(lambda x: ( x[1], int(x[4]) ))
# # finaldata3 = finaldata1.reduceByKey(lambda x, y: x + y)
# # finaldata3 = finaldata1.aggregateByKey(0, lambda k,v: k+int(v), lambda v,k: k+v)
# finaldata4 = finaldata1.aggregateByKey(0, lambda k,v: k+int(v), lambda v,k: k+v)
# # print(finaldata3.take(3))
# print(finaldata4.take(3))

premierRDD = sc.parallelize([("Arsenal", "2014–2015", 75),
                             ("Arsenal", "2015–2016", 71),
                             ("Arsenal", "2016–2017", 75),
                             ("Arsenal", "2017–2018", 63),
                             ("Chelsea", "2014–2015", 87),
                             ("Chelsea", "2015–2016", 50),