Python SparkContext.SequenceFile Beispiele

Programmiersprache: Python

Namespace / Paketname: pyspark

Klasse / Typ: SparkContext

Methode / Funktion: SequenceFile

Beispiele auf hotexamples.com: 1

Python SparkContext.SequenceFile - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die pyspark.SparkContext.SequenceFile, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

setLogLevel(30)

setSystemProperty(30)

setCheckpointDir(30)

getConf(30)

parallelize(30)

pickleFile(30)

broadcast(30)

emptyRDD(30)

newAPIHadoopFile(30)

binaryFiles(30)

addPyFile(30)

addFile(30)

accumulator(30)

getOrCreate(30)

SparkContext(30)

sequenceFile(30)

newAPIHadoopRDD(25)

_ensure_initialized(14)

createDataFrame(11)

hadoopFile(10)

show_profiles(9)

range(8)

dump_profiles(6)

mongoRDD(6)

binaryRecords(6)

map(4)

setLocalProperty(3)

runJob(3)

flatMap(2)

cassandraTable(2)

collect(2)

close(2)

setJobGroup(2)

paralellize(1)

neo4jTable(1)

neo4jConfig(1)

parallelise(1)

BSONFileRDD(1)

parallelized(1)

parallize(1)

reduceByKey(1)

sample(1)

mongoPairRDD(1)

setMaster(1)

show_profile(1)

sortBy(1)

saveAsTextFile(1)

hadoopConfiguration(1)

mixin(1)

filter(1)

Beispiel #1

Datei anzeigen

else:
	sc = SparkContext(appName=config["APP_NAME"])
	ACCKEY = config["S3_ACCESS_KEY"]
	SECKEY = config["S3_SECRET_KEY"]
	BUCKET = config["BUCKET_NAME"]
	IPFOLDER = config["IP_FOLDER_NAME"]
	OPFOLDER = config["OP_FOLDER_NAME"]
	TMFOLDER = config["TEMP_FOLDER_NAME"]
	for i in range(24):
		try:
			subFolder = str(i)
			if i<10:
				subFolder = "0"+subFolder  //creating folder structure of the form "00", "01"
			ipRdd = sc.textFile("s3a://"+ACCKEY+":"+SECKEY+"@"+BUCKET+"/"+TMFOLDER+"/"+subFolder+"/")
			hrlyPageViewRdd = ipRdd.map(lambda x:x.split(" ")).map(lambda x:((x[0]).lower(),long(x[2]))) # Second field is timestamp which is irrelevant as it is present in filename
			sumPageViewRdd = sc.SequenceFile("s3a://"+ACCKEY+":"+SECKEY+"@"+BUCKET+"/"+OPFOLDER+"/sum/"+subFolder+"/")
			countPageViewRdd = sc.SequenceFile("s3a://"+ACCKEY+":"+SECKEY+"@"+BUCKET+"/"+OPFOLDER+"/count/"+subFolder+"/")
			pAvgHrlyPageViewRdd.saveAsSequenceFile("s3a://"+ACCKEY+":"+SECKEY+"@"+BUCKET+"/"+OPFOLDER+"/avg/"+subFolder+"/")
			cmbHrlyPageViewRdd = hrlyPageViewRdd.join(pAvgHrlyPageViewRdd).join(countPageViewRdd)
			#Cumulative moving average
			#CMAn+1 = n*CMAn  + Xn+1 equation 1
			avgHrlyPageViewRdd = cmbHrlyPageViewRdd.mapValues(lambda x:x[2]*x[1]+x[0]) #where x[0] = Xn+1, x[1] = CMAn and x[2] = n in equation 1
			countPageViewRdd = countPageViewRdd.mapValues(lambda x:x+1) #increment the count

			#used sequence files as it would be faster to read as key value pairs in the next spark job
			countPageViewRdd.saveAsSequenceFile("s3a://"+ACCKEY+":"+SECKEY+"@"+BUCKET+"/"+OPFOLDER+"/count/"+subFolder+"/") # Storing count so as to do moving averages, when new daily data comes in
			avgHrlyPageViewRdd.saveAsSequenceFile("s3a://"+ACCKEY+":"+SECKEY+"@"+BUCKET+"/"+OPFOLDER+"/avg/"+subFolder+"/")
		except IOError as e:
			print "I/O error({0}): {1}".format(e.errno, e.strerror)
		except:
			print "Unexpected error:", sys.exc_info()[0]