Python SparkContext.binaryFiles Exemples

Langage de programmation: Python

Espace de nommage/Pack: pyspark.context

Class/Type: SparkContext

Méthode/Fonction: binaryFiles

Exemples au hotexamples.com: 2

Python SparkContext.binaryFiles - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de pyspark.context.SparkContext.binaryFiles extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

SparkContext(30)

textFile(30)

stop(30)

getOrCreate(30)

parallelize(30)

setLogLevel(24)

broadcast(18)

_ensure_initialized(11)

setSystemProperty(9)

setCheckpointDir(9)

addFile(8)

addPyFile(6)

union(5)

pickleFile(5)

wholeTextFiles(5)

accumulator(5)

getConf(3)

newAPIHadoopFile(2)

setJobGroup(2)

binaryFiles(2)

join(1)

hadoopFile(1)

read_csv(1)

sequenceFile(1)

flatMap(1)

emptyRDD(1)

_stop(1)

map(1)

Méthodes fréquemment utilisées

SparkContext (30)

textFile (30)

stop (30)

getOrCreate (30)

parallelize (30)

setLogLevel (24)

broadcast (18)

_ensure_initialized (11)

setSystemProperty (9)

setCheckpointDir (9)

Méthodes fréquemment utilisées

addFile (8)

addPyFile (6)

union (5)

pickleFile (5)

wholeTextFiles (5)

accumulator (5)

getConf (3)

newAPIHadoopFile (2)

setJobGroup (2)

binaryFiles (2)

join (1)

hadoopFile (1)

read_csv (1)

sequenceFile (1)

flatMap (1)

emptyRDD (1)

_stop (1)

map (1)

Méthodes fréquemment utilisées

join (1)

hadoopFile (1)

read_csv (1)

sequenceFile (1)

flatMap (1)

emptyRDD (1)

_stop (1)

map (1)

Exemple #1

0

Afficher le fichier

Fichier : glueetl_extract_lookup_from_tarball.py Projet : mknav2011/backup_biz_data

lookup_filename = args['lookup_filename'] sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init(args['JOB_NAME'], args) print 'Starting Parquet Conversion ...' input_file = '%s/*.tar.gz' % (s3_location_source) output_folder = s3_location_target # With absolute path print 'input_file= %s' % (input_file) print 'output_folder= %s' % (output_folder) print 'lookup_filename= %s' % (lookup_filename) zips = sc.binaryFiles(input_file) files_data = zips.map(extractall_tarfile) tsv_filename = lookup_filename output_rdd = files_data.flatMap(lambda x: [el for el in x]).filter(lambda x: x[ 0] == tsv_filename).map(lambda x: x[1]).flatMap(lambda x: x.split('\n')) print output_rdd.count() df = output_rdd.map(parse_log).toDF() df.distinct().write.mode('overwrite').parquet(output_folder) print 'Done Parquet Conversion !' df.printSchema() job.commit()

Exemple #2

0

Afficher le fichier

Fichier : rdc_omniture_mobile_attributes_lookup_load.py Projet : mknav2011/backup_biz_data

return log #---- ## @params: [JOB_NAME] args = getResolvedOptions(sys.argv, ['JOB_NAME']) sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init(args['JOB_NAME'], args) filename = 's3://move-dataeng-dropbox-prod/adobe/omniture/mobilelookup/*.tar.gz' #test_tgz/test.tar.gz' #homerealtor_20151123-000000.tar.gz' #instru_ods.tar.gz' #test_tgz.tar.gz' # mysql-connector-java-5.1.39.tar.gz' # instru_ods.tar.gz zips = sc.binaryFiles(filename) files_data = zips.map(extractall_tarfile) tsv_filename_base = 'mobile_attributes' tsv_filename = 'mobile_attributes.tsv' output_rdd = files_data.flatMap(lambda x: [el for el in x]).filter(lambda x: x[ 0] == tsv_filename).map(lambda x: x[1]).flatMap(lambda x: x.split('\n')) print output_rdd.count() df = output_rdd.map(parse_log).toDF() bucket_name = 's3://move-dataeng-temp-dev/glue-etl/omniture/lookups' out_filename = "%s/%s" % (bucket_name, tsv_filename_base) df.distinct().write.mode('overwrite').parquet(out_filename) job.commit()