Python SparkContext.binaryFiles 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.context

클래스/타입: SparkContext

메소드/함수: binaryFiles

hotexamples.com에서의 예제들: 2

Python SparkContext.binaryFiles - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.context.SparkContext.binaryFiles에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

SparkContext(30)

textFile(30)

stop(30)

getOrCreate(30)

parallelize(30)

setLogLevel(24)

broadcast(18)

_ensure_initialized(11)

setSystemProperty(9)

setCheckpointDir(9)

addFile(8)

addPyFile(6)

union(5)

pickleFile(5)

wholeTextFiles(5)

accumulator(5)

getConf(3)

newAPIHadoopFile(2)

setJobGroup(2)

binaryFiles(2)

join(1)

hadoopFile(1)

read_csv(1)

sequenceFile(1)

flatMap(1)

emptyRDD(1)

_stop(1)

map(1)

예제 #1

파일 보기

파일: glueetl_extract_lookup_from_tarball.py 프로젝트: mknav2011/backup_biz_data

lookup_filename = args['lookup_filename']

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

print 'Starting Parquet Conversion ...'
input_file = '%s/*.tar.gz' % (s3_location_source)
output_folder = s3_location_target  # With absolute path

print 'input_file= %s' % (input_file)
print 'output_folder= %s' % (output_folder)
print 'lookup_filename= %s' % (lookup_filename)

zips = sc.binaryFiles(input_file)
files_data = zips.map(extractall_tarfile)

tsv_filename = lookup_filename
output_rdd = files_data.flatMap(lambda x: [el for el in x]).filter(lambda x: x[
    0] == tsv_filename).map(lambda x: x[1]).flatMap(lambda x: x.split('\n'))

print output_rdd.count()
df = output_rdd.map(parse_log).toDF()

df.distinct().write.mode('overwrite').parquet(output_folder)
print 'Done Parquet Conversion !'
df.printSchema()
job.commit()

예제 #2

파일 보기

파일: rdc_omniture_mobile_attributes_lookup_load.py 프로젝트: mknav2011/backup_biz_data

    return log


#----

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

filename = 's3://move-dataeng-dropbox-prod/adobe/omniture/mobilelookup/*.tar.gz'  #test_tgz/test.tar.gz' #homerealtor_20151123-000000.tar.gz' #instru_ods.tar.gz' #test_tgz.tar.gz' # mysql-connector-java-5.1.39.tar.gz' # instru_ods.tar.gz
zips = sc.binaryFiles(filename)
files_data = zips.map(extractall_tarfile)

tsv_filename_base = 'mobile_attributes'
tsv_filename = 'mobile_attributes.tsv'
output_rdd = files_data.flatMap(lambda x: [el for el in x]).filter(lambda x: x[
    0] == tsv_filename).map(lambda x: x[1]).flatMap(lambda x: x.split('\n'))

print output_rdd.count()
df = output_rdd.map(parse_log).toDF()

bucket_name = 's3://move-dataeng-temp-dev/glue-etl/omniture/lookups'
out_filename = "%s/%s" % (bucket_name, tsv_filename_base)

df.distinct().write.mode('overwrite').parquet(out_filename)
job.commit()