Python GlueContext.sql Examples

Programming Language: Python

Namespace/Package Name: awsglue.context

Class/Type: GlueContext

Method/Function: sql

Examples at hotexamples.com: 2

Python GlueContext.sql - 2 examples found. These are the top rated real world Python examples of awsglue.context.GlueContext.sql extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

GlueContext(30)

create_dynamic_frame_from_options(30)

write_dynamic_frame_from_options(13)

create_dynamic_frame_from_catalog(8)

getSink(7)

forEachBatch(4)

purge_s3_path(4)

get_logger(4)

extract_jdbc_conf(3)

createDataFrame(3)

sql(2)

create_dynamic_frame_from_rdd(1)

abort_transaction(1)

commit_transaction(1)

begin_transaction(1)

getSource(1)

get_catalog_schema_as_spark_schema(1)

createOrReplaceTempView(1)

start_transaction(1)

cancel_transaction(1)

Example #1

Show file

File: glue_spark_jsontocsv.py Project: muru4a/AWS

            "unrestrictedCompanyStockPercent"))

if has_column(inputDF,
              'enrollmentData.enrollmentEvents.lastServiceTierChange'):
    # Data frame for enrollmentData
    enrollmentDF = inputDF.withColumn("lastServiceTierChange",
                                      f.explode("enrollmentData.enrollmentEvents.lastServiceTierChange")). \
        withColumn("serviceTier_new", f.explode("enrollmentData.enrollmentEvents.serviceTier")). \
        withColumn("enrollmentChannel", f.explode("enrollmentData.enrollmentEvents.enrollmentChannel")). \
        withColumn("enrollmentReason", f.explode("enrollmentData.enrollmentEvents.enrollmentReason"))

    enrollmentDF.registerTempTable("enrollmentTable")

    enrollmentTFSQL = glue_context.sql(
        "select userId,planOwnerId,recordKeeperId,max(enrollmentReason) as enrollmentReason,max(enrollmentChannel) as enrollmentChannel from ( select userId,planOwnerId,recordKeeperId,enrollmentReason,enrollmentChannel,lastServiceTierChange,serviceTier_new, \
                                    rank() over(partition by enrollmentReason ,enrollmentChannel order by lastServiceTierChange DESC) rnk \
                                    from enrollmentTable where serviceTier_new ='ma'  \
                                    ) where rnk=1 group by userId,planOwnerId,recordKeeperId "
    )
else:
    noenrollmentDF = inputDF.select(
        "userId", "planOwnerId", "recordKeeperId").withColumn(
            "enrollmentReason",
            lit(None).cast(StringType())).withColumn(
                "enrollmentChannel",
                lit(None).cast(StringType())).dropDuplicates()

    noenrollmentDF.registerTempTable("enrollmentTable")

    enrollmentTFSQL = spark.sql(
        "select userId,planOwnerId,recordKeeperId,max(enrollmentReason) as enrollmentReason ,\
                                        max(enrollmentChannel) as enrollmentChannel from enrollmentTable  group by userId,planOwnerId,recordKeeperId"

Example #2

Show file

File: SparkRead-v1.0.py Project: tiarebalbi/covid19-app-system-public

    df = df.repartition("submitteddatehour")

    dyf = DynamicFrame.fromDF(df, glueContext, "submitteddatehour-extracted")

    return (DynamicFrameCollection({"CustomTransform0": dyf}, glueContext))


## @params: [JOB_NAME, SOURCE_BUCKET_URI, DESTINATION_BUCKET_URI]
args = getResolvedOptions(
    sys.argv, ['JOB_NAME', 'SOURCE_BUCKET_URI', 'DESTINATION_BUCKET_URI'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
glueContext.sql("set spark.sql.parquet.mergeSchema=true")
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
## @type: DataSource
## @args: [connection_type = "s3", format = "parquet", connection_options = {"paths": ["s3://te-load-test-analytics-submission-parquet/"], "recurse":True}, transformation_ctx = "DataSource0"]
## @return: DataSource0
## @inputs: []
DataSource0 = glueContext.create_dynamic_frame.from_options(
    connection_type="s3",
    format="parquet",
    connection_options={
        "paths": [f"{args['SOURCE_BUCKET_URI']}/"],
        "recurse": True
    },
    transformation_ctx="DataSource0")
## @type: CustomCode