Python GlueContext.sql примеры использования

Язык программирования: Python

Пространство имен/Пакет: awsglue.context

Класс/Тип: GlueContext

Метод/Функция: sql

Примеров на hotexamples.com: 2

Python GlueContext.sql - 2 примера найдено. Это лучшие примеры Python кода для awsglue.context.GlueContext.sql, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

GlueContext(30)

create_dynamic_frame_from_options(30)

write_dynamic_frame_from_options(13)

create_dynamic_frame_from_catalog(8)

getSink(7)

forEachBatch(4)

purge_s3_path(4)

get_logger(4)

extract_jdbc_conf(3)

createDataFrame(3)

sql(2)

create_dynamic_frame_from_rdd(1)

abort_transaction(1)

commit_transaction(1)

begin_transaction(1)

getSource(1)

get_catalog_schema_as_spark_schema(1)

createOrReplaceTempView(1)

start_transaction(1)

cancel_transaction(1)

Пример #1

Показать файл

Файл: glue_spark_jsontocsv.py Проект: muru4a/AWS

            "unrestrictedCompanyStockPercent"))

if has_column(inputDF,
              'enrollmentData.enrollmentEvents.lastServiceTierChange'):
    # Data frame for enrollmentData
    enrollmentDF = inputDF.withColumn("lastServiceTierChange",
                                      f.explode("enrollmentData.enrollmentEvents.lastServiceTierChange")). \
        withColumn("serviceTier_new", f.explode("enrollmentData.enrollmentEvents.serviceTier")). \
        withColumn("enrollmentChannel", f.explode("enrollmentData.enrollmentEvents.enrollmentChannel")). \
        withColumn("enrollmentReason", f.explode("enrollmentData.enrollmentEvents.enrollmentReason"))

    enrollmentDF.registerTempTable("enrollmentTable")

    enrollmentTFSQL = glue_context.sql(
        "select userId,planOwnerId,recordKeeperId,max(enrollmentReason) as enrollmentReason,max(enrollmentChannel) as enrollmentChannel from ( select userId,planOwnerId,recordKeeperId,enrollmentReason,enrollmentChannel,lastServiceTierChange,serviceTier_new, \
                                    rank() over(partition by enrollmentReason ,enrollmentChannel order by lastServiceTierChange DESC) rnk \
                                    from enrollmentTable where serviceTier_new ='ma'  \
                                    ) where rnk=1 group by userId,planOwnerId,recordKeeperId "
    )
else:
    noenrollmentDF = inputDF.select(
        "userId", "planOwnerId", "recordKeeperId").withColumn(
            "enrollmentReason",
            lit(None).cast(StringType())).withColumn(
                "enrollmentChannel",
                lit(None).cast(StringType())).dropDuplicates()

    noenrollmentDF.registerTempTable("enrollmentTable")

    enrollmentTFSQL = spark.sql(
        "select userId,planOwnerId,recordKeeperId,max(enrollmentReason) as enrollmentReason ,\
                                        max(enrollmentChannel) as enrollmentChannel from enrollmentTable  group by userId,planOwnerId,recordKeeperId"

Пример #2

Показать файл

Файл: SparkRead-v1.0.py Проект: tiarebalbi/covid19-app-system-public

    df = df.repartition("submitteddatehour")

    dyf = DynamicFrame.fromDF(df, glueContext, "submitteddatehour-extracted")

    return (DynamicFrameCollection({"CustomTransform0": dyf}, glueContext))


## @params: [JOB_NAME, SOURCE_BUCKET_URI, DESTINATION_BUCKET_URI]
args = getResolvedOptions(
    sys.argv, ['JOB_NAME', 'SOURCE_BUCKET_URI', 'DESTINATION_BUCKET_URI'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
glueContext.sql("set spark.sql.parquet.mergeSchema=true")
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
## @type: DataSource
## @args: [connection_type = "s3", format = "parquet", connection_options = {"paths": ["s3://te-load-test-analytics-submission-parquet/"], "recurse":True}, transformation_ctx = "DataSource0"]
## @return: DataSource0
## @inputs: []
DataSource0 = glueContext.create_dynamic_frame.from_options(
    connection_type="s3",
    format="parquet",
    connection_options={
        "paths": [f"{args['SOURCE_BUCKET_URI']}/"],
        "recurse": True
    },
    transformation_ctx="DataSource0")
## @type: CustomCode