Python DataprocResource Beispiele

Programmiersprache: Python

Namespace / Paketname: dagster_gcp.dataproc.resources

Klasse / Typ: DataprocResource

Beispiele auf hotexamples.com: 6

Python DataprocResource - 6 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die dagster_gcp.dataproc.resources.DataprocResource, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

DataprocResource(6)

submit_job(3)

wait_for_job(3)

Beispiel #1

Datei anzeigen

Datei: simple_pipeline.py Projekt: varokas/dagster-1

def data_proc_spark_operator(context):
    dt = datetime.datetime.strptime(context.solid_config['date'], "%Y-%m-%d")

    cluster_resource = DataprocResource(DATAPROC_CLUSTER_CONFIG)
    job_config = {
        'job': {
            'placement': {
                'clusterName': 'gcp-data-platform'
            },
            'reference': {
                'projectId': PROJECT_ID
            },
            'sparkJob': {
                'args': [
                    '--gcs-input-bucket',
                    INPUT_BUCKET,
                    '--gcs-output-bucket',
                    OUTPUT_BUCKET,
                    '--date',
                    dt.strftime('%Y-%m-%d'),
                ],
                'mainClass':
                'io.dagster.events.EventPipeline',
                'jarFileUris': [
                    '%s/events-assembly-%s.jar' %
                    (DEPLOY_BUCKET_PREFIX, LATEST_JAR_HASH)
                ],
            },
        },
        'projectId': PROJECT_ID,
        'region': REGION,
    }
    job = cluster_resource.submit_job(job_config)
    job_id = job['reference']['jobId']
    cluster_resource.wait_for_job(job_id)

Beispiel #2

Datei anzeigen

Datei: simple_pipeline.py Projekt: yuhan/dagster

def data_proc_spark_operator(context):
    dt = datetime.datetime.strptime(context.solid_config["date"], "%Y-%m-%d")

    cluster_resource = DataprocResource(DATAPROC_CLUSTER_CONFIG)
    job_config = {
        "job": {
            "placement": {
                "clusterName": "gcp-data-platform"
            },
            "reference": {
                "projectId": PROJECT_ID
            },
            "sparkJob": {
                "args": [
                    "--gcs-input-bucket",
                    INPUT_BUCKET,
                    "--gcs-output-bucket",
                    OUTPUT_BUCKET,
                    "--date",
                    dt.strftime("%Y-%m-%d"),
                ],
                "mainClass":
                "io.dagster.events.EventPipeline",
                "jarFileUris": [
                    "%s/events-assembly-%s.jar" %
                    (DEPLOY_BUCKET_PREFIX, LATEST_JAR_HASH)
                ],
            },
        },
        "projectId": PROJECT_ID,
        "region": REGION,
    }
    job = cluster_resource.submit_job(job_config)
    job_id = job["reference"]["jobId"]
    cluster_resource.wait_for_job(job_id)

Beispiel #3

Datei anzeigen

def delete_dataproc_cluster(_):
    DataprocResource(DATAPROC_CLUSTER_CONFIG).delete_cluster()

Beispiel #4

Datei anzeigen

def create_dataproc_cluster(_):
    DataprocResource(DATAPROC_CLUSTER_CONFIG).create_cluster()

Beispiel #5

Datei anzeigen

Datei: dagster_pipeline.py Projekt: velascoluis/dagster_gcp

def delete_dataproc_cluster(_):
    DataprocResource(cfg.dataproc_create_cluster_config).delete_cluster()

Beispiel #6

Datei anzeigen

Datei: dagster_pipeline.py Projekt: velascoluis/dagster_gcp

def data_proc_spark_operator(context):
    cluster_resource = DataprocResource(cfg.dataproc_create_cluster_config)
    job = cluster_resource.submit_job(cfg.dataproc_pyspark_job_config)
    job_id = job["reference"]["jobId"]
    cluster_resource.wait_for_job(job_id)