Ejemplos de DataStreamReader.load en Python

Lenguaje de programación: Python

Namespace/Package Name: pyspark.sql.streaming

Clase / Tipo: DataStreamReader

Método / Función: load

Ejemplos en hotexamples.com: 2

Python DataStreamReader.load - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de pyspark.sql.streaming.DataStreamReader.load extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

DataStreamReader(8)

load(2)

select(1)

Métodos usados con frecuencia

DataStreamReader (8)

load (2)

select (1)

Ejemplo n.º 1

Mostrar archivo

Archivo: structured_rating_file_consumer2.py Proyecto: jventura68/spark-course-data

def consume_records():
    spark_context = SparkContext(appName='RatingConsumer')
    sql_context = SQLContext(spark_context)
    stream_reader = DataStreamReader(sql_context)

    fpath = os.path.join(os.environ['SPARK_DATA'], 'structured')

    fields = [
        StructField('userId', IntegerType(), True),
        StructField('movieId', IntegerType(), True),
        StructField('rating', FloatType(), True),
        StructField('timestamp', StringType(), True),
    ]

    schema = StructType(fields)
    ratings = stream_reader.load(fpath, schema=schema, format='csv')

    ratings.createOrReplaceTempView('ratingsView')

    #user_481 = sql_context.sql ("select userId, rating from ratingsView where userId < 481")
    user_481 = ratings.where("userId < 481").select("userId", "rating")

    query = user_481\
        .writeStream\
        .outputMode ('append')\
        .format ('console')\
        .start()
    query.awaitTermination()

Ejemplo n.º 2

Mostrar archivo

def consume_records():
    spark_context = SparkContext(appName='RatingConsumer')
    sql_context = SQLContext(spark_context)
    stream_reader = DataStreamReader(sql_context)

    fpath = os.path.join(os.environ['SPARK_DATA'], 'structured')

    fields = [
        StructField('userId', IntegerType(), True),
        StructField('movieId', IntegerType(), True),
        StructField('rating', FloatType(), True),
        StructField('timestamp', StringType(), True),
    ]

    schema = StructType(fields)
    ratings = stream_reader.load(fpath, schema=schema, format='csv')

    user_counts = ratings.groupBy('userId').count()

    query = user_counts\
        .writeStream\
        .outputMode ('complete')\
        .format ('console')\
        .start()
    query.awaitTermination()