Python DataStreamReader.load 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.sql.streaming

클래스/타입: DataStreamReader

메소드/함수: load

hotexamples.com에서의 예제들: 2

Python DataStreamReader.load - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.sql.streaming.DataStreamReader.load에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DataStreamReader(8)

load(2)

select(1)

자주 사용되는 메소드들

DataStreamReader (8)

load (2)

select (1)

예제 #1

파일 보기

파일: structured_rating_file_consumer2.py 프로젝트: jventura68/spark-course-data

def consume_records():
    spark_context = SparkContext(appName='RatingConsumer')
    sql_context = SQLContext(spark_context)
    stream_reader = DataStreamReader(sql_context)

    fpath = os.path.join(os.environ['SPARK_DATA'], 'structured')

    fields = [
        StructField('userId', IntegerType(), True),
        StructField('movieId', IntegerType(), True),
        StructField('rating', FloatType(), True),
        StructField('timestamp', StringType(), True),
    ]

    schema = StructType(fields)
    ratings = stream_reader.load(fpath, schema=schema, format='csv')

    ratings.createOrReplaceTempView('ratingsView')

    #user_481 = sql_context.sql ("select userId, rating from ratingsView where userId < 481")
    user_481 = ratings.where("userId < 481").select("userId", "rating")

    query = user_481\
        .writeStream\
        .outputMode ('append')\
        .format ('console')\
        .start()
    query.awaitTermination()

예제 #2

파일 보기

def consume_records():
    spark_context = SparkContext(appName='RatingConsumer')
    sql_context = SQLContext(spark_context)
    stream_reader = DataStreamReader(sql_context)

    fpath = os.path.join(os.environ['SPARK_DATA'], 'structured')

    fields = [
        StructField('userId', IntegerType(), True),
        StructField('movieId', IntegerType(), True),
        StructField('rating', FloatType(), True),
        StructField('timestamp', StringType(), True),
    ]

    schema = StructType(fields)
    ratings = stream_reader.load(fpath, schema=schema, format='csv')

    user_counts = ratings.groupBy('userId').count()

    query = user_counts\
        .writeStream\
        .outputMode ('complete')\
        .format ('console')\
        .start()
    query.awaitTermination()