Python SparkContext.emptyRDDの例

プログラミング言語: Python

名前空間/パッケージ名: pyspark.context

クラス/型: SparkContext

メソッド/関数: emptyRDD

hotexamples.comのコード掲載数: 1

Python SparkContext.emptyRDD - 1件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpyspark.context.SparkContext.emptyRDDの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

SparkContext(30)

textFile(30)

stop(30)

getOrCreate(30)

parallelize(30)

setLogLevel(24)

broadcast(18)

_ensure_initialized(11)

setSystemProperty(9)

setCheckpointDir(9)

addFile(8)

addPyFile(6)

union(5)

pickleFile(5)

wholeTextFiles(5)

accumulator(5)

getConf(3)

newAPIHadoopFile(2)

setJobGroup(2)

binaryFiles(2)

join(1)

hadoopFile(1)

read_csv(1)

sequenceFile(1)

flatMap(1)

emptyRDD(1)

_stop(1)

map(1)

コード例 #1

ファイルを表示

ファイル: module11_cs1_batch_model_on_streaming_data.py プロジェクト: voklymchuk/spark

    .build()
    evaluator = BinaryClassificationEvaluator()
    numFolds = 2
    crossval_full = CrossValidator(
        estimator=full_pipeline,
        estimatorParamMaps=paramGrid,
        evaluator=evaluator,
        numFolds=numFolds)  # use 3+ folds in practice
    ############################################################

    # schema for raw csv files
    userSchema = StructType().add("spam", "string").add("message", "string")

    sqlContext = SQLContext(sc)
    # create an empty datframe
    dataset_df = sqlContext.createDataFrame(sc.emptyRDD(), userSchema)
    # or populate initial dataframe from a local csv file
    #dataset_df = sc.textFile("gs://drive3/data/spark/8_cs1_dataset/SMSSpamCollection").map(lambda line: re.split('\t', line)).toDF(["spam", "message"])
    #dataset_df = feature_pipeline.fit(dataset_df).transform(dataset_df)

    model = None

    prev_length = 0
    # whether to split dataset into train and evaluate before training
    evaluate = True
    # duration of training a model on whole batch dataset
    train_duration = 20  # train a model every n seconds
    ############################################################
    # append each batch of trainging stream to dataset_df
    # as part of structured streaming
    df = spark \