Ejemplos de StringIndexer.load en Python

Lenguaje de programación: Python

Namespace/Package Name: pyspark.ml.feature

Clase / Tipo: StringIndexer

Método / Función: load

Ejemplos en hotexamples.com: 1

Python StringIndexer.load - 1 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de pyspark.ml.feature.StringIndexer.load extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

StringIndexer(30)

fit(30)

transform(30)

getOutputCol(22)

show(19)

select(15)

setHandleInvalid(14)

write(10)

drop(9)

randomSplit(8)

toPandas(4)

withColumnRenamed(4)

getInputCol(3)

withColumn(3)

groupBy(3)

where(3)

printSchema(3)

save(2)

setInputCol(2)

count(2)

take(1)

describe(1)

setOutputCol(1)

filter(1)

dropna(1)

fitAsync(1)

orderBy(1)

_call_java(1)

labels(1)

groupby(1)

getOutputCols(1)

fillna(1)

load(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: als_test.py Proyecto: zivschwartz/Recommendation-System

def main(spark, model_file, data_file, user_file, track_file):

    #load ALS model
    als_model = ALSModel.load(model_file)
    user_indexer = StringIndexer.load(user_file)
    track_indexer = StringIndexer.load(track_file)

    #read in test data as parquet
    df_test = spark.read.parquet(data_file)
    pipeline = Pipeline(stages=[user_indexer, track_indexer])
    mapping = pipeline.fit(df_test)
    df_test = mapping.transform(df_test)

    ########### PERFORM RANKING METRICS ###########

    #create user actual items dataframe
    actual_recs = df_test.groupBy('user_idx').agg(
        F.collect_list('track_idx').alias('track_idx'))

    #create user predicted items dataframe
    user_subset = df_test.select('user_idx').distinct()
    pred_recs = als_model.recommendForUserSubset(user_subset, 500)
    pred_recs = pred_recs.select(
        'user_idx',
        F.col('recommendations.track_idx').alias('track_idx'))

    #create user item RDD & join on users
    perUserItemsRDD = pred_recs\
                        .join(actual_recs, on='user_idx').rdd\
                        .map(lambda row: (row[1], row[2]))

    rankingMetrics = RankingMetrics(perUserItemsRDD)

    #print results to the console
    print("Ranking Metrics MAP: ", rankingMetrics.meanAveragePrecision)