Ejemplos de RegexTokenizer.unpersist en Python

Lenguaje de programación: Python

Namespace/Package Name: pyspark.ml.feature

Clase / Tipo: RegexTokenizer

Método / Función: unpersist

Ejemplos en hotexamples.com: 1

Python RegexTokenizer.unpersist - 1 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de pyspark.ml.feature.RegexTokenizer.unpersist extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

transform(30)

RegexTokenizer(15)

getOutputCol(11)

drop(3)

select(2)

setPattern(2)

withColumn(2)

cache(1)

groupBy(1)

join(1)

tranfsorm(1)

unpersist(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: tfidf.py Proyecto: han-keong/kindle_project

    # @udf(ArrayType(StringType()))
    # def tokenize(string):
    #     return word_tokenize(string)

    # df = df.withColumn("words", tokenize("reviewText"))

    df = RegexTokenizer(inputCol="reviewText", outputCol="words", pattern="\\W").transform(df)
    df = df.drop("reviewText")

    cv_model = CountVectorizer(inputCol="words", outputCol="tf").fit(df)
    vocabulary = cv_model.vocabulary

    df = cv_model.transform(df)
    df = df.drop("words")
    df.cache()

    df = IDF(inputCol="tf", outputCol="tfidf").fit(df).transform(df)
    df = df.drop("tf")
    df.unpersist()

    @udf(MapType(StringType(), FloatType()))
    def create_map(vector):
        zipped = zip(vector.indices, vector.values)
        return dict((vocabulary[int(x)], float(y)) for (x, y) in zipped)

    results = df.withColumn("tfidf", create_map("tfidf"))

    results.write.json("hdfs:/output/tfidf", mode="overwrite")

    spark.stop()