Ejemplos de RegexTokenizer.tranfsorm en Python

Lenguaje de programación: Python

Namespace/Package Name: pyspark.ml.feature

Clase / Tipo: RegexTokenizer

Método / Función: tranfsorm

Ejemplos en hotexamples.com: 1

Python RegexTokenizer.tranfsorm - 1 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de pyspark.ml.feature.RegexTokenizer.tranfsorm extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

transform(30)

RegexTokenizer(15)

getOutputCol(11)

drop(3)

select(2)

setPattern(2)

withColumn(2)

cache(1)

groupBy(1)

join(1)

tranfsorm(1)

unpersist(1)

Ejemplo n.º 1

Mostrar archivo

sen_df.show()

tokenizer = Tokenizer(inputCol='sentence', outputCol='words')
regex_tokenizer = RegexTokenizer(inputCol='sentence',
                                 outputCol='words',
                                 pattern='\\W')

count_tokens = udf(lambda words: len(words), IntegerType())
tokenized = tokenizer.transform(sen_df)

tokenized.show()

tokenized.withColumn('tokens', count_tokens(col('words'))).show()

rg_tokenized = regex_tokenizer.tranfsorm(sen_df)
rg_tokenized.withColumn('tokens', count_tokens(col('words'))).show()

from pyspark.ml.feature import StopWordsRemover

sentenceDataFrame = spark.createDataFrame(
    [(0, ['I', 'saw', 'the', 'green', 'horse']),
     (1, ['Mary', 'had', 'a', 'little', 'lamb'])], ['id', 'tokens'])

remover = StopWordsRemover(inputCol='tokens', outputCol='filtered')
remover.transform(sentenceDataFrame).show()

# n-gram pomaga znalezc zaleznosci miedzy kilkoma slowami

from pyspark.ml.feature import NGram