Python RegexTokenizer.tranfsorm 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.ml.feature

클래스/타입: RegexTokenizer

메소드/함수: tranfsorm

hotexamples.com에서의 예제들: 1

Python RegexTokenizer.tranfsorm - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.ml.feature.RegexTokenizer.tranfsorm에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

transform(30)

RegexTokenizer(15)

getOutputCol(11)

drop(3)

select(2)

setPattern(2)

withColumn(2)

cache(1)

groupBy(1)

join(1)

tranfsorm(1)

unpersist(1)

예제 #1

파일 보기

sen_df.show()

tokenizer = Tokenizer(inputCol='sentence', outputCol='words')
regex_tokenizer = RegexTokenizer(inputCol='sentence',
                                 outputCol='words',
                                 pattern='\\W')

count_tokens = udf(lambda words: len(words), IntegerType())
tokenized = tokenizer.transform(sen_df)

tokenized.show()

tokenized.withColumn('tokens', count_tokens(col('words'))).show()

rg_tokenized = regex_tokenizer.tranfsorm(sen_df)
rg_tokenized.withColumn('tokens', count_tokens(col('words'))).show()

from pyspark.ml.feature import StopWordsRemover

sentenceDataFrame = spark.createDataFrame(
    [(0, ['I', 'saw', 'the', 'green', 'horse']),
     (1, ['Mary', 'had', 'a', 'little', 'lamb'])], ['id', 'tokens'])

remover = StopWordsRemover(inputCol='tokens', outputCol='filtered')
remover.transform(sentenceDataFrame).show()

# n-gram pomaga znalezc zaleznosci miedzy kilkoma slowami

from pyspark.ml.feature import NGram