Exemplos de RSLPStemmer.apply_rule em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: nltk.stem

Classe / Tipo: RSLPStemmer

Método / Função: apply_rule

Exemplos em hotexamples.com: 2

RSLPStemmer.apply_rule em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de nltk.stem.RSLPStemmer.apply_rule em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

RSLPStemmer(30)

stem(30)

apply_rule(1)

read_rule(1)

Métodos Frequentes

RSLPStemmer (30)

stem (30)

apply_rule (1)

read_rule (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: main.py Projeto: stefanomozart/catmatfinder

def pre_process(description): ''' pre-processa a descricao ''' # compila regex de caracteres nao-especiais vanilla = u'[^\u0041-\u005A \ \u0061-\u007A \ \u00C0-\u00D6 \ \u00D8-\u00F6 \ \u00F8-\u00FF \ \u0100-\u017F \ \u0020]' regex = re.compile(vanilla) # poe tudo em minusculas description = description.encode('utf8').decode('utf8') lowercased = description.lower() # remove caracteres especiais e numeros regexed = regex.sub(' ', lowercased) # separa palavras tokenized = regexed.split() # passa o que esta no plural p/ singular st = RSLPStemmer() singularized = [st.apply_rule(token, 0) for token in tokenized] # remove palavras c/ menos de 2 caracteres # e mescla palavras novamente remerged = '' for word in singularized: if len(word) > 1: remerged += word + ' ' return remerged

Exemplo n.º 2

0

Exibir arquivo

Arquivo: main.py Projeto: thiagomarzagao/catmatfinder

def pre_process(description): ''' pre-processa a descricao ''' # compila regex de caracteres nao-especiais vanilla = u'[^\u0041-\u005A \ \u0061-\u007A \ \u00C0-\u00D6 \ \u00D8-\u00F6 \ \u00F8-\u00FF \ \u0100-\u017F \ \u0020]' regex = re.compile(vanilla) # poe tudo em minusculas description = description.encode('utf8').decode('utf8') lowercased = description.lower() # remove caracteres especiais e numeros regexed = regex.sub(' ', lowercased) # separa palavras tokenized = regexed.split() # passa o que esta no plural p/ singular st = RSLPStemmer() singularized = [st.apply_rule(token, 0) for token in tokenized] # remove palavras c/ menos de 2 caracteres # e mescla palavras novamente remerged = '' for word in singularized: if len(word) > 1: remerged += word + ' ' return remerged