Ejemplos de PorterStemmer.isalpha en Python

Lenguaje de programación: Python

Namespace/Package Name: nltk.stem.porter

Clase / Tipo: PorterStemmer

Método / Función: isalpha

Ejemplos en hotexamples.com: 2

Python PorterStemmer.isalpha - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de nltk.stem.porter.PorterStemmer.isalpha extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

stem(30)

PorterStemmer(30)

lemmatize(6)

stem_word(5)

encode(2)

isalpha(2)

lower(2)

__init__(1)

b(1)

k(1)

k0(1)

split(1)

step1ab(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: train_classifier.py Proyecto: KimBoerensen/disasterresponse-datascientist-nanodegree

def tokenize(text):
    '''clean and tokenize input messages'''

    # replace urls with placeholder
    url_regex = 'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
    detected_urls = re.findall(url_regex, text)
    for url in detected_urls:
        text = text.replace(url, "urlplaceholder")

    # tokenize text
    tokens = word_tokenize(text)

    # process text further in loop
    clean_tokens = []
    for tok in tokens:

        # Remove stop words
        if tok in stopwords.words("english"):
            continue

        # Reduce words to their stems
        tok = PorterStemmer().stem(tok)

        # Reduce words to their root form
        lemmatizer = WordNetLemmatizer()
        tok = lemmatizer.lemmatize(tok).lower().strip()

        # append to list
        clean_tokens.append(tok)

    # Remove all non alphabet characters
    clean_tokens = [tok for tok in clean_tokens if tok.isalpha()]

    # return clean and tokenized text
    return clean_tokens

Ejemplo n.º 2

Mostrar archivo

Archivo: train_classifier.py Proyecto: nahista1/Disaster-Response-Pipelines

def tokenize(text):
    '''tokenize input messages'''
    tokens = word_tokenize(text)
    lemmatizer = WordNetLemmatizer()
    clean_tokens = []
    for tok in tokens:
        # Remove stop words
        if tok in stopwords.words("english"):
            continue

        # Reduce words to their stems
        tok = PorterStemmer().stem(tok)

        # Reduce words to their root form
        tok = lemmatizer.lemmatize(tok).lower().strip()

        clean_tokens.append(tok)

    # Remove all non alphabet characters
    clean_tokens = [tok for tok in clean_tokens if tok.isalpha()]
    return clean_tokens