Python PorterStemmer.isalphaの例

プログラミング言語: Python

名前空間/パッケージ名: nltk.stem.porter

クラス/型: PorterStemmer

メソッド/関数: isalpha

hotexamples.comのコード掲載数: 2

Python PorterStemmer.isalpha - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのnltk.stem.porter.PorterStemmer.isalphaの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

stem(30)

PorterStemmer(30)

lemmatize(6)

stem_word(5)

encode(2)

isalpha(2)

lower(2)

__init__(1)

b(1)

k(1)

k0(1)

split(1)

step1ab(1)

コード例 #1

ファイルを表示

ファイル: train_classifier.py プロジェクト: KimBoerensen/disasterresponse-datascientist-nanodegree

def tokenize(text):
    '''clean and tokenize input messages'''

    # replace urls with placeholder
    url_regex = 'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
    detected_urls = re.findall(url_regex, text)
    for url in detected_urls:
        text = text.replace(url, "urlplaceholder")

    # tokenize text
    tokens = word_tokenize(text)

    # process text further in loop
    clean_tokens = []
    for tok in tokens:

        # Remove stop words
        if tok in stopwords.words("english"):
            continue

        # Reduce words to their stems
        tok = PorterStemmer().stem(tok)

        # Reduce words to their root form
        lemmatizer = WordNetLemmatizer()
        tok = lemmatizer.lemmatize(tok).lower().strip()

        # append to list
        clean_tokens.append(tok)

    # Remove all non alphabet characters
    clean_tokens = [tok for tok in clean_tokens if tok.isalpha()]

    # return clean and tokenized text
    return clean_tokens

コード例 #2

ファイルを表示

ファイル: train_classifier.py プロジェクト: nahista1/Disaster-Response-Pipelines

def tokenize(text):
    '''tokenize input messages'''
    tokens = word_tokenize(text)
    lemmatizer = WordNetLemmatizer()
    clean_tokens = []
    for tok in tokens:
        # Remove stop words
        if tok in stopwords.words("english"):
            continue

        # Reduce words to their stems
        tok = PorterStemmer().stem(tok)

        # Reduce words to their root form
        tok = lemmatizer.lemmatize(tok).lower().strip()

        clean_tokens.append(tok)

    # Remove all non alphabet characters
    clean_tokens = [tok for tok in clean_tokens if tok.isalpha()]
    return clean_tokens