Python RegexpTokenizer.lowerの例

プログラミング言語: Python

名前空間/パッケージ名: nltk.tokenize

クラス/型: RegexpTokenizer

メソッド/関数: lower

hotexamples.comのコード掲載数: 4

Python RegexpTokenizer.lower - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのnltk.tokenize.RegexpTokenizer.lowerの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

RegexpTokenizer(30)

fit_on_texts(30)

texts_to_sequences(30)

tokenize(30)

span_tokenize(12)

lower(3)

__init__(2)

__len__(1)

index(1)

insert(1)

pop(1)

remove(1)

tokenize_sents(1)

コード例 #1

ファイルを表示

 def string_to_bag_of_words(self, text):
     text = RegexpTokenizer(r'\w+').tokenize(text.lower())
     stop_words = set(nltk.corpus.stopwords.words('english'))
     return Counter([
         WordNetLemmatizer().lemmatize(x) for x in text
         if not x in stop_words
     ])

コード例 #2

ファイルを表示

def getAllReviews(movieList):
    reviews = np.array(map(lambda x: x["reviews"], movieList))
    reviews = np.concatenate(reviews)

    tokenizeReview = []

    for review in reviews:
        s = review['review']
        s = RegexpTokenizer(r'\w+').tokenize(s.lower())
        s = map(lambda x: PorterStemmer().stem(x), s)
        s = filter(lambda x: x not in stopwords.words('english'), s)
        tokenizeReview.append((s, 'pos' if review["score"] >= 30 else 'neg'))

    return tokenizeReview

コード例 #3

ファイルを表示

ファイル: sentiment.py プロジェクト: kevin940726/RottenCrawler

def getAllCritics(movieList):
    reviews = np.array(map(lambda x: x["critics"], movieList))
    reviews = np.concatenate(reviews)

    tokenizeReview = []

    for review in reviews:
        s = review['review']
        s = RegexpTokenizer(r'\w+').tokenize(s.lower())
        s = map(lambda x: PorterStemmer().stem(x), s)
        s = filter(lambda x: x not in stopwords.words('english'), s)
        tokenizeReview.append((s, 'pos' if review["tomatometer"] == "fresh" else 'neg'))

    return tokenizeReview

コード例 #4

ファイルを表示

    def string_to_bag_of_words(self, text):
        text = RegexpTokenizer(r'\w+').tokenize(text.lower())

        if not(self.enable_stemming) and not(self.filter_stopwords):
            return Counter(text)

        elif not(self.enable_stemming) and self.filter_stopwords:
            stop_words = set(nltk.corpus.stopwords.words('english'))
            return Counter([x for x in text if not x in stop_words])

        elif self.enable_stemming and not(self.filter_stopwords):
            return Counter([WordNetLemmatizer().lemmatize(x) for x in text])

        else:
            stop_words = set(nltk.corpus.stopwords.words('english'))
            return Counter([WordNetLemmatizer().lemmatize(x) for x in text if not x in stop_words])