Python stem_tokensの例

プログラミング言語: Python

名前空間/パッケージ名: nlp_utils

メソッド/関数: stem_tokens

hotexamples.comのコード掲載数: 4

Python stem_tokens - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのnlp_utils.stem_tokensの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: gen_feats.py プロジェクト: lvraikkonen/Kaggle

def preprocess_data(line, token_pattern=token_pattern, encode_digit=False):
    token_pattern = re.compile(token_pattern, flags=re.UNICODE | re.LOCALE)
    # tokenize
    tokens = [x.lower() for x in token_pattern.findall(line)]
    # stem
    tokens_stemmed = stem_tokens(tokens, english_stemmer)

    return tokens_stemmed

コード例 #2

ファイルを表示

ファイル: preprocess_ngram.py プロジェクト: venkataravuri/kaggle_homedepot

def preprocess_data(line):
    # tokenize
    tokens = token_pattern.findall(line)
    # stem
    tokens_stemmed = nlp_utils.stem_tokens(tokens, nlp_utils.english_stemmer)
    # Stop words removal
    tokens_stemmed = [x for x in tokens_stemmed if x not in nlp_utils.stopwords]
    return tokens_stemmed

コード例 #3

ファイルを表示

ファイル: imojify.py プロジェクト: owo/jitalk

def imojify_input(line, src_lang="en"):
	line = line.lower()
	sents = nlp_utils.tokenize(line)
	imojified = []

	for s in sents:
		imojified.append(imojify_sentence(nlp_utils.stem_tokens(s, src_lang),
						 src_lang))
	return imojified

コード例 #4

ファイルを表示

ファイル: genFeat_counting_feat.py プロジェクト: kcavagnolo/ml_fun

def preprocess_data(line,
                    token_pattern=token_pattern,
                    exclude_stopword=config.cooccurrence_word_exclude_stopword,
                    encode_digit=False):
    token_pattern = re.compile(token_pattern, flags = re.UNICODE | re.LOCALE)
    tokens = [x.lower() for x in token_pattern.findall(line)]
    tokens_stemmed = stem_tokens(tokens, english_stemmer)
    if exclude_stopword:
        tokens_stemmed = [x for x in tokens_stemmed if x not in stopwords]
    return tokens_stemmed