Python stem_tokens примеры использования

Язык программирования: Python

Пространство имен/Пакет: nlp_utils

Метод/Функция: stem_tokens

Примеров на hotexamples.com: 4

Python stem_tokens - 4 примера найдено. Это лучшие примеры Python кода для nlp_utils.stem_tokens, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

Файл: gen_feats.py Проект: lvraikkonen/Kaggle

def preprocess_data(line, token_pattern=token_pattern, encode_digit=False):
    token_pattern = re.compile(token_pattern, flags=re.UNICODE | re.LOCALE)
    # tokenize
    tokens = [x.lower() for x in token_pattern.findall(line)]
    # stem
    tokens_stemmed = stem_tokens(tokens, english_stemmer)

    return tokens_stemmed

Пример #2

Показать файл

Файл: preprocess_ngram.py Проект: venkataravuri/kaggle_homedepot

def preprocess_data(line):
    # tokenize
    tokens = token_pattern.findall(line)
    # stem
    tokens_stemmed = nlp_utils.stem_tokens(tokens, nlp_utils.english_stemmer)
    # Stop words removal
    tokens_stemmed = [x for x in tokens_stemmed if x not in nlp_utils.stopwords]
    return tokens_stemmed

Пример #3

Показать файл

Файл: imojify.py Проект: owo/jitalk

def imojify_input(line, src_lang="en"):
	line = line.lower()
	sents = nlp_utils.tokenize(line)
	imojified = []

	for s in sents:
		imojified.append(imojify_sentence(nlp_utils.stem_tokens(s, src_lang),
						 src_lang))
	return imojified

Пример #4

Показать файл

Файл: genFeat_counting_feat.py Проект: kcavagnolo/ml_fun

def preprocess_data(line,
                    token_pattern=token_pattern,
                    exclude_stopword=config.cooccurrence_word_exclude_stopword,
                    encode_digit=False):
    token_pattern = re.compile(token_pattern, flags = re.UNICODE | re.LOCALE)
    tokens = [x.lower() for x in token_pattern.findall(line)]
    tokens_stemmed = stem_tokens(tokens, english_stemmer)
    if exclude_stopword:
        tokens_stemmed = [x for x in tokens_stemmed if x not in stopwords]
    return tokens_stemmed