Python iter_tokenize примеры использования

Язык программирования: Python

Пространство имен/Пакет: nlmk.tokenizer

Метод/Функция: iter_tokenize

Примеров на hotexamples.com: 11

Python iter_tokenize - 11 примеров найдено. Это лучшие примеры Python кода для nlmk.tokenizer.iter_tokenize, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

Файл: run.py Проект: petrushev/nlmk

def _multi_iter_tokenize(sources):
    for source in sources:
        with open(source, 'r') as f:
            lines = (line.decode('utf-8') for line in f)
            itokens = tokenizer.iter_tokenize(lines)
            for t in itokens:
                yield t

Пример #2

Показать файл

Файл: run.py Проект: MatejMecka/nlmk

def _multi_iter_tokenize(sources):
    for source in sources:
        with open(source, 'r', encoding='UTF-8') as f:
            lines = (line for line in f)
            itokens = tokenizer.iter_tokenize(lines)
            for t in itokens:
                yield t

Пример #3

Показать файл

def _multi_iter_tokenize(sources):
    for source in sources:
        with open(source, 'r') as f:
            lines = (line.decode('utf-8') for line in f)
            itokens = tokenizer.iter_tokenize(lines)
            for t in itokens:
                yield t

Пример #4

Показать файл

Файл: run.py Проект: MatejMecka/nlmk

def tf(source):
    """Term frequency distribution"""
    fh = open(source, 'r', encoding='UTF-8')
    lines = (line for line in fh)
    itokens = tokenizer.iter_tokenize(lines)
    itokens = (token.lower() for token in itokens if token[0].isalpha())
    distribution = corpus.tf_distribution(itokens).items()
    distribution.sort(key=lambda item: -item[1])
    for token, val in distribution:
        print(token, '%.4f' % val)

Пример #5

Показать файл

Файл: run.py Проект: petrushev/nlmk

def tf(source):
    """Term frequency distribution"""
    fh = open(source, 'r')
    lines = (line.decode('utf-8') for line in fh)
    itokens = tokenizer.iter_tokenize(lines)
    itokens = (token.lower() for token in itokens if token[0].isalpha())
    distribution = corpus.tf_distribution(itokens).items()
    distribution.sort(key = lambda item: -item[1])
    for token, val in distribution:
        print token.encode('utf-8'), '%.4f' % val

Пример #6

Показать файл

Файл: run.py Проект: MatejMecka/nlmk

def tag(source, tagger_name):
    """Tag a document using a pre-built tagger"""
    tagger_ = _load_tagger(tagger_name)
    fh = open(source, 'r', encoding='UTF-8')
    lines = (line for line in fh)
    itokens = tokenizer.iter_tokenize(lines)
    for token, tag in tagger.smart_tag(itokens, tagger_):
        tmp = token
        if tag is not None:
            tmp = tmp + ' {{%s}}' % tag
        print(tmp)
    fh.close()

Пример #7

Показать файл

Файл: run.py Проект: petrushev/nlmk

def tag(source, tagger_name):
    """Tag a document using a pre-built tagger"""
    tagger_ = _load_tagger(tagger_name)
    fh = open(source, 'r')
    lines = (line.decode('utf-8') for line in fh)
    itokens = tokenizer.iter_tokenize(lines)
    for token, tag in tagger.smart_tag(itokens, tagger_):
        tmp = token.encode('utf-8')
        if tag is not None:
            tmp = tmp + ' {{%s}}' % tag
        print tmp,
    fh.close()

Пример #8

Показать файл

Файл: run.py Проект: MatejMecka/nlmk

def concordance(source, word, window=4):
    """Concordance, finds word in a document along with context"""
    try:
        fh = open(source, 'r', encoding='UTF-8')
    except Exception:
        print(f'File not found: {source}')
        return

    window = int(window)

    lines = (line for line in fh)
    itokens = tokenizer.iter_tokenize(lines)
    for window in text.concordance(word, itokens, window):
        print(' '.join(window))
    fh.close()

Пример #9

Показать файл

Файл: run.py Проект: petrushev/nlmk

def concordance(source, word, window = 4):
    """Concordance, finds word in a document along with context"""
    try:
        fh = open(source, 'r')
    except Exception:
        print 'File not found:', source
        return

    word = word.decode('utf-8')
    window = int(window)

    lines = (line.decode('utf-8') for line in fh)
    itokens = tokenizer.iter_tokenize(lines)
    for window in text.concordance(word, itokens, window):
        print ' '.join(window).encode('utf-8')
    fh.close()

Пример #10

Показать файл

def concordance(source, word, window=4):
    """Concordance, finds word in a document along with context"""
    try:
        fh = open(source, 'r')
    except Exception:
        print 'File not found:', source
        return

    word = word.decode('utf-8')
    window = int(window)

    lines = (line.decode('utf-8') for line in fh)
    itokens = tokenizer.iter_tokenize(lines)
    for window in text.concordance(word, itokens, window):
        print ' '.join(window).encode('utf-8')
    fh.close()

Пример #11

Показать файл

Файл: tokenizer.py Проект: StefanAleksik/sega_kazuvam

# -*- coding: utf-8 -*-
"""
Created on Mon Jan 22 01:44:50 2018

@author: Stefan Aleksik
"""
from nlmk import tokenizer, stopwords  #, corpus
#from nlmk import ngramgen as ngramgenmod
stopwords = stopwords()
f = open('all_topics.txt', 'r')
linii = (line.decode('utf-8') for line in f)
tokens = tokenizer.iter_tokenize(linii)
zborovi = list(token.lower() for token in tokens if token[0].isalpha())

for zbor in zborovi:
    if zbor not in stopwords and len(zbor) > 2:
        print zbor.encode('utf-8')