Python Tokenizer.from_dir примеры использования

Язык программирования: Python

Пространство имен/Пакет: spacy.tokenizer

Класс/Тип: Tokenizer

Метод/Функция: from_dir

Примеров на hotexamples.com: 4

Python Tokenizer.from_dir - 4 примера найдено. Это лучшие примеры Python кода для spacy.tokenizer.Tokenizer.from_dir, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Tokenizer(30)

pipe(15)

explain(4)

rules(3)

to_bytes(3)

add_special_case(3)

token_match(2)

from_dir(2)

from_disk(2)

suffix_search(2)

to_disk(1)

load(1)

prefix_search(1)

infix_finditer(1)

from_bytes(1)

encode(1)

batch_encode_plus(1)

tokens_from_list(1)

Пример #1

Показать файл

Файл: get_freqs.py Проект: slonik-az/spaCy

def count_freqs(input_loc, output_loc):
    print(output_loc)
    vocab = English.default_vocab(get_lex_attr=None)
    tokenizer = Tokenizer.from_dir(
        vocab, path.join(English.default_data_dir(), 'tokenizer'))

    counts = PreshCounter()
    for json_comment in iter_comments(input_loc):
        doc = tokenizer(json_comment['body'])
        doc.count_by(ORTH, counts=counts)

    with codecs.open(output_loc, 'w', 'utf8') as file_:
        for orth, freq in counts:
            string = tokenizer.vocab.strings[orth]
            if not string.isspace():
                file_.write('%d\t%s\n' % (freq, string))

Пример #2

Показать файл

Файл: get_freqs.py Проект: Arttii/spaCy

def count_freqs(input_loc, output_loc):
    print(output_loc)
    vocab = English.default_vocab(get_lex_attr=None)
    tokenizer = Tokenizer.from_dir(vocab,
                    path.join(English.default_data_dir(), 'tokenizer'))

    counts = PreshCounter()
    for json_comment in iter_comments(input_loc):
        doc = tokenizer(json_comment['body'])
        doc.count_by(ORTH, counts=counts)

    with io.open(output_loc, 'w', 'utf8') as file_:
        for orth, freq in counts:
            string = tokenizer.vocab.strings[orth]
            if not string.isspace():
                file_.write('%d\t%s\n' % (freq, string))

Пример #3

Показать файл

Файл: test_basic_load.py Проект: mlh14/spaCy

 def test_load(self):
     data_dir = English.default_data_dir()
     vocab = Vocab.from_dir(path.join(data_dir, 'vocab'))
     tokenizer = Tokenizer.from_dir(vocab, path.join(data_dir, 'tokenizer'))

Пример #4

Показать файл

Файл: test_basic_load.py Проект: slonik-az/spaCy

 def test_load(self):
     data_dir = English.default_data_dir()
     if path.exists(path.join(data_dir, 'vocab')):
         vocab = Vocab.from_dir(path.join(data_dir, 'vocab'))
         tokenizer = Tokenizer.from_dir(vocab,
                                        path.join(data_dir, 'tokenizer'))