Python TokenDictionary.finalize примеры использования

Язык программирования: Python

Пространство имен/Пакет: fairseq.data

Класс/Тип: TokenDictionary

Метод/Функция: finalize

Примеров на hotexamples.com: 3

Python TokenDictionary.finalize - 3 примера найдено. Это лучшие примеры Python кода для fairseq.data.TokenDictionary.finalize, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

TokenDictionary(3)

finalize(3)

load(3)

pad(3)

add_symbol(2)

eos(2)

add_file_to_dictionary(1)

index(1)

Пример #1

Показать файл

 def make_dictionary():
     """construct dictionary."""
     d = TokenDictionary()
     alphabet = string.ascii_lowercase
     for token in alphabet:
         d.add_symbol(token)
     d.add_symbol('<space>')
     d.finalize(padding_factor=1)  # don't add extra padding symbols
     d.space_index = d.indices.get('<space>', -1)
     return d

Пример #2

Показать файл

Файл: test_speech_utils.py Проект: zqma2/espresso

 def make_dictionary(vocab, non_lang_syms=[]):
     """construct dictionary."""
     assert isinstance(vocab, list) and isinstance(non_lang_syms, list)
     d = TokenDictionary()
     for token in vocab:
         d.add_symbol(token)
     d.add_symbol('<space>')
     for token in non_lang_syms:
         d.add_symbol(token)
     d.finalize(padding_factor=1)  # don't add extra padding symbols
     d.space_index = d.indices.get('<space>', -1)
     return d

Пример #3

Показать файл

    def build_dictionary(cls, filenames, workers=1, threshold=-1, nwords=-1, padding_factor=8):
        """Build the dictionary

        Args:
            filenames (list): list of filenames
            workers (int): number of concurrent workers
            threshold (int): defines the minimum word count
            nwords (int): defines the total number of words in the final dictionary,
                including special symbols
            padding_factor (int): can be used to pad the dictionary size to be a
                multiple of 8, which is important on some hardware (e.g., Nvidia
                Tensor Cores).
        """
        d = TokenDictionary()
        for filename in filenames:
            TokenDictionary.add_file_to_dictionary(filename, d, tokenizer.tokenize_line, workers)
        d.finalize(threshold=threshold, nwords=nwords, padding_factor=padding_factor)
        return d