Python Vocabulary.build_vocabulary_from_tokens示例

编程语言: Python

命名空间/包名称: utils.vocabulary

类/类型: Vocabulary

方法/功能: build_vocabulary_from_tokens

hotexamples.com的示例: 2

Python Vocabulary.build_vocabulary_from_tokens - 已找到2个示例。这些是从开源项目中提取的最受好评的utils.vocabulary.Vocabulary.build_vocabulary_from_tokens现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Vocabulary(30)

load(18)

save(14)

build(10)

process_sentence(7)

load_vocabulary(3)

new(3)

size(2)

add_word(2)

add_words(2)

build_vocabulary_from_tokens(2)

compute_frequency(2)

fromlist(2)

load_glove_vocabulary(1)

merge_vocabularies(1)

save_counts(1)

observe_word(1)

setup_corpus_vocabulary(1)

ix2sent_drop_pad(1)

sent2ix(1)

sent2ix_andpad(1)

save_vocab(1)

get_word(1)

index(1)

get_char_vocab(1)

add(1)

add_token(1)

build_from_scratch(1)

construct_embedding_matrix(1)

freeze(1)

from_serializable(1)

get_index(1)

has_word(1)

get_language(1)

get_pad(1)

get_sentence(1)

get_unk(1)

abstract2sents(1)

get_word_vocab(1)

type_to_id(1)

示例#1

显示文件

文件： lm_dataset.py 项目： sailab-code/vulgaris

 def _create_vocab(self, tokens, special_tokens=["<PAD>", "<GO>", "<EOS>"]):
     vocab = Vocabulary(vocab_size=self.config.language.input_vocab_size)
     vocab.build_vocabulary_from_tokens(tokens, special_tokens=special_tokens)
     self.vocabulary = vocab

示例#2

显示文件

文件： lm_dataset.py 项目： sailab-code/vulgaris

    def build(self, filename, split_size=0.8, authors=None, collections=None, families=None):
        examples = self.load(filename, authors, collections, families)
        random.shuffle(examples)
        raw_x, raw_a, raw_f, raw_ispr = zip(*examples)

        print("================")
        print("Authors\n")
        print(set(raw_a))

        print("================")
        print("Families\n")
        print(set(raw_f))

        print("================")
        print("Text Type\n")
        print(set(raw_ispr))

        # cleanup & tokenize data
        raw_x = self.tokenize([self.preprocess(ex) for ex in raw_x])

        # dataset split
        self.raw_train_x, self.raw_val_x = LMDataset.split(raw_x, train_size=split_size)
        self.raw_train_a, self.raw_val_a = LMDataset.split(raw_a, train_size=split_size)
        self.raw_train_f, self.raw_val_f = LMDataset.split(raw_f, train_size=split_size)
        self.raw_train_ispr, self.raw_val_ispr = LMDataset.split(raw_ispr, train_size=split_size)

        if self.vocabulary is None:
            # creates vocabulary
            x_tokens = [item for sublist in self.raw_train_x for item in sublist]  # get tokens
            self._create_vocab(x_tokens)
            print(f"Vocabulary size: {len(self.vocabulary.rev_dictionary)}")


        if self.authors_vocabulary is None:
            # creates vocabulary
            a_tokens = [item for item in self.raw_train_a]  # get authors vocab
            vocab = Vocabulary(vocab_size=self.config.author_vocab_size)
            vocab.build_vocabulary_from_tokens(a_tokens)
            self.authors_vocabulary = vocab
            print(f"Authors Vocabulary size: {len(self.authors_vocabulary.rev_dictionary)}")

        self.train_a = self.authors_vocabulary.string2id(self.raw_train_a)
        self.val_a = self.authors_vocabulary.string2id(self.raw_val_a)

        if self.families_vocabulary is None:
            # creates vocabulary
            f_tokens = [item for item in self.raw_train_f]  # get family vocab
            vocab = Vocabulary(vocab_size=self.config.family_vocab_size)
            vocab.build_vocabulary_from_tokens(f_tokens)
            self.families_vocabulary = vocab
            print(f"Families Vocabulary size: {len(self.families_vocabulary.rev_dictionary)}")

        self.train_f = self.families_vocabulary.string2id(self.raw_train_f)
        self.val_f = self.families_vocabulary.string2id(self.raw_val_f)

        self.train_ispr = self.raw_train_ispr
        self.val_ispr = self.raw_val_ispr

        # creates x for train
        self.train_x = self._build_dataset(self.raw_train_x, insert_go=False, max_len=self.config.language.seq_max_len, shuffle=False)

        # creates x,for validation
        self.val_x = self._build_dataset(self.raw_val_x, insert_go=False, max_len=self.config.language.seq_max_len, shuffle=False)

        print("TRAINING SET LENGTH: %d\n" % len(self.train_x))
        print("VALIDATION SET LENGTH: %d\n" % len(self.val_x))