Python Vocab.NumIds示例

编程语言: Python

命名空间/包名称: data

类/类型: Vocab

方法/功能: NumIds

hotexamples.com的示例: 2

Python Vocab.NumIds - 已找到2个示例。这些是从开源项目中提取的最受好评的data.Vocab.NumIds现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Vocab(30)

size(7)

word2id(5)

load(4)

from_data_files(4)

get_index(3)

decode(2)

encode(2)

examples(2)

NumIds(2)

from_docs(2)

build_from_emb(1)

encode_data(1)

getWordEmbedding(1)

i2s(1)

id2word(1)

build(1)

add_wordlist(1)

train_tokenizer(1)

LoadWordEmbedding(1)

示例#1

显示文件

文件： autoencoder.py 项目： dhakrasp/TextSummarization_TIR

if __name__ == '__main__':
    vocab_file = '../vocab/vocab'
    tokenizer_file = '../tokenizer/src_tokenizer'
    vocab = Vocab(vocab_file, 100000)
    tokenizer = Tokenizer(vocab)
    with open(tokenizer_file, mode='wb') as file:
        pickle.dump(tokenizer, file)
    max_sequence_len = 10
    batch_size = 4
    p = Preprocessor(batch_size, 'data/sentences.txt', tokenizer,
                     max_sequence_len)

    embedding_dim = 50
    hidden_dim = 100
    ae = AutoEncoder(max_sequence_len, vocab.NumIds(), embedding_dim,
                     hidden_dim)
    ae.build_models()
    reducelr_cb = ReduceLROnPlateau(monitor='val_loss',
                                    factor=0.5,
                                    patience=10,
                                    verbose=1,
                                    mode='auto',
                                    epsilon=0.0001,
                                    cooldown=0,
                                    min_lr=1e-20)
    checkpoint_cb = ModelCheckpoint(model_weights, period=1)
    earlystopping_cb = EarlyStopping(min_delta=0.0001, patience=10)
    callbacks_list = [reducelr_cb, checkpoint_cb, earlystopping_cb]
    x = p.get_data()[:5000]
    print(len(x))

示例#2

显示文件

#

print('-' * 30, 'Starting', '-' * 30)
vocab_file = '../vocab/vocab'
tokenizer_file = '../tokenizer/src_tokenizer'
vocab = Vocab(vocab_file, 100000)
tokenizer = Tokenizer(vocab)
with open(tokenizer_file, mode='wb') as file:
    pickle.dump(tokenizer, file)
max_sequence_len = 100
p = Preprocessor(1, 'data/sentences.txt', tokenizer, max_sequence_len)
data = p.get_data()[:5000]
print('-' * 30, 'Loaded data', '-' * 30)

hidden_size = 256
encoder1 = EncoderRNN(vocab.NumIds(), hidden_size)
decoder1 = DecoderRNN(hidden_size, vocab.NumIds(), 1)

if use_cuda:
    encoder1 = encoder1.cuda()
    decoder1 = decoder1.cuda()

trainEpochs(encoder1, decoder1, 5000, p, print_every=100)

######################################################################
#

evaluateRandomly(encoder1, decoder1)

######################################################################
# Visualizing Attention