Esempi in Python per Vocab.filter_chars_by_cnt

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: data.vocab

Classe/tipologia: Vocab

Metodo/funzione: filter_chars_by_cnt

Esempi su hotexamples.com: 2

Vocab.filter_chars_by_cnt in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per data.vocab.Vocab.filter_chars_by_cnt, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Vocab(14)

load(4)

size(3)

add(2)

get_word_vocab(2)

filter_chars_by_cnt(2)

filter_tokens_by_cnt(1)

from_counter(1)

from_json(1)

get_char_vocab_size(1)

itos(1)

add_sentence(1)

load_from_file(1)

load_pretrained_embeddings(1)

save(1)

add_char(1)

stoi(1)

vocab_sz(1)

Esempio n. 1

Mostra file

        prefix='bert_meizhuang'  #test_file = None,
    )
    from data.vocab import Vocab
    vocab = Vocab(lower=True)
    import sys
    for word in brc_data.word_iter(None):
        vocab.add(word)
        for char in word:
            vocab.add_char(char)
    logger.info(' char size {}'.format(vocab.get_char_vocab_size()))
    logger.info(' vocab size {} '.format(vocab.get_word_vocab()))
    #
    unfiltered_vocab_size = vocab.size()
    unfiltered_char_size = vocab.get_char_vocab_size()
    vocab.filter_tokens_by_cnt(min_cnt=2)
    vocab.filter_chars_by_cnt(min_cnt=2)

    filtered_num = unfiltered_vocab_size - vocab.size()
    logger.info('After filter {} tokens, the final vocab size is {}'.format(
        filtered_num, vocab.size()))

    filtered_num = unfiltered_char_size - vocab.get_char_vocab_size()
    logger.info('After filter {} tokens, the final vocab size is {}'.format(
        filtered_num, vocab.get_char_vocab_size()))

    logger.info('after load embedding vocab size is {}'.format(vocab.size()))

    brc_data.convert_to_ids(vocab)

    from model.bert_base import BertBaseline

Esempio n. 2

Mostra file

File: train_third_level.py Progetto: wujindou/TextClassification

        use_bert=False)
    from data.vocab import Vocab
    do_inference = True  #from data.vocab import Vocab
    vocab = Vocab(lower=True, prefix='third_level_baihuo_')
    if not do_inference:
        for word in brc_data.word_iter(None):
            vocab.add(word)
            for char in word:
                vocab.add_char(char)
        logger.info(' char size {}'.format(vocab.get_char_vocab_size()))
        logger.info(' vocab size {} '.format(vocab.get_word_vocab()))
        #
        unfiltered_vocab_size = vocab.size()
        unfiltered_char_size = vocab.get_char_vocab_size()
        vocab.filter_tokens_by_cnt(min_cnt=2)
        do_inference: vocab.filter_chars_by_cnt(min_cnt=2)
        filtered_num = unfiltered_vocab_size - vocab.size()
        logger.info(
            'After filter {} tokens, the final vocab size is {}'.format(
                filtered_num, vocab.size()))

        filtered_num = unfiltered_char_size - vocab.get_char_vocab_size()
        logger.info(
            'After filter {} tokens, the final vocab size is {}'.format(
                filtered_num, vocab.get_char_vocab_size()))
        # # sys.exit(1)

    import os
    vocab_file = 'first_third_baihuo_vocab.txt'  # vocab.load_from_file('vocab_bool.txt')
    if os.path.exists(vocab_file): vocab.load_from_file(vocab_file)
    if os.path.exists(vocab_file): vocab.load()