Esempi in Python per Tokenizer.fit_word

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: utils

Classe/tipologia: Tokenizer

Metodo/funzione: fit_word

Esempi su hotexamples.com: 2

Tokenizer.fit_word in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per utils.Tokenizer.fit_word, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Tokenizer(30)

set_vocab(13)

collect_words(4)

tokenize(4)

decode(4)

split_sentence(3)

encode(3)

from_pretrained(2)

fit_word(2)

decode_sentence(2)

encode_sentence(2)

fit_tokenizer(1)

fit_transform(1)

build_vocab_from_dataset(1)

get_num_embedding(1)

get_vocal_length(1)

convert_tokens_to_ids(1)

convert_id_to_token(1)

tokenize_pipe(1)

vocab_tag(1)

vocab_word(1)

vocabulary_size(1)

Esempio n. 1

Mostra file

File: train_BiLM.py Progetto: yaelanya/cheminfo_extraction

def main(args):
    train_df = pd.read_pickle(args.train_data)
    valid_df = pd.read_pickle(args.valid_data)
    tokenizer = Tokenizer()
    tokenizer.fit_word(train_df.repl_words.tolist())

    train_sentences_idx = sentence_preprocessing(train_df, tokenizer)
    valid_sentences_idx = sentence_preprocessing(valid_df, tokenizer)

    bi_lm_model = BiLM(args.word_emb_size, args.lstm_unit_size,
                       len(tokenizer.vocab_word))

    if torch.cuda.device_count() > 1:
        print("Use", torch.cuda.device_count(), "GPUs.")
        bi_lm_model = torch.nn.DataParallel(bi_lm_model)
    elif torch.cuda.device_count() == 1:
        print("Use single GPU.")
    else:
        print("Use CPU.")
    bi_lm_model.to(device)

    bi_lm_model = train(bi_lm_model, train_sentences_idx, valid_sentences_idx,
                        args.epochs, args.batch_size, args.early_stopping)

    torch.save(bi_lm_model.state_dict(), args.output)

Esempio n. 2

Mostra file

File: train_Att-BiLSTM-CRF.py Progetto: yaelanya/cheminfo_extraction

def get_tokenizer(is_transfer, sentences=None):
    tokenizer = Tokenizer()

    tokenizer.vocab_tag = {
        '<PAD>': 0,
        'B': 1,
        'I': 2,
        'O': 3,
        '<START>': 4,
        '<STOP>': 5
    }

    if is_transfer:
        with open("../data/all_word_vocab.json", 'r') as f:
            tokenizer.vocab_word = json.load(f)
    else:
        tokenizer.fit_word(sentences)

    return tokenizer