Python Vocab.get_train_dev_test 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utils

클래스/타입: Vocab

메소드/함수: get_train_dev_test

hotexamples.com에서의 예제들: 3

Python Vocab.get_train_dev_test - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utils.Vocab.get_train_dev_test에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

encode(30)

construct(30)

load(15)

Vocab(9)

add_word(6)

to_input_tensor(4)

get_word_list(3)

pickle(3)

decode(3)

get_train_dev_test(3)

get_pre_trained_examples(2)

build_vocab(2)

add_dataframe(2)

save_to_file(2)

add(2)

add_special_token(2)

update(2)

build_bert_vocab(2)

build(2)

add_words(2)

add_special_tokens(2)

build_embedding_matrix(2)

word2id(1)

get_wv(1)

id2word(1)

indices2tokens(1)

transform(1)

_looking_up(1)

load_pretrained_char_embeddings(1)

load_pretrained_word_embeddings(1)

py_size(1)

randomly_init_py_embeddings(1)

size(1)

add_char(1)

filter_pys_by_cnt(1)

get_vocab(1)

construct_phrase(1)

add_list(1)

add_py(1)

build_from_counter(1)

char_size(1)

check_words(1)

construct_batch(1)

convert_to_str(1)

getIndex(1)

decode_docs(1)

emb_wordtoindex(1)

__len__(1)

filter_chars_by_cnt(1)

filter_tokens_by_cnt(1)

예제 #1

파일 보기

파일: finetune-checkpoint.py 프로젝트: tanshoudong/NLP-program

def train(config):

    vocab = Vocab(config)
    train_data = vocab.get_train_dev_test()
    train1 = [(x[0] + ' ' + x[1], x[2]) for x in train_data]
    train2 = [(x[1] + ' ' + x[0], x[2]) for x in train_data]
    train_data = train1 + train2
    train_dataset = BuildDataSet(train_data)
    train_sampler = torch.utils.data.distributed.DistributedSampler(
        train_dataset)
    train_load = DataLoader(dataset=train_dataset,
                            batch_size=config.batch_size,
                            shuffle=False,
                            collate_fn=collate_fn,
                            sampler=train_sampler)

    for model_name in config.model_name:
        if config.local_rank in [0, -1]:
            msg = 'model_name:{},train_nums:{},train_iter:{},batch_size:{}'
            print(
                msg.format(model_name, len(train_data), len(train_load),
                           config.batch_size))

        train_process(config, train_load, train_sampler, model_name)
        torch.distributed.barrier()

예제 #2

파일 보기

def k_fold(config):

    vocab = Vocab(config)
    # vocab.add_words()
    # vocab.build_bert_vocab()
    train, test = vocab.get_train_dev_test()

    test_data = [(x[0] + ' ' + x[1], x[2]) for x in test]
    test_dataset = BuildDataSet(test_data)
    test_load = DataLoader(dataset=test_dataset,
                           batch_size=config.batch_size,
                           shuffle=False,
                           collate_fn=collate_fn)

    kf = KFold(n_splits=config.kfold, shuffle=False, random_state=config.seed)

    for k, (train_index, dev_index) in enumerate(kf.split(train)):
        #         pdb.set_trace()
        train_data, valid_data = train[train_index], train[dev_index]
        train1 = [(x[0] + ' ' + x[1], x[2]) for x in train_data]
        train2 = [(x[1] + ' ' + x[0], x[2]) for x in train_data]
        train_data = train1 + train2
        valid_data = [(x[0] + ' ' + x[1], x[2]) for x in valid_data]

        train_dataset = BuildDataSet(train_data)

        train_sampler = torch.utils.data.distributed.DistributedSampler(
            train_dataset)
        train_load = DataLoader(dataset=train_dataset,
                                batch_size=config.batch_size,
                                shuffle=False,
                                collate_fn=collate_fn,
                                sampler=train_sampler)

        valid_dataset = BuildDataSet(valid_data)
        valid_sampler = torch.utils.data.distributed.DistributedSampler(
            valid_dataset)
        valid_load = DataLoader(dataset=valid_dataset,
                                batch_size=config.batch_size,
                                shuffle=False,
                                collate_fn=collate_fn,
                                sampler=valid_sampler)

        if config.local_rank in [0, -1]:
            msg = '{} fold,train_nums:{},train_iter:{},dev_nums:{},dev_iter:{},batch_size:{},test_nums:{},test_iter:{}'
            print(
                msg.format(k + 1, len(train_data), len(train_load),
                           len(valid_data), len(valid_load), config.batch_size,
                           len(test_data), len(test_load)))

        train_process(config, train_load, valid_load, test_load, k,
                      train_sampler)
        torch.distributed.barrier()

예제 #3

파일 보기

파일: infer.py 프로젝트: tanshoudong/NLP-program

        attention_mask.append(x['attention_mask'] +
                              (max_len - len(x['attention_mask'])) * [0])
        label.append(int(y))

    input_ids = torch.tensor(data=input_ids).type(torch.LongTensor)
    token_type_ids = torch.tensor(data=token_type_ids).type(torch.LongTensor)
    attention_mask = torch.tensor(data=attention_mask).type(torch.LongTensor)
    label = torch.tensor(data=label).type(torch.LongTensor)
    return input_ids, token_type_ids, attention_mask, label


print("***********load test data*****************")

config = roBerta_Config()
vocab = Vocab()
train_data, valid_data, test_data = vocab.get_train_dev_test()
test_dataset = BuildDataSet(test_data)
test_load = DataLoader(dataset=test_dataset,
                       batch_size=config.batch_size,
                       shuffle=False,
                       collate_fn=collate_fn)

print("***********load model weight*****************")

model_config = BertConfig.from_pretrained(
    pretrained_model_name_or_path="bert_source/bert_config.json")
model = BertForSequenceClassification(config=model_config)
model.load_state_dict(torch.load('save_bert/best_model.pth.tar'))
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)
config.device = device