Ejemplos de Dataset.from_raw_file en Python

Lenguaje de programación: Python

Namespace/Package Name: utils.dataset

Clase / Tipo: Dataset

Método / Función: from_raw_file

Ejemplos en hotexamples.com: 3

Python Dataset.from_raw_file - 3 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de utils.dataset.Dataset.from_raw_file extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Dataset(30)

batch_iterator(7)

get_tf_data(5)

from_raw_file(3)

pop_batch_queue(3)

load_from_df(2)

samples(2)

get(2)

reader(2)

get_batch(2)

prepare_data(2)

get_iterator(2)

ident_num(2)

fdict(2)

events(1)

samples_labels(1)

read_xml(1)

next_batch(1)

load_from_file(1)

iterate_once(1)

load_dataset(1)

load_data(1)

__len__(1)

get_data(1)

get_batches(1)

getData(1)

gen_iter(1)

from_list(1)

set_base_seed(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: data_process.py Proyecto: syx528911137/NJUParser-pytorch

def prepare_s2b_dataset(data_dir,
                        data_dict,
                        max_src_vocab=16000,
                        max_tgt_vocab=300,
                        vocab_freq_cutoff=1):
    train_set = Dataset.from_raw_file(
        os.path.join(data_dir, data_dict['train']))
    dev_set = Dataset.from_raw_file(os.path.join(data_dir, data_dict['dev']))
    test_set = Dataset.from_raw_file(os.path.join(data_dir, data_dict['test']))

    # generate vocabulary
    src_vocab = VocabEntry.from_corpus([e.src for e in train_set],
                                       size=max_src_vocab,
                                       freq_cutoff=vocab_freq_cutoff)
    tgt_vocab = VocabEntry.from_corpus([e.tgt for e in train_set],
                                       size=max_tgt_vocab,
                                       freq_cutoff=vocab_freq_cutoff)

    vocab = Vocab(src=src_vocab, tgt=tgt_vocab)
    print('generated vocabulary %s' % repr(vocab), file=sys.stderr)

    print("sum info: train:{},dev:{},test:{}".format(
        len(train_set),
        len(dev_set),
        len(test_set),
    ))
    detail(train_set)
    detail(dev_set)
    detail(test_set)

    train_file = data_dir + "/train.bin"
    dev_file = data_dir + "/dev.bin"
    test_file = data_dir + "/test.bin"
    vocab_file = data_dir + "/vocab.bin"

    pickle.dump(train_set.examples, open(train_file, 'wb'))
    pickle.dump(dev_set.examples, open(dev_file, 'wb'))
    pickle.dump(test_set.examples, open(test_file, 'wb'))
    pickle.dump(vocab, open(vocab_file, 'wb'))
    if 'debug' in data_dict:
        debug_set = Dataset.from_raw_file(
            os.path.join(data_dir, data_dict['debug']))
        debug_file = data_dir + "/debug.bin"
        pickle.dump(debug_set.examples, open(debug_file, 'wb'))

Ejemplo n.º 2

Mostrar archivo

Archivo: data_process.py Proyecto: syx528911137/NJUParser-pytorch

def prepare_ptb_to_distance(data_dir, data_dict):
    train_set = Dataset.from_raw_file(os.path.join(data_dir,
                                                   data_dict['train']),
                                      e_type='ptb')
    dev_set = Dataset.from_raw_file(os.path.join(data_dir, data_dict['dev']),
                                    e_type='ptb')
    test_set = Dataset.from_raw_file(os.path.join(data_dir, data_dict['test']),
                                     e_type='ptb')
    debug_set = Dataset.from_raw_file(os.path.join(data_dir,
                                                   data_dict['debug']),
                                      e_type='ptb')

    train_file = data_dir + "/train.bin"
    dev_file = data_dir + "/dev.bin"
    test_file = data_dir + "/test.bin"
    debug_file = data_dir + "/debug.bin"

    pickle.dump(train_set.examples, open(train_file, 'wb'))
    pickle.dump(dev_set.examples, open(dev_file, 'wb'))
    pickle.dump(test_set.examples, open(test_file, 'wb'))
    pickle.dump(debug_set.examples, open(debug_file, 'wb'))

Ejemplo n.º 3

Mostrar archivo

Archivo: data_process.py Proyecto: syx528911137/NJUParser-pytorch

def prepare_raw_data(data_dir, data_dict):
    for key, val in data_dict.items():
        path = os.path.join(data_dir, val)
        data = Dataset.from_raw_file(path)
        out_file = path + ".bin"
        pickle.dump(data.examples, open(out_file, 'wb'))