Esempi in Python per DataUtils.extract_data

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: data_utils

Classe/tipologia: DataUtils

Metodo/funzione: extract_data

Esempi su hotexamples.com: 3

DataUtils.extract_data in Python: 3 esempi trovati. Questi sono i migliori esempi reali in Python per data_utils.DataUtils.extract_data, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

DataUtils(28)

message(26)

get_filename(10)

update_message(8)

create_onehot_vectors(8)

load_embeddings(7)

load_array(6)

get_processed_df(6)

save_array(6)

load_data(5)

remove_html(5)

create_int_dict(4)

normalize_cases(4)

load_corpus(4)

parse_dependency_tree(4)

extract_tag_list(4)

add_suffix_embeddings(4)

get_date_from_row(3)

batch_fetch_ids_for_query(3)

training_inputs(3)

training_classes(3)

get_low_from_row(3)

testing_inputs(3)

get_bb_query_msg(3)

read_data(3)

testing_classes(3)

extract_data(3)

remove_excess_spaces(2)

data_preprocess(2)

parse_bb_data_msg(2)

create_dir(2)

expand_var_names(2)

extract_tag_dict(2)

extract_word_data(2)

get_high_from_row(2)

batch_fetch_docs_for_ids(2)

parse_bb_variable_msg(1)

remove_whitespace(1)

parse_bb_latest_data_msg(1)

pre_process_aws(1)

tag_id(1)

pre_process_col_tweets(1)

get_regression_data(1)

load_vocab(1)

get_class_label(1)

augmentation(1)

build_pad_config(1)

cartesian(1)

check_and_create_folders(1)

create_cache_if_not_exists(1)

Esempio n. 1

Mostra file

    def __create_xy_test(self,
                         tag_file,
                         embedding_file,
                         data_size=1,
                         look_back=5,
                         suffix=None):
        x_test = []
        y_test = []

        corpus = DataUtils.load_corpus(tag_file)
        tag_emb = DataUtils.create_onehot_vectors(
            DataUtils.extract_tag_list(corpus))
        word_emb = DataUtils.load_embeddings(embedding_file)
        if suffix is not None:
            word_emb = DataUtils.add_suffix_embeddings(word_emb, suffix[0],
                                                       suffix[1])

        words, tags = DataUtils.extract_data(corpus)
        word_keys = DataUtils.normalize_cases(word_emb.keys(), words)

        data_size = int(len(words) * min(data_size, 1)) - int(
            len(words) * min(data_size, 1)) % look_back

        for idx in np.arange(0, data_size, look_back):
            x_timestep = []
            y_timestep = []

            for jdx in range(look_back):
                word_input = word_emb[word_keys[idx + jdx]] if word_keys[
                    idx + jdx] in word_emb else word_emb["UNK"]
                tag_input = tag_emb[tags[idx + jdx]]

                if (jdx == 0):
                    x_timestep = [word_input]
                    y_timestep = [tag_input]
                else:
                    x_timestep = np.append(x_timestep, [word_input], axis=0)
                    y_timestep = np.append(y_timestep, [tag_input], axis=0)

                x_timestep = np.array(x_timestep)
                y_timestep = np.array(y_timestep)

            if (idx == 0):
                x_test = [x_timestep]
                y_test = [y_timestep]
            else:
                x_test = np.append(x_test, [x_timestep], axis=0)
                y_test = np.append(y_test, [y_timestep], axis=0)

            if idx % int(data_size / (10 * look_back)) == 0:
                DataUtils.update_message(str(int(idx / data_size * 100)))

        x_test = np.array(x_test)
        y_test = np.array(y_test)

        return x_test, y_test

Esempio n. 2

Mostra file

    def __create_xy(self, tag_file, embedding_file, data_size, window_size,
                    available_tags, suffix):
        x = []
        y = []

        corpus = DataUtils.load_corpus(tag_file)
        tag_emb = DataUtils.create_onehot_vectors(
            DataUtils.extract_tag_list(corpus))
        word_emb = DataUtils.load_embeddings(embedding_file)
        if suffix is not None:
            word_emb = DataUtils.add_suffix_embeddings(word_emb, suffix[0],
                                                       suffix[1])

        words, tags = DataUtils.extract_data(corpus)
        word_keys = DataUtils.normalize_cases(word_emb.keys(), words)

        data_size = int(len(words) * data_size)

        for idx in range(data_size):
            tag = tags[idx + int(window_size / 2)]
            if len(available_tags) == 0 or tag in available_tags:
                word_input = word_emb[word_keys[idx]] if word_keys[
                    idx] in word_emb else word_emb["UNK"]
                for widx in range(1, window_size):
                    word_input = np.append(
                        word_input,
                        word_emb[word_keys[idx + widx]] if
                        word_keys[idx + widx] in word_emb else word_emb["UNK"],
                        axis=0)

                tag_input = tag_emb[tag]

                if (idx == 0):
                    x = [word_input]
                    y = [tag_input]
                else:
                    x = np.append(x, [word_input], axis=0)
                    y = np.append(y, [tag_input], axis=0)

            if idx % int(data_size / 10) == 0:
                DataUtils.update_message(str(int(idx / data_size * 100)))
        return x, y

Esempio n. 3

Mostra file

    def __create_xy_test(self, tag_file, embedding_file, data_size, window_size, suffix):
        x_test = []
        y_test = []

        corpus = DataUtils.load_corpus(tag_file)
        tag_emb = DataUtils.create_onehot_vectors(DataUtils.extract_tag_list(corpus))
        word_emb = DataUtils.load_embeddings(embedding_file)
        if suffix is not None:
            word_emb = DataUtils.add_suffix_embeddings(word_emb, suffix[0], suffix[1])

        words, tags = DataUtils.extract_data(corpus)
        word_keys = DataUtils.normalize_cases(word_emb.keys(), words)

        data_size = min((int(len(words)*data_size), len(words)-window_size))

        for idx in range(data_size):
            word_input = word_emb[word_keys[idx]] if word_keys[idx] in word_emb else word_emb["UNK"]
            for widx in range(1, window_size):
                word_input = np.append(word_input, word_emb[word_keys[idx+widx]] if word_keys[idx+widx] in word_emb else word_emb["UNK"], axis = 0)

            tag_input = tag_emb[tags[idx+int(window_size/2)]]

            if(idx == 0):
                x_test = [word_input]
                y_test = [tag_input]
            else:
                x_test = np.append(x_test, [word_input], axis=0)
                y_test = np.append(y_test, [tag_input], axis=0)

            x_test = np.array(x_test)
            y_test = np.array(y_test)

            if idx%int(data_size/10) == 0:
                DataUtils.update_message(str(int(idx/data_size*100)))

        x_test = np.array(x_test)
        y_test = np.array(y_test)

        return x_test, y_test