Esempi in Python per DataUtils.cartesian

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: data_utils

Classe/tipologia: DataUtils

Metodo/funzione: cartesian

Esempi su hotexamples.com: 1

DataUtils.cartesian in Python: 1 esempio trovato. Questo è il miglior esempio reale in Python per data_utils.DataUtils.cartesian, estratto da progetti open source. Lo puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

DataUtils(28)

message(26)

get_filename(10)

update_message(8)

create_onehot_vectors(8)

load_embeddings(7)

load_array(6)

get_processed_df(6)

save_array(6)

load_data(5)

remove_html(5)

create_int_dict(4)

normalize_cases(4)

load_corpus(4)

parse_dependency_tree(4)

extract_tag_list(4)

add_suffix_embeddings(4)

get_date_from_row(3)

batch_fetch_ids_for_query(3)

training_inputs(3)

training_classes(3)

get_low_from_row(3)

testing_inputs(3)

get_bb_query_msg(3)

read_data(3)

testing_classes(3)

extract_data(3)

remove_excess_spaces(2)

data_preprocess(2)

parse_bb_data_msg(2)

create_dir(2)

expand_var_names(2)

extract_tag_dict(2)

extract_word_data(2)

get_high_from_row(2)

batch_fetch_docs_for_ids(2)

parse_bb_variable_msg(1)

remove_whitespace(1)

parse_bb_latest_data_msg(1)

pre_process_aws(1)

tag_id(1)

pre_process_col_tweets(1)

get_regression_data(1)

load_vocab(1)

get_class_label(1)

augmentation(1)

build_pad_config(1)

cartesian(1)

check_and_create_folders(1)

create_cache_if_not_exists(1)

Esempio n. 1

Mostra file

    def __create_xy_train(self,
                          tag_file,
                          embedding_file,
                          data_size=1,
                          look_back=5,
                          threshold=0,
                          suffix=None):
        x_train = []
        y_train = []

        corpus = DataUtils.load_corpus(tag_file)
        tag_emb = DataUtils.create_onehot_vectors(
            DataUtils.extract_tag_list(corpus))
        word_emb = DataUtils.load_embeddings(embedding_file)
        if suffix is not None:
            word_emb = DataUtils.add_suffix_embeddings(word_emb, suffix[0],
                                                       suffix[1])

        words = DataUtils.extract_word_data(corpus)
        word_keys = DataUtils.normalize_cases(word_emb.keys(), words)
        tag_dict = DataUtils.extract_tag_dict(corpus, threshold)

        data_size = int(len(words) * min(data_size, 1)) - int(
            len(words) * min(data_size, 1)) % look_back
        data_size = 53750

        for idx in np.arange(0, data_size, look_back):
            dict_tag_inputs = [tag_dict[words[idx]]]

            word_inputs = [
                word_emb[word_keys[idx]]
            ] if word_keys[idx] in word_emb else [word_emb["UNK"]]
            for widx in range(1, look_back):
                word_inputs = np.append(
                    word_inputs, [word_emb[word_keys[idx + widx]]] if
                    word_keys[idx + widx] in word_emb else [word_emb["UNK"]],
                    axis=0)
                dict_tag_inputs.append(tag_dict[words[idx + widx]])

            dict_tag_inputs = DataUtils.cartesian(np.array(dict_tag_inputs))
            for jdx in range(len(dict_tag_inputs)):
                tag_inputs = [tag_emb[tag] for tag in dict_tag_inputs[jdx]]
                if idx == 0 and jdx == 0:
                    x_train = [word_inputs]
                    y_train = [tag_inputs]
                else:
                    x_train = np.append(x_train, [word_inputs], axis=0)
                    y_train = np.append(y_train, [tag_inputs], axis=0)

            if idx % int(data_size / (10 * look_back)) == 0:
                DataUtils.update_message(str(int(idx / data_size * 100)))

        x_train = np.array(x_train)
        y_train = np.array(y_train)

        return x_train, y_train