Python DataExtractor.extract_data Beispiele

Programmiersprache: Python

Namespace / Paketname: data_extractor

Klasse / Typ: DataExtractor

Methode / Funktion: extract_data

Beispiele auf hotexamples.com: 2

Python DataExtractor.extract_data - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die data_extractor.DataExtractor.extract_data, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

DataExtractor(30)

location_mapping(10)

get_movie_actor_data(7)

get_mlmovies_data(6)

choose_versions(5)

get_data_vectors(4)

extract(4)

get_variable_values_sets(4)

get_mltags_data(4)

get_genome_tags_data(4)

get_imdb_actor_info_data(3)

get_bugged_files_path(3)

save(2)

read(2)

location_title_to_id_mapping(2)

checkout_version(2)

get_selected_versions(2)

extract_data(2)

get_data(1)

prepare_dataset_for_task1(1)

load_train_labels(1)

load_valid_data(1)

load_valid_labels(1)

extractTextFromTagList(1)

extractText(1)

prepare_dataset_for_task3(1)

load_test_labels(1)

prepare_dataset_for_task6(1)

dropna(1)

create_dataset(1)

save_csv(1)

set_selected_config(1)

to_json(1)

load_train_data(1)

load_test_data(1)

get_details_from_results(1)

init_jira_commits(1)

import_matches(1)

get_versions_by_type(1)

get_task4_feedback_data(1)

get_task2_feedback_data(1)

collect_data(1)

get_race(1)

append_givenloc_to_list(1)

findAllTags(1)

get_mlratings_data(1)

getData(1)

get_all_files_prefixed_with(1)

get_bugged_methods_path(1)

get_files_bugged(1)

Beispiel #1

Datei anzeigen

Datei: space_data_analysis.py Projekt: tom-russell/SPACE2017

    def load_data(self):
        directory_path = filedialog.askdirectory(
            initialdir=os.getcwd(),
            mustexist=True,
            title="Please select the data directory...")

        extractor = DataExtractor(directory_path, self.best_nest_var.get(),
                                  self.max_sim_time_var.get())
        invalid_files, unfinished_sims = extractor.extract_data()

        self.data_set = extractor.data_set
        self.data_plot = DataPlotter(self.data_set)
        msg_string = "%s simulations had missing or blank files.\n" % invalid_files
        msg_string += "%s simulations exceeded than the maximum time and so were removed." % unfinished_sims
        messagebox.showinfo('Data Loaded', msg_string)

        self.list_box.delete(0, tk.END)

        grid_row = 0
        for data in self.data_set:
            raw_data_string = ""
            for key, value in data.items():
                raw_data_string += "%s=%s, " % (key, value)
            grid_row += 1
            self.list_box.insert(tk.END, raw_data_string[:-2])
            if grid_row % 2 == 0:
                self.list_box.itemconfig(tk.END, bg='#e0e0e0')
            else:
                self.list_box.itemconfig(tk.END, bg='#f4f4f4')

        # Updating the list of options to split the data by
        options = self.data_set[0].keys()
        menu = self.split_options["menu"]
        menu.delete(0, "end")
        menu.add_command(label='none',
                         command=lambda: self.split_on_var.set('none'))
        for string in options:
            menu.add_command(
                label=string,
                command=lambda option=string: self.split_on_var.set(option))

        self.add_button.config(state=tk.ACTIVE)

Beispiel #2

Datei anzeigen

Datei: text_categorizer.py Projekt: Danic700/nlp

            ])))


logging.basicConfig(level='INFO')
logger = logging.getLogger("Logger")

data_extractor = DataExtractor(logger)
matrix_extractor = MatrixExtractor()

f = open("train_data.txt", "r")
data = f.read()
logger.debug(data)

columns = ['subject', 'content', 'category']
text_columns = ['subject', 'content']
extracted_data = data_extractor.extract_data(data, text_columns)

df = pd.DataFrame(extracted_data, columns=columns)

category_plot()
print_common_unigrams_bigrams()
split_train_test(
    False
)  #True for rebalancing (training set) unbalanced data as seen in histogram
run_naive_bayes()

print('\n**')
print('df sample:')
print('***')
print(df.sample())