Python DataEngineering.split_data Beispiele

Programmiersprache: Python

Namespace / Paketname: model.utils.data_engineering

Klasse / Typ: DataEngineering

Methode / Funktion: split_data

Beispiele auf hotexamples.com: 2

Python DataEngineering.split_data - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die model.utils.data_engineering.DataEngineering.split_data, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

DataEngineering(7)

load_data(6)

get_data(4)

set_features(3)

set_label(3)

add_column(2)

split_data(2)

clean_data(1)

get_data_columns(1)

get_features(1)

get_label(1)

Beispiel #1

Datei anzeigen

    def test_split_data(self):
        features = [
            "flujo", "NU_COORD_UTM ESTE", "NU_COORD_UTM NORTE", "°API",
            "antiguedad"
        ]
        label = "BBPD"
        data_engineering = DataEngineering()
        data_engineering.load_data(self.csv_path)
        data = data_engineering.get_data()

        max_date = data["año"].max()
        age = max_date - data["año"]
        data_engineering.add_column("antiguedad", age)

        flow_data = data["E_FLUJO"].copy().astype("category").cat.codes
        data_engineering.add_column("flujo", flow_data)

        data_engineering.set_label(label)
        data_engineering.set_features(features)
        data_engineering.split_data()

        assert data_engineering.x_train is not None
        assert data_engineering.x_test is not None
        assert data_engineering.y_train is not None
        assert data_engineering.y_test is not None

Beispiel #2

Datei anzeigen

data_e.clean_data()

# Create new features
# "age" feature
max_date = data_e.get_data()["año"].max()
age = max_date - data_e.get_data()["año"]
data_e.add_column("age", age)

# "flow" feature
flow_data = data_e.get_data()["E_FLUJO"].copy().astype("category").cat.codes
data_e.add_column("flow", flow_data)

# Set features and label
features = ["flow", "NU_COORD_UTM ESTE", "NU_COORD_UTM NORTE", "°API", "age"]
label = "BBPD"
data_e.set_features(features)
data_e.set_label(label)

# Split Train-Test data
data_e.split_data()

# Create a Model
model = Regression(data_e)

# Train and test the model
model.train()
print(f"------------------------------\nMean score: {model.score()}")

# Make a prediction
model.predict(data_e.x_test.iloc[0], data_e.y_test.iloc[0])