Python cleanse Exemples, dmc.preprocessing.cleanse Python Exemples

Exemple #1

0

Afficher le fichier

Fichier : test_split.py Projet : AlexImmer/run-dmc

 def setUp(self):
     raw_data = pd.read_csv('tests/test_data_old.txt', delimiter=';')
     raw_data = raw_data.head(50)
     self.clean_data = cleanse(raw_data)
     self.train = self.clean_data[:5]
     self.test = self.clean_data[5:]
     self.cats = ['articleID', 'customerID', 'voucherID', 'productGroup']

Exemple #2

0

Afficher le fichier

Fichier : test_split.py Projet : fawind/run-dmc

 def setUp(self):
     raw_data = pd.read_csv('tests/test_data_old.txt', delimiter=';')
     raw_data = raw_data.head(50)
     self.clean_data = cleanse(raw_data)
     self.train = self.clean_data[:5]
     self.test = self.clean_data[5:]
     self.cats = ['articleID', 'customerID', 'voucherID', 'productGroup']

Exemple #3

0

Afficher le fichier

Fichier : test_preprocess.py Projet : AlexImmer/run-dmc

    def setUp(self):
        self.raw_data = pd.read_csv('tests/test_data.txt', delimiter=';')
        train_ids = ['a1000001', 'a1000002', 'a1000003']
        test_ids = ['a1000007', 'a1000008']

        clean_data = cleanse(self.raw_data)
        self.data = {'data': clean_data, 'train_ids': train_ids, 'test_ids': test_ids}

Exemple #4

0

Afficher le fichier

Fichier : test_transformation.py Projet : fawind/run-dmc

 def setUp(self):
     raw_data = pd.read_csv('tests/test_data_old.txt', delimiter=';')
     raw_data = raw_data.head(50)
     clean_data = cleanse(raw_data)
     featured_data = add_independent_features(clean_data)
     self.X, self.Y = transform(featured_data)
     self.X = self.X.toarray()

Exemple #5

0

Afficher le fichier

Fichier : test_features.py Projet : AlexImmer/run-dmc

    def setUp(self):
        raw_data = pd.read_csv('tests/test_data.txt', delimiter=';')
        train_ids = ['a1000001', 'a1000002', 'a1000003']
        test_ids = ['a1000007', 'a1000008']

        self.data = preprocessing.cleanse(raw_data)
        self.train, self.test = preprocessing.split_train_test(self.data, train_ids, test_ids)

Exemple #6

0

Afficher le fichier

Fichier : test_transformation.py Projet : AlexImmer/run-dmc

 def setUp(self):
     raw_data = pd.read_csv('tests/test_data_old.txt', delimiter=';')
     raw_data = raw_data.head(50)
     clean_data = cleanse(raw_data)
     featured_data = add_independent_features(clean_data)
     self.X, self.Y = transform(featured_data)
     self.X = self.X.toarray()

Exemple #7

0

Afficher le fichier

    def setUp(self):
        raw_data = pd.read_csv('tests/test_data.txt', delimiter=';')
        train_ids = ['a1000001', 'a1000002', 'a1000003']
        test_ids = ['a1000007', 'a1000008']

        self.data = preprocessing.cleanse(raw_data)
        self.train, self.test = preprocessing.split_train_test(
            self.data, train_ids, test_ids)

Exemple #8

0

Afficher le fichier

Fichier : test_classifiers.py Projet : AlexImmer/run-dmc

 def setUp(self):
     raw_data = pd.read_csv('tests/test_data_old.txt', delimiter=';')
     raw_data = raw_data.head(50)
     clean_data = cleanse(raw_data)
     data = add_independent_features(clean_data)
     X, Y = transform(data, scaler=normalize_features)
     self.X_tr, self.Y_tr = X[:6], Y[:6]
     self.X_te, self.Y_te = X[6:], Y[6:]

Exemple #9

0

Afficher le fichier

 def setUp(self):
     raw_data = pd.read_csv('tests/test_data_old.txt', delimiter=';')
     raw_data = raw_data.head(50)
     clean_data = cleanse(raw_data)
     data = add_independent_features(clean_data)
     X, Y = transform(data, scaler=normalize_features)
     self.X_tr, self.Y_tr = X[:6], Y[:6]
     self.X_te, self.Y_te = X[6:], Y[6:]

Exemple #10

0

Afficher le fichier

Fichier : test_preprocess.py Projet : fawind/run-dmc

 def test_cleanse(self):
     df = cleanse(self.raw_data)
     # Column values
     self.assertTrue((df.quantity != 0).all())
     self.assertTrue((df.quantity >= df.returnQuantity).all())
     # Column types
     self.assertTrue(df.orderDate.dtype == np.dtype('<M8[ns]'))
     self.assertTrue(df.orderID.dtype == np.int)
     self.assertTrue(df.articleID.dtype == np.int)
     self.assertTrue(df.customerID.dtype == np.int)
     self.assertTrue(df.voucherID.dtype == np.float)

Exemple #11

0

Afficher le fichier

Fichier : test_preprocess.py Projet : fawind/run-dmc

    def setUp(self):
        self.raw_data = pd.read_csv('tests/test_data.txt', delimiter=';')
        train_ids = ['a1000001', 'a1000002', 'a1000003']
        test_ids = ['a1000007', 'a1000008']

        clean_data = cleanse(self.raw_data)
        self.data = {
            'data': clean_data,
            'train_ids': train_ids,
            'test_ids': test_ids
        }

Exemple #12

0

Afficher le fichier

Fichier : test_preprocess.py Projet : AlexImmer/run-dmc

 def test_cleanse(self):
     df = cleanse(self.raw_data)
     # Column values
     self.assertTrue((df.quantity != 0).all())
     self.assertTrue((df.quantity >= df.returnQuantity).all())
     # Column types
     self.assertTrue(df.orderDate.dtype == np.dtype('<M8[ns]'))
     self.assertTrue(df.orderID.dtype == np.int)
     self.assertTrue(df.articleID.dtype == np.int)
     self.assertTrue(df.customerID.dtype == np.int)
     self.assertTrue(df.voucherID.dtype == np.float)

Exemple #13

0

Afficher le fichier

 def setUp(self):
     raw_data = pd.read_csv('tests/test_data_old.txt', delimiter=';')
     raw_data = raw_data.head(50)
     clean_data = cleanse(raw_data)
     self.data = clean_data

Exemple #14

0

Afficher le fichier

Fichier : test_encoding.py Projet : AlexImmer/run-dmc

 def setUp(self):
     raw_data = pd.read_csv('tests/test_data_old.txt', delimiter=';')
     raw_data = raw_data.head(50)
     clean_data = cleanse(raw_data)
     self.data = clean_data

Exemple #15

0

Afficher le fichier

 def test_cleanse(self):
     cleanse(self.data)