Python munge 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: data_munge

메소드/함수: munge

hotexamples.com에서의 예제들: 2

Python munge - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 data_munge.munge에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: main.py 프로젝트: renhzhang2/Kaggle-challenge

from sklearn.naive_bayes import BernoulliNB
from sklearn import svm
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
import time
import numpy as np
from sklearn.preprocessing import LabelBinarizer
from sklearn.externals import joblib

#features = ['DayOfWeekNo', 'PdDistrict_ID', 'Year', 'Month', 'Day', 'Hour', 'X_quan', 'Y_quan', 'Street1_ID', 'Street2_ID']

print 'preparing training data...'
if not os.path.exists('train_clean.csv'):
    train_raw = pd.read_csv('train.csv')
    train_prepared = munge(train_raw, 'train_clean.csv')
else:
    train_prepared = pd.read_csv('train_clean.csv')

neg_fea = [u'X_quan', u'Y_quan', u'X', u'Y', u'Category', u'Descript', u'DayOfWeek', u'PdDistrict', u'Resolution', u'Category_ID',
           u'Address', u'PdDistrict_ID', u'DayOfWeekNo', u'Day', u'Month', u'Year', u'Hour', u'Dates']

y = train_prepared['Category_ID']
X = train_prepared.drop(neg_fea, 1)
X = X.drop(X.columns[0], 1)

# free up memory occupied by train_prepared
del train_prepared
train_prepared = None

print 'Fitting...'

예제 #2

파일 보기

파일: main.py 프로젝트: renhzhang2/Kaggle-challenge

        for dc in cols_to_drop:
            if re.match(dc, col):
                data.drop(col, axis=1, inplace=True)
                break


def singly_predict(clf, trainX, trainY, testX):
    clf.fit(trainX, trainY)
    results = clf.predict(testX)
    write_results(results)


if os.path.isfile('train_clean.csv'):
    train_data = pd.read_csv('train_clean.csv')
else:
    train_data = munge('train')

if os.path.isfile('test_clean.csv'):
    test_data = pd.read_csv('test_clean.csv')
else:
    test_data = munge('test')


y = train_data['Hazard']
X = train_data.drop(['Id', 'Hazard'], axis=1)

Id = test_data['Id']
test_data.drop('Id', axis=1, inplace=True)

# drop cols
Dropcols = ['T2_V10', 'T2_V7', 'T1_V13', 'T1_V10']