Python loadSets 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: loadData

메소드/함수: loadSets

hotexamples.com에서의 예제들: 3

Python loadSets - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 loadData.loadSets에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: randomForest.py 프로젝트: tcoatale/Caterpillar-tube-Pricing

def estimate():
    from loadData import loadSets
    from helper import splitDataset, separateTargetFromTrain
    from sklearn.ensemble import RandomForestClassifier
    import numpy as np
    import math

    best_rmsle = 2
    best_i = 0
    
    trainingSet, testingSet = loadSets()
    testingSet = None

    trainingData, testingData = splitDataset(trainingSet, 0.6)
    testingData, validationData = splitDataset(testingData, 0.5)
    trainingSet = None
    
    trainingTarget, trainingFeatures = separateTargetFromTrain(trainingData)
    testingTarget, testingFeatures = separateTargetFromTrain(testingData)
    validationTarget, validationFeatures = separateTargetFromTrain(validationData)

    testingTarget = testingTarget.values
    validationTarget = validationTarget.values
    
    trainingData = None
    testingData = None
    validationData = None    
    
    for i in range(20, 50, 1):
        rf = RandomForestClassifier(n_estimators = i, n_jobs = -1)
        rf.fit(trainingFeatures, trainingTarget)
        
        predictions = rf.predict(testingFeatures)
        rf = None
                
        cost = pow(np.log(predictions + 1) - np.log(testingTarget + 1), 2)
        rmsle = math.sqrt(np.mean(cost))
        print i, "components: ", rmsle
        
        if rmsle < best_rmsle:
            best_rmsle = rmsle
            best_i = i
            
    print "Best: ", best_i, " components with rmsle: ", best_rmsle
    
    rf = RandomForestClassifier(n_estimators = best_i, n_jobs = -1)
    rf.fit(trainingFeatures, trainingTarget)
    predictions = rf.predict(validationFeatures)
    rf = None
                
    cost = pow(np.log(predictions + 1) - np.log(validationTarget + 1), 2)
    rmsle = math.sqrt(np.mean(cost))
    
    print "Model cost: ", rmsle

예제 #2

파일 보기

파일: extraRandomForest.py 프로젝트: tcoatale/Caterpillar-tube-Pricing

def estimate():
    from loadData import loadSets
    from helper import splitDataset, separateTargetFromTrain
    from sklearn.ensemble import ExtraTreesRegressor
    import numpy as np
    import math

    best_rmsle = 2
    best_i = 0
    
    trainingSet, testingSet = loadSets()
    testingSet = None

    trainingData, testingData = splitDataset(trainingSet, 0.6)
    testingData, validationData = splitDataset(testingData, 0.5)
    trainingSet = None
    
    trainingTarget, trainingFeatures = separateTargetFromTrain(trainingData)
    testingTarget, testingFeatures = separateTargetFromTrain(testingData)
    validationTarget, validationFeatures = separateTargetFromTrain(validationData)

    testingTarget = testingTarget.values
    validationTarget = validationTarget.values
    
    trainingData = None
    testingData = None
    validationData = None    
    
    for i in range(2000, 3001, 1000):
        model = ExtraTreesRegressor(n_estimators = i, n_jobs = -1)
        model.fit(trainingFeatures, trainingTarget)
        
        predictions = model.predict(testingFeatures)
                
        cost = pow(np.log(predictions + 1) - np.log(testingTarget + 1), 2)
        rmsle = math.sqrt(np.mean(cost))
        print i, " estimators: ", rmsle
        
        if rmsle < best_rmsle:
            best_rmsle = rmsle
            best_i = i
            
    print "Best: ", best_i, " estimators with rmsle: ", best_rmsle
    
    model = ExtraTreesRegressor(n_estimators = best_i, n_jobs = -1)
    model.fit(trainingFeatures, trainingTarget)
    predictions = model.predict(validationFeatures)
            
    cost = pow(np.log(predictions + 1) - np.log(validationTarget + 1), 2)
    rmsle = math.sqrt(np.mean(cost))
    
    print "Final model cost: ", rmsle

예제 #3

파일 보기

파일: main.py 프로젝트: tcoatale/Caterpillar-tube-Pricing

    for i in testingFeaturesPca[columns].values:
        testDs.addSample(tuple(i[:-1]),  i[-1])
        
    return trainDs, testDs
#%%
from loadData import loadSets
from datetime import datetime
from pandas import DataFrame
from sklearn.linear_model import RidgeCV
from sklearn.linear_model import SGDRegressor
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.ensemble import RandomForestRegressor

before = datetime.now()

trainingSet, testingSet = loadSets()    
testingSet.index = testingSet.id

#%%
testingFeatures = testingSet.drop('id', 1)
ids = testingSet.id

#%%
'''
from helper import splitDataset
trainingSet, testingSet = splitDataset(trainingSet, 0.7)
testingFeatures = testingSet.drop('cost', 1)
testingTarget = testingSet.cost
ids = None
'''
#%%