Python FunctionLib.impute_knn_classifier 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: Model

클래스/타입: FunctionLib

메소드/함수: impute_knn_classifier

hotexamples.com에서의 예제들: 2

Python FunctionLib.impute_knn_classifier - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Model.FunctionLib.impute_knn_classifier에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

get_params(8)

distinct_feats(7)

change_type(7)

get_missing_value_feats(6)

ScoreDataFrame(3)

get_aggregate_features_num(3)

get_model_performance(3)

TurkyOutliers(2)

impute_knn_classifier(2)

GetScaledModel(2)

get_rowcnt_most_missing_val(2)

GetBasedModel(2)

cv_score(2)

corr_feats(2)

GetScaledModelwithfactorizedCW(2)

plot_bar(2)

missing_val_perc(2)

impute_values(2)

log_transform(2)

PlotBoxR(2)

match_strings(1)

hist_perc(1)

hist_compare(1)

get_unique_val_list(1)

plot_stats(1)

min_len_col(1)

AdaBoostClassifier(1)

get_corr(1)

feature_stats(1)

default_ratio(1)

cv_metrics(1)

concat_model_score(1)

RandomSearch(1)

RandomForestClassifier(1)

LogisticRegression(1)

KNeighborsClassifier(1)

GridSearch(1)

GradientBoostingClassifier(1)

GetScaledModelwithbestparams(1)

train_test_split(1)

예제 #1

파일 보기

파일: Preprocessing.py 프로젝트: rkparyani/KAGGLE---Home-Credit-Default-Risk

    def missing_value_imputations(self):
        #################################### MISSING VALUES #############################
        # Since the numerical univariate distribution are symmetrical now with no difference
        # between median and mean. Lets impute all the numerical missing values with mean
        # Record missing values for further validations:
        #indicator = MissingIndicator(missing_values=np.nan)
        #mask_missing_values_only = indicator.fit_transform(self.ds1_df)
        #mask_missing_values_only.shape

        num_feats_imp_df, cat_feats_imp_df = self.seperate_cat_num_var(
            self.ds1_df)
        # Num missing values imputations
        self.ds1_df[num_feats_imp_df] = self.ds1_df[num_feats_imp_df].fillna(
            value=self.ds1_df[num_feats_imp_df].mean())

        # Left missing values are categorical.
        missing_feats_cat = f.get_missing_value_feats(self.ds1_df)

        par_num_df, par_cat_df = f.get_params(self.ds1_df, num_feats_imp_df,
                                              cat_feats_imp_df)
        # Categorical values where mode frequency is more than 80% - Impute na with Mode
        # If not then use the KNN model to impute the values

        mode_threshold = 80
        for feature in missing_feats_cat:
            if par_cat_df.loc[feature]['MODE_PERCENTAGE'] > mode_threshold:
                self.ds1_df[feature].fillna(
                    value=par_cat_df.loc[feature]['MODE'], inplace=True)
                print("Method : MODE , Feature : {} , Mode_Percentage : {}".
                      format(feature,
                             par_cat_df.loc[feature]['MODE_PERCENTAGE']))

            else:
                imp_list, score = f.impute_knn_classifier(
                    self.ds1_df, feature, 5)
                self.ds1_df[feature].fillna(value=imp_list, inplace=True)
                print(
                    "Method : KNN , Feature : {} , Imputation Accuracy Score : {}"
                    .format(feature, score))
        return par_num_df, par_cat_df

예제 #2

파일 보기

파일: Preprocessing_app_train.py 프로젝트: rkparyani/KAGGLE---Home-Credit-Default-Risk

missing_feats_cat = f.get_missing_value_feats(imp_df)

par_num_df, par_cat_df = f.get_params(imp_df, num_feats_imp_df,
                                      cat_feats_imp_df)
# Categorical values where mode frequency is more than 80% - Impute na with Mode
# If not then use the KNN model to impute the values

mode_threshold = 80
for feature in missing_feats_cat:
    if par_cat_df.loc[feature]['MODE_PERCENTAGE'] > mode_threshold:
        imp_df[feature].fillna(value=par_cat_df.loc[feature]['MODE'],
                               inplace=True)
        print("Method : MODE , Feature : {} , Mode_Percentage : {}".format(
            feature, par_cat_df.loc[feature]['MODE_PERCENTAGE']))
    else:
        imp_list, score = f.impute_knn_classifier(imp_df, feature, 75)
        imp_df[feature].fillna(value=imp_list, inplace=True)
        print("Method : KNN , Feature : {} , Imputation Accuracy Score : {}".
              format(feature, score))

# Create Numerical features information dataframe
# CHECK  DIFF from param_df and check the mean median diff

#
#imp_df = pd.read_csv(wd+"\\Output\\application_train_clean.csv")
##imp_df.drop(imp_df[['Unnamed: 0']],axis=1,inplace=True)
num_feats_imp_df, cat_feats_imp_df = f.distinct_feats(imp_df)
num_feats_imp_df.remove('SK_ID_CURR')
num_feats_imp_df.remove('TARGET')
print(len(num_feats_imp_df), len(cat_feats_imp_df))