Python ProfileReport.get_rejected_variables 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pandas_profiling

클래스/타입: ProfileReport

메소드/함수: get_rejected_variables

hotexamples.com에서의 예제들: 2

Python ProfileReport.get_rejected_variables - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pandas_profiling.ProfileReport.get_rejected_variables에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ProfileReport(30)

to_file(30)

to_html(30)

get_description(17)

to_notebook_iframe(9)

to_json(8)

set_variable(6)

to_widgets(6)

to_expectation_suite(5)

get_rejected_variables(2)

clear_config(1)

dump(1)

dumps(1)

show_html(1)

예제 #1

파일 보기

def process_data(trainPath=".", testPath="."):
    subs_csi = pd.read_csv(os.path.join(trainPath, 'subs_csi_train.csv'),
                           index_col='SK_ID')
    subs_features = pd.read_csv(os.path.join(trainPath,
                                             'subs_features_train.csv'),
                                index_col='SK_ID')
    subs_bs_consumption = pd.read_csv(
        os.path.join(trainPath, 'subs_bs_consumption_train.csv'))

    df = subs_csi.merge(subs_features, on="SK_ID")
    df = df.merge(subs_bs_consumption.groupby(
        by=["SK_ID", "MON"], as_index=False).sum().set_index('SK_ID'),
                  on='SK_ID')
    df = sortByDate(df)
    df = df[df['ACT'] == 1]
    X, y = df.drop(columns=[
        "CSI", "SNAP_DATE", "CONTACT_DATE", 'COM_CAT#24', 'ACT', 'MON',
        'CELL_LAC_ID'
    ]), df["CSI"]

    profileReport = ProfileReport(df)
    categorical_features = ['ARPU_GROUP', 'DEVICE_TYPE_ID', 'INTERNET_TYPE_ID']
    binary_features = ['BASE_TYPE', 'COM_CAT#25', 'COM_CAT#26', "CSI"]
    numerical_features = set(
        X.columns) - set(categorical_features) - set(binary_features)

    X[categorical_features] = X[categorical_features].astype('int',
                                                             errors='ignore')

    numerical_features = list(numerical_features)

    X[categorical_features] = X[categorical_features].astype('category',
                                                             errors='ignore')

    X = X.drop(columns=profileReport.get_rejected_variables())
    categorical_features = list(set(X).intersection(categorical_features))
    numerical_features = list(set(X).intersection(numerical_features))
    binary_features = list(set(X).intersection(binary_features))

    classifier_pipeline = Pipeline(steps=[
        (
            'feature_processing',
            ColumnTransformer(transformers=[
                # binary
                ('binary',
                 Pipeline([('impute',
                            SimpleImputer(missing_values=np.nan,
                                          strategy='most_frequent'))]),
                 binary_features),

                # numeric
                ('numeric',
                 Pipeline([(
                     'impute',
                     SimpleImputer(missing_values=np.nan, strategy='mean')
                 ), ('scale', RobustScaler()),
                           ('transform',
                            QuantileTransformer(output_distribution='normal')
                            ), ('engineer', PolynomialFeatures())]),
                 numerical_features),

                # categorical
                ('categorical',
                 Pipeline([(
                     'impute',
                     SimpleImputer(missing_values=np.nan,
                                   strategy='constant',
                                   fill_value=-10000)
                 ), ('toint',
                     FunctionTransformer(lambda x: x.astype('int64')))]),
                 categorical_features),
            ])),
    ])
    X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y)
    X_train = classifier_pipeline.fit_transform(X_train)
    X_test = classifier_pipeline.fit_transform(X_test)
    X_submission_df, X_submission = process_submission_data(
        classifier_pipeline, testPath)
    return X_train, X_test, y_train, y_test, X_submission_df, X_submission

예제 #2

파일 보기

# In[13]:


len(X.columns) - len(train_removed_all_once.columns)


# In[72]:


X = train_removed_all_once


# In[73]:


profileReport.get_rejected_variables()


# In[87]:


X = X.drop(columns=['COM_CAT#22','COM_CAT#23', 'COM_CAT#28'])


# In[88]:


categorical_features = list(set(X).intersection(categorical_features))
numerical_features = list(set(X).intersection(numerical_features))
binary_features = list(set(X).intersection(binary_features))
categorical_indices = np.where(X.dtypes == 'category')