Python ImputeNaN 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: dataliner

메소드/함수: ImputeNaN

hotexamples.com에서의 예제들: 7

Python ImputeNaN - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 dataliner.ImputeNaN에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

0

파일 보기

파일: test_preprocessing.py 프로젝트: shallowdf20/dataliner

def test_impute_nan():
    X, X_test, _ = _setup()
    trans = dp.ImputeNaN()

    Xt = trans.fit_transform(X)

    assert Xt.isnull().sum().sum() == 0
    _check_equal_rows(X, Xt)

    Xt_test = trans.transform(X_test)
    assert Xt_test.isnull().sum().sum() == 0
    _check_equal_rows(X_test, Xt_test)

    _check_same_cols_and_order(Xt, Xt_test)

예제 #2

0

파일 보기

파일: test_preprocessing.py 프로젝트: shallowdf20/dataliner

def test_permutation_importance_test():
    X, X_test, y = _setup()

    process = make_pipeline(dp.ImputeNaN(), dp.TargetMeanEncoding(),
                            dp.PermutationImportanceTest())

    Xt = process.fit_transform(X, y)

    _check_equal_rows(X, Xt)
    _check_col_does_not_exist_in_df(Xt, 'Name')
    _check_col_does_not_exist_in_df(Xt, 'PassengerId')

    Xt_test = process.transform(X_test)
    _check_equal_rows(X_test, Xt_test)

    _check_same_cols_and_order(Xt, Xt_test)

예제 #3

0

파일 보기

파일: test_preprocessing.py 프로젝트: shallowdf20/dataliner

def test_append_cluster_target_mean():
    X, X_test, y = _setup()

    process = make_pipeline(dp.ImputeNaN(), dp.TargetMeanEncoding(),
                            dp.AppendClusterTargetMean())

    Xt = process.fit_transform(X, y)

    _check_equal_rows(X, Xt)
    _check_number_of_cols_equal(Xt, 12)
    _check_col_exist_in_df(Xt, 'cluster_mean')

    Xt_test = process.transform(X_test)
    _check_equal_rows(X_test, Xt_test)
    _check_number_of_cols_equal(Xt_test, 12)

    _check_same_cols_and_order(Xt, Xt_test)

예제 #4

0

파일 보기

파일: test_preprocessing.py 프로젝트: shallowdf20/dataliner

def test_append_classification_model():
    X, X_test, y = _setup()

    probability_candidates = [True, False]

    for probability in probability_candidates:
        trans = dp.AppendClassificationModel(model=RandomForestClassifier(),
                                             probability=probability)

        process = make_pipeline(dp.ImputeNaN(), dp.TargetMeanEncoding(), trans)

        Xt = process.fit_transform(X, y)
        _check_equal_rows(X, Xt)
        _check_col_exist_in_df(Xt, 'Predicted_RandomForestClassifier')

        Xt_test = process.transform(X_test)
        _check_equal_rows(X_test, Xt_test)
        _check_same_cols_and_order(Xt, Xt_test)

예제 #5

0

파일 보기

파일: test_preprocessing.py 프로젝트: shallowdf20/dataliner

def test_pipelines():
    X, X_test, y = _setup()

    ctrans_candidates = [
        dp.OneHotEncoding(),
        dp.TargetMeanEncoding(),
        dp.CountEncoding(),
        dp.RankedCountEncoding(),
        dp.FrequencyEncoding(),
        dp.RankedTargetMeanEncoding(),
    ]

    scaler_candidates = [dp.StandardScaling(), dp.MinMaxScaling()]

    for scaler in scaler_candidates:
        for ctrans in ctrans_candidates:
            process = make_pipeline(
                dp.DropColumns(drop_columns="PassengerId"),
                dp.DropNoVariance(),
                dp.GroupRareCategory(),
                dp.ClipData(),
                dp.DropHighCardinality(),
                dp.BinarizeNaN(),
                dp.CountRowNaN(),
                dp.ImputeNaN(),
                ctrans,
                dp.DropNoVariance(),
                dp.DropHighCorrelation(),
                scaler,
                dp.AppendAnomalyScore(),
                dp.AppendCluster(),
                dp.AppendClusterDistance(),
                dp.AppendPrincipalComponent(),
                dp.DropHighCorrelation(),
                dp.DropLowAUC(),
            )

            Xt = process.fit_transform(X, y)
            Xt_test = process.transform(X_test)

            _check_equal_rows(X, Xt)
            _check_equal_rows(X_test, Xt_test)

            _check_same_cols_and_order(Xt, Xt_test)

예제 #6

0

파일 보기

파일: test_preprocessing.py 프로젝트: shallowdf20/dataliner

def test_arithmetic_feature_generator():
    X, X_test, y = _setup()

    operation_candidates = ['add', 'subtract', 'multiply', 'divide']
    metric_candidates = ['roc_auc', 'accuracy']

    for metric in metric_candidates:
        for operation in operation_candidates:
            process = make_pipeline(
                dp.ImputeNaN(),
                dp.ArithmeticFeatureGenerator(metric=metric,
                                              operation=operation))

            Xt = process.fit_transform(X, y)
            Xt_test = process.transform(X_test)

            _check_equal_rows(X, Xt)
            _check_equal_rows(X_test, Xt_test)

            _check_same_cols_and_order(Xt, Xt_test)

예제 #7

0

파일 보기

파일: test_preprocessing.py 프로젝트: shallowdf20/dataliner

def test_cascaded_encoders():
    X, X_test, y = _setup()

    process = make_pipeline(
        dp.ImputeNaN(),
        dp.OneHotEncoding(),
        dp.TargetMeanEncoding(),
        dp.CountEncoding(),
        dp.RankedCountEncoding(),
        dp.FrequencyEncoding(),
        dp.RankedTargetMeanEncoding(),
    )

    Xt = process.fit_transform(X, y)
    Xt_test = process.transform(X_test)

    _check_equal_rows(X, Xt)
    _check_equal_rows(X_test, Xt_test)

    _check_same_cols_and_order(Xt, Xt_test)