Python DatasetAnalysis 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pytolemaic.analysis_logic.dataset_analysis.dataset_analysis

클래스/타입: DatasetAnalysis

hotexamples.com에서의 예제들: 7

Python DatasetAnalysis - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pytolemaic.analysis_logic.dataset_analysis.dataset_analysis.DatasetAnalysis에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DatasetAnalysis(7)

dataset_analysis_report(3)

count_missing_values(1)

count_outliers(1)

count_unique_classes(1)

예제 #1

파일 보기

파일: test_dataset_analysis.py 프로젝트: ronenalmog/Pytolemaic

 def test_dataset_analysis_report(self):
     da = DatasetAnalysis(REGRESSION,
                          class_count_threshold=10,
                          outliers_n_sigma=(3, 5),
                          nan_threshold_per_col=(0.1, 0.5, 0.9),
                          nan_threshold_per_sample=(0.1, 0.9))
     report = da.dataset_analysis_report(dataset=self.dataset)
     pprint(report.to_dict(printable=True))
     pprint(report.to_dict_meaning())
     pprint(report.plot())

예제 #2

파일 보기

파일: pytrust.py 프로젝트: Broundal/Pytolemaic

 def _create_dataset_analysis_report(self,
                                     **kwargs) -> DatasetAnalysisReport:
     self.dataset_analysis = DatasetAnalysis(
         problem_Type=CLASSIFICATION if self.
         is_classification else REGRESSION)
     return self.create_dataset_analysis_report(
         train=self.train,
         test=self.test,
         is_classification=self.is_classification,
         dataset_analysis=self.dataset_analysis)

예제 #3

파일 보기

파일: test_dataset_analysis.py 프로젝트: ronenalmog/Pytolemaic

    def test_count_outliers(self):
        da = DatasetAnalysis(REGRESSION,
                             class_count_threshold=10,
                             outliers_n_sigma=(3, 5),
                             nan_threshold_per_col=(0.1, 0.5, 0.9),
                             nan_threshold_per_sample=(0.1, 0.5, 0.9))
        out = da.count_outliers(self.dataset)
        print("count_outliers:")
        pprint(out)

        self.assertTrue(9 in out)
        self.assertTrue('3-sigma' in out[9])
        self.assertTrue('5-sigma' in out[9])
        self.assertTrue(out[9]['5-sigma']['n_outliers'] == 1)
        self.assertTrue(out[9]['3-sigma']['expected_outliers'] == 2)
        self.assertTrue(out[9]['5-sigma']['expected_outliers'] == 0)

        self.assertTrue('target' in out)
        self.assertTrue('3-sigma' not in out['target'])
        self.assertTrue('5-sigma' in out['target'])
        self.assertTrue(out['target']['5-sigma']['n_outliers'] == 1)

예제 #4

파일 보기

파일: test_dataset_analysis.py 프로젝트: ronenalmog/Pytolemaic

    def test_count_unique_classes(self):
        da = DatasetAnalysis(CLASSIFICATION,
                             class_count_threshold=10,
                             outliers_n_sigma=(3, 5),
                             nan_threshold_per_col=(0.1, 0.5, 0.9),
                             nan_threshold_per_sample=(0.1, 0.5, 0.9))
        out = da.count_unique_classes(self.dataset)
        print("count_unique_classes:")
        pprint(out)

        self.assertTrue(0 in out)
        self.assertTrue(10.0 in out[0])
        self.assertTrue(out[0][10.0] == 1)

        self.assertTrue('target' in out)
        self.assertTrue(10.0 in out['target'])
        self.assertTrue(out['target'][10.0] == 1)

        for feature in out:
            for value in out[feature].values():
                self.assertLessEqual(value, da._class_count_threshold)

예제 #5

파일 보기

파일: pytrust.py 프로젝트: Broundal/Pytolemaic

    def create_dataset_analysis_report(
            cls,
            train: DMD,
            is_classification,
            test: DMD = None,
            dataset_analysis: DatasetAnalysis = None,
            **kwargs) -> DatasetAnalysisReport:
        """
        Create dataset analysis report by analyzing train data

        Args:
            train - train data
            test - test data, if available
            is_classification - whether the target is categorical.

        Returns:
            dataset analysis report
        """
        dataset_analysis = dataset_analysis or DatasetAnalysis(
            problem_Type=CLASSIFICATION if is_classification else REGRESSION)
        report = dataset_analysis.dataset_analysis_report(train=train,
                                                          test=test)
        return report

예제 #6

파일 보기

파일: test_dataset_analysis.py 프로젝트: ronenalmog/Pytolemaic

    def test_count_missing_values(self):
        da = DatasetAnalysis(REGRESSION,
                             class_count_threshold=10,
                             outliers_n_sigma=(3, 5),
                             nan_threshold_per_col=(0.1, 0.5, 0.9),
                             nan_threshold_per_sample=(0.1, 0.9))
        nan_cols, nan_rows = da.count_missing_values(self.dataset)
        print("count_missing_values cols:")
        pprint(nan_cols)

        print("count_missing_values rows:")
        pprint(nan_rows)

        for th in da._nan_threshold_per_feature:
            self.assertTrue(th in nan_cols)

        for th in da._nan_threshold_per_sample:
            self.assertTrue(th in nan_rows)

        self.assertEqual(nan_cols, {
            0.1: {
                1: 1.0,
                2: 0.7
            },
            0.5: {
                1: 1.0,
                2: 0.7
            },
            0.9: {
                1: 1.0
            }
        })
        self.assertEqual(nan_rows[0.9], {10: 1.0})
        self.assertEqual(len(nan_rows[0.1]), self.dataset.n_samples)
        for th, vdict in nan_rows.items():
            print(th, vdict)
            self.assertTrue(th <= max(vdict.values()))

예제 #7

파일 보기

파일: pytrust.py 프로젝트: ronenalmog/Pytolemaic

 def create_dataset_analysis_report(cls, train: DMD, is_classification,
                                    **kwargs) -> DatasetAnalysisReport:
     da = DatasetAnalysis(
         problem_Type=CLASSIFICATION if is_classification else REGRESSION)
     report = da.dataset_analysis_report(dataset=train)
     return report