Python DSReader.vectorize 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: src.reader

클래스/타입: DSReader

메소드/함수: vectorize

hotexamples.com에서의 예제들: 6

Python DSReader.vectorize - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 src.reader.DSReader.vectorize에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DSReader(13)

make_dictionary(7)

vectorize(6)

split_train_and_test(3)

to_lower(3)

remove_digits(2)

remove_duplicates(2)

remove_punctuation_marks(2)

remove_stopwords(2)

예제 #1

파일 보기

    def test_reader__vectorize_empty(self):
        """Check vectorize method on the empty"""

        reader = DSReader(dataset_empty_path)
        reader.make_dictionary()
        X, y = reader.vectorize()
        self.assertEqual([], X.tolist())
        self.assertEqual([], y.tolist())

예제 #2

파일 보기

    def test_reader__split_test_and_train_data_zero_size(self):
        """Check split_test_and_train_data method with argument size equals to zero"""

        reader = DSReader(dataset_split_path)
        reader.make_dictionary()
        X, y = reader.vectorize()
        percent = 0
        with self.assertRaises(Exception):
            X_train, y_train, X_test, y_test = reader.split_train_and_test(
                X, y, percent)

예제 #3

파일 보기

    def test_reader__split_test_and_train_data_empty(self):
        """Check split_test_and_train_data method on the empty dataset"""

        reader = DSReader(dataset_empty_path)
        reader.make_dictionary()
        X, y = reader.vectorize()
        percent = 0.7
        with self.assertRaises(Exception):
            X_train, y_train, X_test, y_test = reader.split_train_and_test(
                X, y, percent)

예제 #4

파일 보기

    def test_reader__split_test_and_train_data(self):
        """Check split_test_and_train_data method"""

        reader = DSReader(dataset_split_path)
        reader.make_dictionary()
        X, y = reader.vectorize()
        percent = 0.7
        X_train, y_train, X_test, y_test = reader.split_train_and_test(
            X, y, percent)
        self.assertEqual(X_train.shape[0], X.shape[0] * percent)
        self.assertEqual(X_test.shape[0], X.shape[0] * round(1 - percent, 2))
        self.assertEqual(y_train.shape[0], y.shape[0] * percent)
        self.assertEqual(y_test.shape[0], y.shape[0] * round(1 - percent, 2))

예제 #5

파일 보기

    def test_reader__vectorize(self):
        """Check vectorize method"""

        x_result = [
            [
                'During this webinar we will cover what is DevOps and Cloud Native'
            ], ['New webinar came up'],
            [
                'During this webinar we will cover what is DevOps and Cloud Native and storage'
            ]
        ]

        y_result = [1, 1, 0]

        reader = DSReader(dataset_path)
        reader.make_dictionary()
        X, y = reader.vectorize()

        for i, row in enumerate(X):
            self.assertEqual(x_result[i], row.tolist())
        self.assertEqual(y_result, y.tolist())

예제 #6

파일 보기

파일: test_reader.py 프로젝트: EgorHubBrest/Python-DS-Learning

# my_dataset.remove_stopwords()

# print(my_dataset.dataset)

my_dataset1 = DSReader('C:/Users/Masquerade/Downloads/emails.csv')

my_dataset1.to_lower()
my_dataset1.remove_digits()
my_dataset1.remove_punctuation_marks()
my_dataset1.remove_duplicates()
my_dataset1.remove_stopwords()
my_dataset1.remove_stopwords()

# print(my_dataset1.dataset)

list_email, list_label = my_dataset1.vectorize()
print(list_email.shape)
print(list_label.shape)

X, y = list_email, list_label
# X, y = my_dataset1.dataset.email, my_dataset1.dataset.label

X_train, X_test, y_train, y_test = train_test_split(X.values, y.values)
print("______________________________________________")
print(y_test)
print("______________________________________________")

vectorizer = CountVectorizer()
counts = vectorizer.fit_transform(X_train.ravel())

print("______________________________________________")