Python Extractor 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tde.Extractor

클래스/타입: Extractor

hotexamples.com에서의 예제들: 4

Python Extractor - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tde.Extractor.Extractor에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Extractor(3)

extract(2)

예제 #1

파일 보기

파일: TestErrors.py 프로젝트: buxx/TextDataExtractor

    def test_errors_report(self):
        inspector = Inspector(source='tests/src/source_files_errors',
                              data_classes=self._wikipedia_html_data_classes,
                              match_pattern='*.html')
        extractor = Extractor(inspectors=[inspector])
        data_collection = extractor.extract()

        errors = data_collection.get_errors()
        self.assertEquals(1, len(errors))
        self.assertEquals(('tests/src/source_files_errors/error_unicode.html',
                           'match',
                           "'utf-8' codec can't decode byte 0xe0 in position 6071: invalid "
                           'continuation byte'), errors[0].get_as_tuple())

예제 #2

파일 보기

파일: run.py 프로젝트: buxx/TextDataExtractor

source_directory = 'sandbox/dalz/Raw_Field_Blog/HTLML_complete/Blog_LaFraise/Blog_LaFraise/blog.lafraise.com/fr/'

# Les différentes données qui vont être extraites
data_classes = [ArticleCommentCountFileData,
                AuthorArticleCountFilesData,
                ArticlePublicationDateFileData,
                ArticlePublicationHourFileData,
                ArticleAuthorFileData,
                ArticleWordCountFileData,
                CommentAuthorCommentCountFilesDatas,
                AuthorArticlesCommentsCountAverageFilesData,
                AuthorArticlesWordsCountAverageFilesData,
                ArticlePatriceCommentCountFileData]

# Création de l'objet chargé de récupérer les fichiers correspondant aux données recherchés
inspector_lafraise = Inspector(source=source_directory,
                               data_classes=data_classes,
                               match_pattern='*.html')

# Création de l'extracteur de données
extractor = Extractor(inspectors=[inspector_lafraise])

# Extraction des données
data_collection = extractor.extract()

# Création de l'objet pour exporter en CSV. On précise la liste des données à compiler dans un fichier.
csv_convector = CSVExporter(data_collection, implode_classes=[ArticleImplode, AuthorImplode])

# Export dans le répertoire output des différentes données extraites
csv_convector.export('sandbox/dalz/output')

예제 #3

파일 보기

 def _get_extractor(self, inspectors):
     return Extractor(inspectors=inspectors)

예제 #4

파일 보기

source_directory = 'sandbox/dalz/Raw_Field_Blog/HTLML_complete/Blog_LaFraise/Blog_LaFraise/blog.lafraise.com/fr/'

# Les différentes données qui vont être extraites
data_classes = [
    ArticleCommentCountFileData, AuthorArticleCountFilesData,
    ArticlePublicationDateFileData, ArticlePublicationHourFileData,
    ArticleAuthorFileData, ArticleWordCountFileData,
    CommentAuthorCommentCountFilesDatas,
    AuthorArticlesCommentsCountAverageFilesData,
    AuthorArticlesWordsCountAverageFilesData,
    ArticlePatriceCommentCountFileData
]

# Création de l'objet chargé de récupérer les fichiers correspondant aux données recherchés
inspector_lafraise = Inspector(source=source_directory,
                               data_classes=data_classes,
                               match_pattern='*.html')

# Création de l'extracteur de données
extractor = Extractor(inspectors=[inspector_lafraise])

# Extraction des données
data_collection = extractor.extract()

# Création de l'objet pour exporter en CSV. On précise la liste des données à compiler dans un fichier.
csv_convector = CSVExporter(data_collection,
                            implode_classes=[ArticleImplode, AuthorImplode])

# Export dans le répertoire output des différentes données extraites
csv_convector.export('sandbox/dalz/output')