Esempi in Python per Extractor.extract

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: tde.Extractor

Classe/tipologia: Extractor

Metodo/funzione: extract

Esempi su hotexamples.com: 3

Extractor.extract in Python: 3 esempi trovati. Questi sono i migliori esempi reali in Python per tde.Extractor.Extractor.extract, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Extractor(3)

extract(2)

Metodi utilizzati di frequente

Extractor (3)

extract (2)

Esempio n. 1

Mostra file

File: TestErrors.py Progetto: buxx/TextDataExtractor

    def test_errors_report(self):
        inspector = Inspector(source='tests/src/source_files_errors',
                              data_classes=self._wikipedia_html_data_classes,
                              match_pattern='*.html')
        extractor = Extractor(inspectors=[inspector])
        data_collection = extractor.extract()

        errors = data_collection.get_errors()
        self.assertEquals(1, len(errors))
        self.assertEquals(('tests/src/source_files_errors/error_unicode.html',
                           'match',
                           "'utf-8' codec can't decode byte 0xe0 in position 6071: invalid "
                           'continuation byte'), errors[0].get_as_tuple())

Esempio n. 2

Mostra file

File: run.py Progetto: buxx/TextDataExtractor

source_directory = 'sandbox/dalz/Raw_Field_Blog/HTLML_complete/Blog_LaFraise/Blog_LaFraise/blog.lafraise.com/fr/'

# Les différentes données qui vont être extraites
data_classes = [ArticleCommentCountFileData,
                AuthorArticleCountFilesData,
                ArticlePublicationDateFileData,
                ArticlePublicationHourFileData,
                ArticleAuthorFileData,
                ArticleWordCountFileData,
                CommentAuthorCommentCountFilesDatas,
                AuthorArticlesCommentsCountAverageFilesData,
                AuthorArticlesWordsCountAverageFilesData,
                ArticlePatriceCommentCountFileData]

# Création de l'objet chargé de récupérer les fichiers correspondant aux données recherchés
inspector_lafraise = Inspector(source=source_directory,
                               data_classes=data_classes,
                               match_pattern='*.html')

# Création de l'extracteur de données
extractor = Extractor(inspectors=[inspector_lafraise])

# Extraction des données
data_collection = extractor.extract()

# Création de l'objet pour exporter en CSV. On précise la liste des données à compiler dans un fichier.
csv_convector = CSVExporter(data_collection, implode_classes=[ArticleImplode, AuthorImplode])

# Export dans le répertoire output des différentes données extraites
csv_convector.export('sandbox/dalz/output')

Esempio n. 3

Mostra file

source_directory = 'sandbox/dalz/Raw_Field_Blog/HTLML_complete/Blog_LaFraise/Blog_LaFraise/blog.lafraise.com/fr/'

# Les différentes données qui vont être extraites
data_classes = [
    ArticleCommentCountFileData, AuthorArticleCountFilesData,
    ArticlePublicationDateFileData, ArticlePublicationHourFileData,
    ArticleAuthorFileData, ArticleWordCountFileData,
    CommentAuthorCommentCountFilesDatas,
    AuthorArticlesCommentsCountAverageFilesData,
    AuthorArticlesWordsCountAverageFilesData,
    ArticlePatriceCommentCountFileData
]

# Création de l'objet chargé de récupérer les fichiers correspondant aux données recherchés
inspector_lafraise = Inspector(source=source_directory,
                               data_classes=data_classes,
                               match_pattern='*.html')

# Création de l'extracteur de données
extractor = Extractor(inspectors=[inspector_lafraise])

# Extraction des données
data_collection = extractor.extract()

# Création de l'objet pour exporter en CSV. On précise la liste des données à compiler dans un fichier.
csv_convector = CSVExporter(data_collection,
                            implode_classes=[ArticleImplode, AuthorImplode])

# Export dans le répertoire output des différentes données extraites
csv_convector.export('sandbox/dalz/output')