Python PDFTextExtractor Beispiele

Programmiersprache: Python

Namespace / Paketname: bibim.rce.extraction

Klasse / Typ: PDFTextExtractor

Beispiele auf hotexamples.com: 2

Python PDFTextExtractor - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die bibim.rce.extraction.PDFTextExtractor, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

PDFTextExtractor(1)

extract(1)

Beispiel #1

Datei anzeigen

 def setUp(self):
     self.extractor = PDFTextExtractor()
     self.scanned = normpath(join(dirname(__file__), ('../../../../tests/'
                                  'fixtures/extraction/scanned.pdf')))
     self.corrupt = normpath(join(dirname(__file__), ('../../../../tests/'
                                  'fixtures/extraction/corrupt.pdf')))
     self.article = normpath(join(dirname(__file__), ('../../../../tests/'
                                  'fixtures/extraction/article.pdf')))
     self.document = self.extractor.extract(self.article)

Beispiel #2

Datei anzeigen

class TestPDFTextExtractor(unittest.TestCase):
    def setUp(self):
        self.extractor = PDFTextExtractor()
        self.scanned = normpath(join(dirname(__file__), ('../../../../tests/'
                                     'fixtures/extraction/scanned.pdf')))
        self.corrupt = normpath(join(dirname(__file__), ('../../../../tests/'
                                     'fixtures/extraction/corrupt.pdf')))
        self.article = normpath(join(dirname(__file__), ('../../../../tests/'
                                     'fixtures/extraction/article.pdf')))
        self.document = self.extractor.extract(self.article)

    def tearDown(self):
        pass

    def test_extract_non_existent_file(self):
        self.failUnlessRaises(IOError, self.extractor.extract, 'some_file.pdf')

    def test_extract_scanned_file(self):
        self.failUnlessRaises(ExtractionError, self.extractor.extract,
                              self.scanned)
        
    def test_extract_corrupt_file(self):
        self.failUnlessRaises(ExtractionError, self.extractor.extract,
                              self.corrupt)

    def test_metadata_extraction(self):
        self.failUnless(self.document.get_metadata_field('Title') == ('PII: '
            'S0925-2312(00)00293-9'))
        self.failUnless(self.document.get_metadata_field('CreationDate') == 
            '20001019095743')

    def test_content_extraction(self):
        self.failUnless(self.document.content.count(('In this paper we discuss'
            ' the use of boundary methods')) == 1)
        self.failUnless(self.document.content.count(('Army Research Lab '
            'Programming Environment and Training program')) == 1)