Ejemplos de PdfToText en Python

Lenguaje de programación: Python

Namespace/Package Name: pdftools

Clase / Tipo: PdfToText

Ejemplos en hotexamples.com: 10

Python PdfToText - 10 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de pdftools.PdfToText extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

PdfToText(6)

dumpPages(2)

extractPage(2)

extractPages(2)

Ejemplo n.º 1

Mostrar archivo

 def extractTextFromStructuredDoc(self):
     """
     creates "text" dir to dump the extracted pages
     """
     self.logger.info('Calling Pdftotext: Dumping text pages at %s', os.path.join(self.outputDir,'text'))
     pdfToText = PdfToText(self.filePath, self.totalPages, os.path.join(self.outputDir,'text'))
     pdfToText.extractPages()

Ejemplo n.º 2

Mostrar archivo

Archivo: PdfToTextTest.py Proyecto: pombredanne/pdf-processor

 def testStructuredPdfAllPagewise(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.extractPages()
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "1.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "2.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "3.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "4.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "5.txt")))

Ejemplo n.º 3

Mostrar archivo

Archivo: PdfToTextTest.py Proyecto: anjesh/pdf-processor

 def testStructuredPdfAllPagewise(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.extractPages()
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"1.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"2.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"3.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"4.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"5.txt")))

Ejemplo n.º 4

Mostrar archivo

 def processToCheckStructured(self):
     """
     dumps the entire pdf to text to get the size of the content
     """
     pdfToText = PdfToText(self.filePath, self.totalPages, self.outputDir)
     pdfToText.dumpPages()
     self.textContentSize += os.path.getsize(pdfToText.dumpedTextFilepath)
     self.logger.info('Text content size: %d bytes', self.textContentSize)
     self.logger.info('Structured? %s', self.isStructured())

Ejemplo n.º 5

Mostrar archivo

Archivo: PdfToTextTest.py Proyecto: anjesh/pdf-processor

 def testStructuredPdfAllPagesDump(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.dumpPages()
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"sample.txt")))

Ejemplo n.º 6

Mostrar archivo

Archivo: PdfToTextTest.py Proyecto: anjesh/pdf-processor

 def testScannedPdfPage(self):
     pdfToText = PdfToText('tests/sample-scanned.pdf', 5, self.outdir)
     pdfToText.extractPage(2)
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"2.txt")))

Ejemplo n.º 7

Mostrar archivo

Archivo: PdfToTextTest.py Proyecto: anjesh/pdf-processor

 def testStructuredPdfPage(self):        
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.extractPage(1)
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"1.txt")))

Ejemplo n.º 8

Mostrar archivo

Archivo: PdfToTextTest.py Proyecto: pombredanne/pdf-processor

 def testStructuredPdfAllPagesDump(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.dumpPages()
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,
                                                 "sample.txt")))

Ejemplo n.º 9

Mostrar archivo

Archivo: PdfToTextTest.py Proyecto: pombredanne/pdf-processor

 def testScannedPdfPage(self):
     pdfToText = PdfToText('tests/sample-scanned.pdf', 5, self.outdir)
     pdfToText.extractPage(2)
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "2.txt")))

Ejemplo n.º 10

Mostrar archivo

Archivo: PdfToTextTest.py Proyecto: pombredanne/pdf-processor

 def testStructuredPdfPage(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.extractPage(1)
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "1.txt")))