Python PdfToText示例

编程语言: Python

命名空间/包名称: pdftools

类/类型: PdfToText

hotexamples.com的示例: 10

Python PdfToText - 已找到10个示例。这些是从开源项目中提取的最受好评的pdftools.PdfToText现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

PdfToText(6)

dumpPages(2)

extractPage(2)

extractPages(2)

示例#1

显示文件

 def extractTextFromStructuredDoc(self):
     """
     creates "text" dir to dump the extracted pages
     """
     self.logger.info('Calling Pdftotext: Dumping text pages at %s', os.path.join(self.outputDir,'text'))
     pdfToText = PdfToText(self.filePath, self.totalPages, os.path.join(self.outputDir,'text'))
     pdfToText.extractPages()

示例#2

显示文件

文件： PdfToTextTest.py 项目： pombredanne/pdf-processor

 def testStructuredPdfAllPagewise(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.extractPages()
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "1.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "2.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "3.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "4.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "5.txt")))

示例#3

显示文件

文件： PdfToTextTest.py 项目： anjesh/pdf-processor

 def testStructuredPdfAllPagewise(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.extractPages()
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"1.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"2.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"3.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"4.txt")))
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"5.txt")))

示例#4

显示文件

 def processToCheckStructured(self):
     """
     dumps the entire pdf to text to get the size of the content
     """
     pdfToText = PdfToText(self.filePath, self.totalPages, self.outputDir)
     pdfToText.dumpPages()
     self.textContentSize += os.path.getsize(pdfToText.dumpedTextFilepath)
     self.logger.info('Text content size: %d bytes', self.textContentSize)
     self.logger.info('Structured? %s', self.isStructured())

示例#5

显示文件

文件： PdfToTextTest.py 项目： anjesh/pdf-processor

 def testStructuredPdfAllPagesDump(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.dumpPages()
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"sample.txt")))

示例#6

显示文件

文件： PdfToTextTest.py 项目： anjesh/pdf-processor

 def testScannedPdfPage(self):
     pdfToText = PdfToText('tests/sample-scanned.pdf', 5, self.outdir)
     pdfToText.extractPage(2)
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"2.txt")))

示例#7

显示文件

文件： PdfToTextTest.py 项目： anjesh/pdf-processor

 def testStructuredPdfPage(self):        
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.extractPage(1)
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,"1.txt")))

示例#8

显示文件

文件： PdfToTextTest.py 项目： pombredanne/pdf-processor

 def testStructuredPdfAllPagesDump(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.dumpPages()
     self.assertTrue(os.path.isfile(os.path.join(self.outdir,
                                                 "sample.txt")))

示例#9

显示文件

文件： PdfToTextTest.py 项目： pombredanne/pdf-processor

 def testScannedPdfPage(self):
     pdfToText = PdfToText('tests/sample-scanned.pdf', 5, self.outdir)
     pdfToText.extractPage(2)
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "2.txt")))

示例#10

显示文件

文件： PdfToTextTest.py 项目： pombredanne/pdf-processor

 def testStructuredPdfPage(self):
     pdfToText = PdfToText('tests/sample.pdf', 5, self.outdir)
     pdfToText.extractPage(1)
     self.assertTrue(os.path.isfile(os.path.join(self.outdir, "1.txt")))