Python PDFReader 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ferenda.pdfreader

클래스/타입: PDFReader

hotexamples.com에서의 예제들: 4

Python PDFReader - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ferenda.pdfreader.PDFReader에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

read(2)

PDFReader(1)

is_empty(1)

median_box_width(1)

예제 #1

파일 보기

파일: regeringen.py 프로젝트: mavteam/ferenda

    def parse_pdf(self, filename, intermediatedir, basefile):
        # By default, don't create and manage PDF backgrounds files
        # (takes forever, we don't use them yet)
        if self.config.compress == "bz2":
            keep_xml = "bz2"
        else:
            keep_xml = True
        tup = (self.document_type, basefile)
        default_decoder = (DetectingDecoder, None)
        # This just just a list of known different encoding
        # schemes. FIXME: try to find out whether all Ds documents should
        # use the (non-decoding) BaseTextDecoder
        alternate_decoders = {(self.PROPOSITION, "1997/98:44"): (OffsetDecoder20, "Datalagskommittén"),
                              (self.DS, "2004:46"): (BaseTextDecoder, None)}

        decoding_class, decoder_arg = alternate_decoders.get(tup, default_decoder)
        convert_to_pdf = not filename.lower().endswith(".pdf")
        pdf = PDFReader(filename=filename,
                        workdir=intermediatedir,
                        images=self.config.pdfimages,
                        convert_to_pdf=convert_to_pdf,
                        keep_xml=keep_xml,
                        textdecoder=decoding_class(decoder_arg))
        if pdf.is_empty():
            self.log.warning("PDF file %s had no textcontent, trying OCR" % filename)
            pdf = PDFReader(filename=filename,
                            workdir=intermediatedir,
                            images=self.config.pdfimages,
                            keep_xml=keep_xml,
                            ocr_lang="swe")
        identifier = self.canonical_uri(basefile)
        for page in pdf:
            page.src = filename
        return pdf

예제 #2

파일 보기

파일: regeringen.py 프로젝트: staffanm/ferenda

    def parse_pdf(self, filename, intermediatedir, basefile):
        # By default, don't create and manage PDF backgrounds files
        # (takes forever, we don't use them yet)
        if self.config.compress == "bz2":
            keep_xml = "bz2"
        else:
            keep_xml = True
        tup = (self.document_type, basefile)
        default_decoder = (DetectingDecoder, None)
        # This just just a list of known different encoding
        # schemes. FIXME: try to find out whether all Ds documents should
        # use the (non-decoding) BaseTextDecoder
        alternate_decoders = {(self.PROPOSITION, "1997/98:44"): (OffsetDecoder20, "Datalagskommittén"),
                              (self.DS, "2004:46"): (BaseTextDecoder, None)}

        decoding_class, decoder_arg = alternate_decoders.get(tup, default_decoder)
        convert_to_pdf = not filename.lower().endswith(".pdf")
        pdf = PDFReader(filename=filename,
                        workdir=intermediatedir,
                        images=self.config.pdfimages,
                        convert_to_pdf=convert_to_pdf,
                        keep_xml=keep_xml,
                        textdecoder=decoding_class(decoder_arg))
        if pdf.is_empty():
            self.log.warning("PDF file %s had no textcontent, trying OCR" % filename)
            pdf = PDFReader(filename=filename,
                            workdir=intermediatedir,
                            images=self.config.pdfimages,
                            keep_xml=keep_xml,
                            ocr_lang="swe")
        identifier = self.canonical_uri(basefile)
        for page in pdf:
            page.src = filename
        return pdf

예제 #3

파일 보기

파일: regeringen.py 프로젝트: h4ck3rm1k3/ferenda

    def parse_pdf_complex(self, pdffile, intermediatedir):
        pdf = PDFReader()
        pdf.read(pdffile, intermediatedir)
        res = CompoundElement
        cnt = 0
        for srcpage in pdf:
            cnt += 1
            # Page is a wonderful and magical class. Read the comments
            # to find out exactly how awesome it is.
            tgtpage = Page(ordinal=cnt)
            # TODO: use magic to find the bounding box of actual page
            # content. 510 is a rough cutoff that might not be
            # appropriate for all page layouts.
            boxes = srcpage.boundingbox(right=510)
            for box in boxes:
                print((box.getfont()))
                print(("    [%dx%d][%dx%d][%s@%s] %s" %
                      (box.top, box.left, box.bottom, box.right, box.getfont()['family'], box.getfont()['size'], str(box))))
                # Heuristic: If something is in large type, it's a heading.
                if int(box.getfont()['size']) > 12:
                    if isinstance(ctx, Heading):
                        if vertical_space(box, boxes.previous()) > 10:
                            # Page.new closes the current context and
                            # creates a new context of the given class
                            tgtpage.new(Heading)

                    # Heading is a DimensionedElement with top,
                    # left, width, height props. Page.set creates a new
                    # context, but only if needed.
                    txtpage.set(Heading)

                    # calls the current context's append() method. If
                    # it's a DimensionedElement (it should be), it's
                    # implementation of append() expands the bounding
                    # box as new stuff is added (provided they have
                    # top/left+width/height attribs
                    txtpage.write(box)

                    continue

                # add more heuristicts here...

                # Last resort: Everything that is not something else is a Paragraph
                page.set(Paragraph)
                if horizontal_diff(box, boxes.previous()) > 0:  # maybe something like 4-5
                    page.new(Paragraph)
                if vertical_space(box.boxes.previous()) > 5:
                    page.new(Paragraph)

        print((pdf.median_box_width(threshold=0)))

예제 #4

파일 보기

파일: regeringen.py 프로젝트: h4ck3rm1k3/ferenda

 def parse_pdf(self, pdffile, intermediatedir):
     pdf = PDFReader()
     pdf.read(pdffile, intermediatedir)
     return pdf