Python PDFParser 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: amcat.scripts.article_upload.pdf

클래스/타입: PDFParser

hotexamples.com에서의 예제들: 4

Python PDFParser - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 amcat.scripts.article_upload.pdf.PDFParser에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PDFParser(2)

get_textlines(2)

load_document(2)

process_document(2)

예제 #1

파일 보기

파일: raw_pdf.py 프로젝트: BBie/amcat

 def _scrape_unit(self, _file):
     """unit: a pdf document"""
     res = ""
     parser = PDFParser()
     doc = parser.load_document(_file, self.options['pdf_password'])
     for page in parser.process_document(doc):
         page_txt = ""
         for line in parser.get_textlines(page):
             page_txt += line.get_text() + "\n"
         res += page_txt + "\n\n"
     article = Article(text = res)
     article.headline = self.getheadline(_file)
     article.medium = self.options['medium']
     article.section = self.options['section']
     if self.options['date']:
         article.date = self.options['date']
     else:
         article.date = date.today()
     yield article

예제 #2

파일 보기

파일: raw_pdf.py 프로젝트: isususi/amcat

 def _scrape_unit(self, _file):
     """unit: a pdf document"""
     res = ""
     parser = PDFParser()
     doc = parser.load_document(_file, self.options['pdf_password'])
     for page in parser.process_document(doc):
         page_txt = ""
         for line in parser.get_textlines(page):
             page_txt += line.get_text() + "\n"
         res += page_txt + "\n\n"
     article = Article(text=res)
     article.headline = self.getheadline(_file)
     article.medium = self.options['medium']
     article.section = self.options['section']
     if self.options['date']:
         article.date = self.options['date']
     else:
         article.date = date.today()
     yield article

예제 #3

파일 보기

    def _scrape_unit(self, unit):
        parser = PDFParser()
        self.index = []
        article_lines = []
        headline = ""
        doc = parser.load_document(self.options['file'])
        for i, p in enumerate(parser.process_document(doc)):
            #is this page an index page?
            index_pattern = re.compile("^[^\(]+\([^\)]+\)..+[0-9]+$")
            if any([
                    index_pattern.match(line.get_text())
                    for line in parser.get_textlines(p)
            ]):
                for line in parser.get_textlines(p):
                    pattern = re.compile(
                        "([^\(]+)(\([0-9]+\))? \(([^\)]+)\).+")
                    text = line.get_text()
                    result = pattern.search(text)
                    if result:
                        h = result.group(1)
                        m = result.group(3)
                        self.index.append((h, m))
                continue

            #if not, scrape lines on page for current article
            for line in parser.get_textlines(p):
                text = line.get_text()
                if text.lower().strip() in [
                        i[0].lower().strip() for i in self.index
                ]:

                    # title is recognized. yield old article, start new
                    if len(headline) > 0:
                        article = self.getarticle(headline, article_lines)
                        yield article

                    headline = text
                    article_lines = []

                article_lines.append(text)

            #last article
            yield self.getarticle(headline, article_lines)

예제 #4

파일 보기

파일: bzk_pdf.py 프로젝트: Institute-Web-Science-and-Technologies/westcat

    def _scrape_unit(self, unit):
        parser = PDFParser()
        self.index = []
        article_lines = []
        headline = ""
        doc = parser.load_document(self.options['file'])
        for i, p in enumerate(parser.process_document(doc)):
            #is this page an index page?
            index_pattern = re.compile("^[^\(]+\([^\)]+\)..+[0-9]+$")
            if any([index_pattern.match(line.get_text()) for line in parser.get_textlines(p)]):
                for line in parser.get_textlines(p):
                    pattern = re.compile("([^\(]+)(\([0-9]+\))? \(([^\)]+)\).+")
                    text = line.get_text()
                    result = pattern.search(text)
                    if result:
                        h = result.group(1); m = result.group(3)
                        self.index.append((h, m))
                continue

            #if not, scrape lines on page for current article
            for line in parser.get_textlines(p):
                text = line.get_text()
                if text.lower().strip() in [i[0].lower().strip() for i in self.index]:

                    # title is recognized. yield old article, start new
                    if len(headline) > 0:
                        article =  self.getarticle(headline, article_lines)
                        yield article
                        

                    headline = text
                    article_lines = []
                                
                article_lines.append(text)
                
            #last article
            yield self.getarticle(headline, article_lines)