Python pdfdata_to_text 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: billy.utils.fulltext

메소드/함수: pdfdata_to_text

hotexamples.com에서의 예제들: 23

Python pdfdata_to_text - 23개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 billy.utils.fulltext.pdfdata_to_text에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: __init__.py 프로젝트: chaddcw/openstates

def extract_text(doc, data):
    if doc['mimetype'] == 'text/html':
        doc = lxml.html.fromstring(data)
        text = doc.xpath('//div[@class="Section2"]')[0].text_content()
        return text
    else:
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #2

파일 보기

def extract_text(doc, data):
    if doc['mimetype'] == 'text/html':
        doc = lxml.html.fromstring(data)
        text = doc.xpath('//div[@class="Section2"]')[0].text_content()
        return text
    else:
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #3

파일 보기

파일: __init__.py 프로젝트: opencouncil/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    lines = text.splitlines()
    line_num_re = re.compile("\s*-\d+-")  # number:  -#-
    for i, line in enumerate(lines):
        if "LEGISLATIVE RESOLUTION" in line:
            break
    text = " ".join(line for line in lines[i:] if not line_num_re.match(line))
    return text

예제 #4

파일 보기

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    lines = text.splitlines()
    line_num_re = re.compile('\s*-\d+-')  # number:  -#-
    for i, line in enumerate(lines):
        if 'LEGISLATIVE RESOLUTION' in line:
            break
    text = ' '.join(line for line in lines[i:] if not line_num_re.match(line))
    return text

예제 #5

파일 보기

파일: __init__.py 프로젝트: Akumbar/openstates

def extract_text(oyster_doc, data):
    if oyster_doc['metadata']['mimetype'] == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #6

파일 보기

파일: __init__.py 프로젝트: 4bic/open_county

def extract_text(doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line)).decode('utf8')

예제 #7

파일 보기

def extract_text(oyster_doc, data):
    return text_after_line_numbers(pdfdata_to_text(data))

예제 #8

파일 보기

파일: __init__.py 프로젝트: grgcombs/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text)

예제 #9

파일 보기

def extract_text(oyster_doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line))

예제 #10

파일 보기

파일: __init__.py 프로젝트: unixcrh/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text).encode('ascii', 'ignore')

예제 #11

파일 보기

파일: __init__.py 프로젝트: schlos/openstates

def extract_text(doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line)).decode('utf8')

예제 #12

파일 보기

파일: __init__.py 프로젝트: opencouncil/openstates

def extract_text(doc, data):
    is_pdf = doc["mimetype"] == "application/pdf" or doc["url"].endswith(".pdf")
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #13

파일 보기

파일: __init__.py 프로젝트: JoeGermuska/openstates

def extract_text(doc, data):
    if doc["mimetype"] == "application/pdf":
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #14

파일 보기

파일: __init__.py 프로젝트: erinspace/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text).encode('ascii', 'ignore')

예제 #15

파일 보기

파일: __init__.py 프로젝트: NateV/openstates

def extract_text(doc, data):
    is_pdf = (doc['mimetype'] == 'application/pdf' or
              doc['url'].endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #16

파일 보기

파일: __init__.py 프로젝트: unixcrh/openstates

def extract_text(doc, data):
    lines = pdfdata_to_text(data).splitlines()
    no_big_indent = re.compile('^\s{0,10}\S')
    text = '\n'.join(line for line in lines if no_big_indent.match(line))
    return text

예제 #17

파일 보기

def extract_text(doc, data):
    is_pdf = (doc['mimetype'] == 'application/pdf'
              or doc['url'].endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #18

파일 보기

파일: __init__.py 프로젝트: schlos/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text)

예제 #19

파일 보기

파일: __init__.py 프로젝트: Asparagirl/openstates

def extract_text(doc, data):
    return text_after_line_numbers(pdfdata_to_text(data))

예제 #20

파일 보기

파일: __init__.py 프로젝트: JT5D/openstates

def extract_text(oyster_doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line))

예제 #21

파일 보기

def extract_text(doc, data):
    if doc['mimetype'] == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #22

파일 보기

파일: __init__.py 프로젝트: shifter/openstates

def extract_text(doc, data):
    return " ".join(line for line in pdfdata_to_text(data).splitlines() if re.findall("[a-z]", line))

예제 #23

파일 보기

파일: __init__.py 프로젝트: sharonstern/openstates

def extract_text(oyster_doc, data):
    lines = pdfdata_to_text(data).splitlines()
    no_big_indent = re.compile("^\s{0,10}\S")
    text = "\n".join(line for line in lines if no_big_indent.match(line))
    return text