Python pdfdata_to_text 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: billy.fulltext

메소드/함수: pdfdata_to_text

hotexamples.com에서의 예제들: 15

Python pdfdata_to_text - 15개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 billy.fulltext.pdfdata_to_text에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def extract_text(oyster_doc, data):
    text = pdfdata_to_text(data)
    lines = text.splitlines()
    line_num_re = re.compile('\s*-\d+-')  # number:  -#-
    for i, line in enumerate(lines):
        if 'LEGISLATIVE RESOLUTION' in line:
            break
    text = ' '.join(line for line in lines[i:] if not line_num_re.match(line))
    return text

예제 #2

파일 보기

파일: __init__.py 프로젝트: BrandonLewis/openstates

def extract_text(oyster_doc, data):
    text = pdfdata_to_text(data)
    lines = text.splitlines()
    line_num_re = re.compile('\s*-\d+-')  # number:  -#-
    for i, line in enumerate(lines):
        if 'LEGISLATIVE RESOLUTION' in line:
            break
    text = ' '.join(line for line in lines[i:]
                    if not line_num_re.match(line))
    return text

예제 #3

파일 보기

파일: __init__.py 프로젝트: ritchiewilson/openstates

def extract_text(oyster_doc, data):
    if oyster_doc["metadata"]["mimetype"] == "application/pdf":
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #4

파일 보기

파일: __init__.py 프로젝트: apd3691/openstates

def extract_text(oyster_doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text)

예제 #5

파일 보기

def extract_text(oyster_doc, data):
    return text_after_line_numbers(pdfdata_to_text(data))

예제 #6

파일 보기

파일: __init__.py 프로젝트: annerajb/openstates

def extract_text(oyster_doc, data):
    if oyster_doc['metadata']['mimetype'] == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #7

파일 보기

def extract_text(oyster_doc, data):
    if oyster_doc['metadata']['mimetype'] == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #8

파일 보기

파일: __init__.py 프로젝트: BrandonLewis/openstates

def extract_text(oyster_doc, data):
    lines = pdfdata_to_text(data).splitlines()
    no_big_indent = re.compile('^\s{0,10}\S')
    text = '\n'.join(line for line in lines if no_big_indent.match(line))
    return text

예제 #9

파일 보기

파일: __init__.py 프로젝트: BrandonLewis/openstates

def extract_text(oyster_doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line))

예제 #10

파일 보기

파일: __init__.py 프로젝트: annerajb/openstates

def extract_text(oyster_doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text).encode('ascii', 'ignore')

예제 #11

파일 보기

파일: __init__.py 프로젝트: rzar/openstates

def extract_text(oyster_doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text).encode('ascii', 'ignore')

예제 #12

파일 보기

def extract_text(oyster_doc, data):
    lines = pdfdata_to_text(data).splitlines()
    no_big_indent = re.compile('^\s{0,10}\S')
    text = '\n'.join(line for line in lines if no_big_indent.match(line))
    return text

예제 #13

파일 보기

파일: __init__.py 프로젝트: BrandonLewis/openstates

def extract_text(oyster_doc, data):
    is_pdf = (oyster_doc['metadata']['mimetype'] == 'application/pdf' or
              oyster_doc['url'].endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))

예제 #14

파일 보기

파일: __init__.py 프로젝트: annerajb/openstates

def extract_text(oyster_doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line))

예제 #15

파일 보기

파일: __init__.py 프로젝트: annerajb/openstates

def extract_text(oyster_doc, data):
    is_pdf = (oyster_doc['metadata']['mimetype'] == 'application/pdf'
              or oyster_doc['url'].endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))