Python pdfdata_to_text Examples

Programming Language: Python

Namespace/Package Name: utils.sunlight_utils

Method/Function: pdfdata_to_text

Examples at hotexamples.com: 11

Python pdfdata_to_text - 11 examples found. These are the top rated real world Python examples of utils.sunlight_utils.pdfdata_to_text extracted from open source projects. You can rate examples to help us improve the quality of examples.

Example #1

Show file

def az_text_extractor(mimetype, doc_source):
    if mimetype == 'text/html':
        doc = lxml.html.fromstring(doc_source)
        text = doc.xpath('//div[@class="Section2"]')[0].text_content()
        return text
    else:
        return text_after_line_numbers(pdfdata_to_text(doc_source))

Example #2

Show file

def ar_text_extractor(doc_source):
    return text_after_line_numbers(pdfdata_to_text(doc_source))

Example #3

Show file

def in_text_extractor(doc_source):
    text = pdfdata_to_text(doc_source)
    return text_after_line_numbers(text)

Example #4

Show file

def dc_text_extractor(doc_source):
    lines = pdfdata_to_text(doc_source).splitlines()
    no_big_indent = re.compile('^\s{0,10}\S')
    text = '\n'.join(line for line in lines if no_big_indent.match(line))
    return text

Example #5

Show file

def wi_text_extractor(mimetype, url, data):
    is_pdf = (mimetype == 'application/pdf' or
              url.endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))

Example #6

Show file

def wy_text_extractor(doc_source):
    return ' '.join(line for line in pdfdata_to_text(doc_source).splitlines()
                    if re.findall('[a-z]', line))

Example #7

Show file

def ut_text_extractor(mimetype, data):
    if mimetype == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))

Example #8

Show file

def tn_text_extractor(data_source):
    return ' '.join(line for line in pdfdata_to_text(data_source).splitlines()
                    if re.findall('[a-z]', line)).decode('utf8')

Example #9

Show file

def ne_text_extractor(doc_source):
    text = pdfdata_to_text(doc_source)
    return text

Example #10

Show file

def mo_text_extractor(doc_source):
    text = pdfdata_to_text(doc_source)
    return text_after_line_numbers(text).encode('ascii', 'ignore')

Example #11

Show file

def hi_text_extractor(mimetype, doc_source):
    if mimetype == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(doc_source))
    else:
        return None