Python pdfdata_to_text примеры использования

Язык программирования: Python

Пространство имен/Пакет: billy.utils.fulltext

Метод/Функция: pdfdata_to_text

Примеров на hotexamples.com: 23

Python pdfdata_to_text - 23 примеров найдено. Это лучшие примеры Python кода для billy.utils.fulltext.pdfdata_to_text, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

Файл: __init__.py Проект: chaddcw/openstates

def extract_text(doc, data):
    if doc['mimetype'] == 'text/html':
        doc = lxml.html.fromstring(data)
        text = doc.xpath('//div[@class="Section2"]')[0].text_content()
        return text
    else:
        return text_after_line_numbers(pdfdata_to_text(data))

Пример #2

Показать файл

def extract_text(doc, data):
    if doc['mimetype'] == 'text/html':
        doc = lxml.html.fromstring(data)
        text = doc.xpath('//div[@class="Section2"]')[0].text_content()
        return text
    else:
        return text_after_line_numbers(pdfdata_to_text(data))

Пример #3

Показать файл

Файл: __init__.py Проект: opencouncil/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    lines = text.splitlines()
    line_num_re = re.compile("\s*-\d+-")  # number:  -#-
    for i, line in enumerate(lines):
        if "LEGISLATIVE RESOLUTION" in line:
            break
    text = " ".join(line for line in lines[i:] if not line_num_re.match(line))
    return text

Пример #4

Показать файл

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    lines = text.splitlines()
    line_num_re = re.compile('\s*-\d+-')  # number:  -#-
    for i, line in enumerate(lines):
        if 'LEGISLATIVE RESOLUTION' in line:
            break
    text = ' '.join(line for line in lines[i:] if not line_num_re.match(line))
    return text

Пример #5

Показать файл

Файл: __init__.py Проект: Akumbar/openstates

def extract_text(oyster_doc, data):
    if oyster_doc['metadata']['mimetype'] == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))

Пример #6

Показать файл

Файл: __init__.py Проект: 4bic/open_county

def extract_text(doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line)).decode('utf8')

Пример #7

Показать файл

def extract_text(oyster_doc, data):
    return text_after_line_numbers(pdfdata_to_text(data))

Пример #8

Показать файл

Файл: __init__.py Проект: grgcombs/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text)

Пример #9

Показать файл

def extract_text(oyster_doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line))

Пример #10

Показать файл

Файл: __init__.py Проект: unixcrh/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text).encode('ascii', 'ignore')

Пример #11

Показать файл

Файл: __init__.py Проект: schlos/openstates

def extract_text(doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line)).decode('utf8')

Пример #12

Показать файл

Файл: __init__.py Проект: opencouncil/openstates

def extract_text(doc, data):
    is_pdf = doc["mimetype"] == "application/pdf" or doc["url"].endswith(".pdf")
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))

Пример #13

Показать файл

Файл: __init__.py Проект: JoeGermuska/openstates

def extract_text(doc, data):
    if doc["mimetype"] == "application/pdf":
        return text_after_line_numbers(pdfdata_to_text(data))

Пример #14

Показать файл

Файл: __init__.py Проект: erinspace/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text).encode('ascii', 'ignore')

Пример #15

Показать файл

Файл: __init__.py Проект: NateV/openstates

def extract_text(doc, data):
    is_pdf = (doc['mimetype'] == 'application/pdf' or
              doc['url'].endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))

Пример #16

Показать файл

Файл: __init__.py Проект: unixcrh/openstates

def extract_text(doc, data):
    lines = pdfdata_to_text(data).splitlines()
    no_big_indent = re.compile('^\s{0,10}\S')
    text = '\n'.join(line for line in lines if no_big_indent.match(line))
    return text

Пример #17

Показать файл

def extract_text(doc, data):
    is_pdf = (doc['mimetype'] == 'application/pdf'
              or doc['url'].endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))

Пример #18

Показать файл

Файл: __init__.py Проект: schlos/openstates

def extract_text(doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text)

Пример #19

Показать файл

Файл: __init__.py Проект: Asparagirl/openstates

def extract_text(doc, data):
    return text_after_line_numbers(pdfdata_to_text(data))

Пример #20

Показать файл

Файл: __init__.py Проект: JT5D/openstates

def extract_text(oyster_doc, data):
    return ' '.join(line for line in pdfdata_to_text(data).splitlines()
                    if re.findall('[a-z]', line))

Пример #21

Показать файл

def extract_text(doc, data):
    if doc['mimetype'] == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))

Пример #22

Показать файл

Файл: __init__.py Проект: shifter/openstates

def extract_text(doc, data):
    return " ".join(line for line in pdfdata_to_text(data).splitlines() if re.findall("[a-z]", line))

Пример #23

Показать файл

Файл: __init__.py Проект: sharonstern/openstates

def extract_text(oyster_doc, data):
    lines = pdfdata_to_text(data).splitlines()
    no_big_indent = re.compile("^\s{0,10}\S")
    text = "\n".join(line for line in lines if no_big_indent.match(line))
    return text