Python text_fragments примеры использования

Язык программирования: Python

Пространство имен/Пакет: extractors.util

Метод/Функция: text_fragments

Примеров на hotexamples.com: 3

Python text_fragments - 3 примера найдено. Это лучшие примеры Python кода для extractors.util.text_fragments, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

Файл: pdf.py Проект: pudo/extractors

def _convert_page(layout, path):
    text_content = []
    for text_obj in _find_objects(layout._objs, (LTTextBox, LTTextLine)):
        text_content.append(text_obj.get_text())

    text = text_fragments(text_content)
    # if len(text) < 2:
    #     if len(list(_find_objects(layout._objs, LTImage))):
    #         log.debug("Defaulting to OCR: %r, pg. %s", path, page_no)
    #         text = _extract_image_page(path, page_no, languages)
    return text

Пример #2

Показать файл

def _convert_page(layout, path):
    text_content = []
    for text_obj in _find_objects(layout._objs, (LTTextBox, LTTextLine)):
        text_content.append(text_obj.get_text())

    text = text_fragments(text_content)
    # if len(text) < 2:
    #     if len(list(_find_objects(layout._objs, LTImage))):
    #         log.debug("Defaulting to OCR: %r, pg. %s", path, page_no)
    #         text = _extract_image_page(path, page_no, languages)
    return text

Пример #3

Показать файл

Файл: pdf.py Проект: 01-/extractors

def _convert_page(layout, languages):
    text_content = []
    for text_obj in _find_objects(layout._objs, (LTTextBox, LTTextLine)):
        text_content.append(text_obj.get_text())

    text = text_fragments(text_content)
    if len(text) > 3:
        # TODO: invent a smarter way to decide whether to do OCR.
        return text

    for img_obj in _find_objects(layout._objs, LTImage):
        try:
            if img_obj.width < OCR_MIN_WIDTH or \
                    img_obj.height < OCR_MIN_HEIGHT:
                continue
            data = img_obj.stream.get_rawdata()
            img_text = extract_image_data(data, languages=languages)
            text_content.append(img_text)
        except Exception as ex:
            log.debug(ex)

    return text_fragments(text_content)