GitHub - sskriblo/tswin_s21_converter: Provide OCR from tswin pdf year report. Then auto-type data to S-21 card. For secretary, who used tswin.

sskriblo / tswin_s21_converter Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

Provide OCR from tswin pdf year report. Then auto-type data to S-21 card. For secretary, who used tswin.

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
ReadMe.txt		ReadMe.txt
ctocr.py		ctocr.py
main.py		main.py
xte_auto_type.py		xte_auto_type.py
xte_type_data.py		xte_type_data.py

Repository files navigation

Применение программы.

1. Получить список контактов - есть в tswinr. На выходе файл contacts.txt - там фамилия и имя;
2. Создать файлы S-21, где уже фамилия и имя вручную вписаны. К сожалению, xte ужасно
нестабильно работает с русским. Поэтому эта процедура не автоматизирована. Файлы будут лежать в папке
.../s21/
3. Сохранить pdf файл со всеми карточками за служебный год. Он будет называться S21-<year>-<month>-<date>.pdf
4. Программа ctocr.py будет переваривать этот файл. Ее надо доработать - она должна сохранить отчет в файл
с именем s21-ocr-<year>-<month>-<date>.txt
5. программа, с именем xte_type_data.py впишет в карточки данные. Она будет иметь на входе данные
по одной карточке и имя pdf файла карточки.
6. Главная программа будет использовать факт,что имена файлов карточек и имена в ocr файле одинаковые.
Главная программа находит отчет по одной карточке из ocr файла,ищет имя/фамилию, находит файл карточки и
передает программе xte_type_data.py для вписывания.
7. У главной программы должен быть интерфейс пользователя (аргументы). Она должна принимать позицию и
служебный год.
8. Главная программа должна иметь логирование. Если не нашелся файл карточки с именем из ocr - записывается
ошибка. Желательно также иметь проверку, все ли карточки заполнены?
9. Так как возможны редкие ошибки программы xte, то решение такое: делаем всю процедуру два раза с и
сравниваем контрольные суммы файлов карточек. Несовпадающие выявляем и исправляем вручную.

Итак, по шагам.
1. Генерируем большой PDF файл с отчетом за служебный год. На странице помещается 2 карточки, значит,
порядка 50 страниц. Не знаю пока, справится ли ctocr.py сразу с таким файлом, надо попробовать. На
карточку у него уходит примерно 65 секунд. Пробовал на 10 карточках. Еще проблема (баг) - pdf
файл надо располагать там же, где Python файл, не зна почему. Иначе ошибка.

Внимание, на тесте из 10 карточек у 7 карточек оказались неверно распознанные фамили/имена.
Надо что то делать!! - "обучить OCR, увеличить разрешение?? Или искать только по фамилии? Или нестрогий поиск?
Еще, можно ввести аргумент - не делать печать pdf, а только искать имена файлов. Сразу будет видно, сколько
и какие файлы не находятся. Типичные ошибки:
Натап ья
Бешпяга
Work Around: Courier New 10 Font for "text" at tswinr tested well!!

2. На предыдущем этапе рождается файл в рабочей директории (которая прописана в переменной PATH_WORK)
с именем s21-ocr.txt. Там лежит вся информация (цифры отчетов и там фамилии/имена)
ВНИМАНИЕ - переименовать файл, так как следующий запуск перетрет его!!
3. Вручную создается набор файлов S21 с именами типа <фамилия><пробел><имя>.pdf. Они пустые.
4. Запускается программа xte_type_data.py с параметрами. Один из параметров - имя файла s21-ocr.txt.
В результате в файлы карточек записываются данные. Скорость работы примерно 30 секунд на карточку.
5. Если карточка не находится по имени/фамилии, то выдается ошибка в терминал
(здесь надо бы добавить логирование).