Skip to content

Provide OCR from tswin pdf year report. Then auto-type data to S-21 card. For secretary, who used tswin.

Notifications You must be signed in to change notification settings

sskriblo/tswin_s21_converter

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Применение программы.

1. Получить список контактов - есть в tswinr. На выходе файл contacts.txt - там фамилия и имя;
2. Создать файлы S-21, где уже фамилия и имя вручную вписаны. К сожалению, xte ужасно 
нестабильно работает с русским. Поэтому эта процедура не автоматизирована. Файлы будут лежать в папке
.../s21/
3. Сохранить pdf файл со всеми карточками за служебный год. Он будет называться S21-<year>-<month>-<date>.pdf
4. Программа ctocr.py будет переваривать этот файл. Ее надо доработать - она должна сохранить отчет в файл
 с именем s21-ocr-<year>-<month>-<date>.txt
5. программа, с именем xte_type_data.py впишет в карточки данные. Она будет иметь на входе данные
по одной карточке и имя pdf файла карточки.
6. Главная программа будет использовать факт,что имена файлов карточек и имена в ocr файле одинаковые. 
Главная программа находит отчет по одной карточке из ocr файла,ищет имя/фамилию, находит файл карточки и 
передает программе xte_type_data.py для вписывания.
7. У главной программы должен быть интерфейс пользователя (аргументы). Она должна принимать позицию и
служебный год.
8. Главная программа должна иметь логирование. Если не нашелся файл карточки с именем из ocr - записывается 
ошибка. Желательно также иметь проверку, все ли карточки заполнены?
9. Так как возможны редкие ошибки программы xte, то решение такое: делаем всю процедуру два раза с и
сравниваем контрольные суммы файлов карточек. Несовпадающие выявляем и исправляем вручную.

Итак, по шагам.
1. Генерируем большой PDF файл с отчетом за служебный год. На странице помещается 2 карточки, значит, 
порядка 50 страниц. Не знаю пока, справится ли ctocr.py сразу с таким файлом, надо попробовать. На 
карточку у него уходит примерно 65 секунд. Пробовал на 10 карточках. Еще проблема (баг) - pdf
файл надо располагать там же, где Python файл, не зна почему. Иначе ошибка.

Внимание, на тесте из 10 карточек у 7 карточек оказались неверно распознанные фамили/имена. 
Надо что то делать!! - "обучить OCR, увеличить разрешение?? Или искать только по фамилии? Или нестрогий поиск?
Еще, можно ввести аргумент - не делать печать pdf, а только искать имена файлов. Сразу будет видно, сколько 
и какие файлы не находятся. Типичные ошибки:
Натап ья
Бешпяга
Work Around: Courier New 10 Font for "text" at tswinr tested well!!

2. На предыдущем этапе рождается файл в рабочей директории (которая прописана в переменной PATH_WORK)
с именем s21-ocr.txt. Там лежит вся информация (цифры отчетов и там фамилии/имена)
ВНИМАНИЕ - переименовать файл, так как следующий запуск перетрет его!!
3. Вручную создается набор файлов S21 с именами типа <фамилия><пробел><имя>.pdf. Они пустые.
4. Запускается программа xte_type_data.py с параметрами. Один из параметров - имя файла s21-ocr.txt. 
В результате в файлы карточек записываются данные. Скорость работы примерно 30 секунд на карточку.
5. Если карточка не находится по имени/фамилии, то выдается ошибка в терминал 
(здесь надо бы добавить логирование).

About

Provide OCR from tswin pdf year report. Then auto-type data to S-21 card. For secretary, who used tswin.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages