-
Notifications
You must be signed in to change notification settings - Fork 0
sskriblo/tswin_s21_converter
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
Применение программы. 1. Получить список контактов - есть в tswinr. На выходе файл contacts.txt - там фамилия и имя; 2. Создать файлы S-21, где уже фамилия и имя вручную вписаны. К сожалению, xte ужасно нестабильно работает с русским. Поэтому эта процедура не автоматизирована. Файлы будут лежать в папке .../s21/ 3. Сохранить pdf файл со всеми карточками за служебный год. Он будет называться S21-<year>-<month>-<date>.pdf 4. Программа ctocr.py будет переваривать этот файл. Ее надо доработать - она должна сохранить отчет в файл с именем s21-ocr-<year>-<month>-<date>.txt 5. программа, с именем xte_type_data.py впишет в карточки данные. Она будет иметь на входе данные по одной карточке и имя pdf файла карточки. 6. Главная программа будет использовать факт,что имена файлов карточек и имена в ocr файле одинаковые. Главная программа находит отчет по одной карточке из ocr файла,ищет имя/фамилию, находит файл карточки и передает программе xte_type_data.py для вписывания. 7. У главной программы должен быть интерфейс пользователя (аргументы). Она должна принимать позицию и служебный год. 8. Главная программа должна иметь логирование. Если не нашелся файл карточки с именем из ocr - записывается ошибка. Желательно также иметь проверку, все ли карточки заполнены? 9. Так как возможны редкие ошибки программы xte, то решение такое: делаем всю процедуру два раза с и сравниваем контрольные суммы файлов карточек. Несовпадающие выявляем и исправляем вручную. Итак, по шагам. 1. Генерируем большой PDF файл с отчетом за служебный год. На странице помещается 2 карточки, значит, порядка 50 страниц. Не знаю пока, справится ли ctocr.py сразу с таким файлом, надо попробовать. На карточку у него уходит примерно 65 секунд. Пробовал на 10 карточках. Еще проблема (баг) - pdf файл надо располагать там же, где Python файл, не зна почему. Иначе ошибка. Внимание, на тесте из 10 карточек у 7 карточек оказались неверно распознанные фамили/имена. Надо что то делать!! - "обучить OCR, увеличить разрешение?? Или искать только по фамилии? Или нестрогий поиск? Еще, можно ввести аргумент - не делать печать pdf, а только искать имена файлов. Сразу будет видно, сколько и какие файлы не находятся. Типичные ошибки: Натап ья Бешпяга Work Around: Courier New 10 Font for "text" at tswinr tested well!! 2. На предыдущем этапе рождается файл в рабочей директории (которая прописана в переменной PATH_WORK) с именем s21-ocr.txt. Там лежит вся информация (цифры отчетов и там фамилии/имена) ВНИМАНИЕ - переименовать файл, так как следующий запуск перетрет его!! 3. Вручную создается набор файлов S21 с именами типа <фамилия><пробел><имя>.pdf. Они пустые. 4. Запускается программа xte_type_data.py с параметрами. Один из параметров - имя файла s21-ocr.txt. В результате в файлы карточек записываются данные. Скорость работы примерно 30 секунд на карточку. 5. Если карточка не находится по имени/фамилии, то выдается ошибка в терминал (здесь надо бы добавить логирование).
About
Provide OCR from tswin pdf year report. Then auto-type data to S-21 card. For secretary, who used tswin.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published