pdf-search

A pipelined project for extracting text from PDFs.

This is currently a rough prototype.

Technologies used: -Tika 1.8.8 -Scikit-image 0.11.3 -Ghostscript -Tesseract 3.02.02

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
PdfTextDeleter.jar		PdfTextDeleter.jar
README.md		README.md
example.config.txt		example.config.txt
pdf_text_extractor.py		pdf_text_extractor.py

Provide feedback