WebScraper

Scraps vacancies from job aggregators

Перед работой со Scraper запустите в докере ElasticSearch и отдельно StatisticCollector

Записи хранятся в двух индексах log и hh. В log сохраняются данные об изменении ответов по url.
В hh хранится связь url-response. Дубликатов не будет, так как за id берется хэш от строки представляющей ответ + url.
В то же время если по двум url нам выдастся одна вакансия, мы посчитаем это за две разные благодаря участию url в хэширование.
Сбор статистики реализован на основе паттерна Observer. При создании или обновлении иформации в log обсерверу посылается пост запрос и он сохраняет новые данные.
Пути обсервера приведены в README.md репозитория StatisticCollector.

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
bin		bin
scraper		scraper
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bin

bin

scraper

scraper

.gitignore

.gitignore

README.md

README.md

Repository files navigation

WebScraper

About

Releases

Packages

Languages

egalkin/WebScraper

Folders and files

Latest commit

History

Repository files navigation

WebScraper

About

Resources

Stars

Watchers

Forks

Languages