Skip to content

egalkin/WebScraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 

Repository files navigation

WebScraper

Scraps vacancies from job aggregators

Перед работой со Scraper запустите в докере ElasticSearch и отдельно StatisticCollector

Записи хранятся в двух индексах log и hh. В log сохраняются данные об изменении ответов по url.
В hh хранится связь url-response. Дубликатов не будет, так как за id берется хэш от строки представляющей ответ + url.
В то же время если по двум url нам выдастся одна вакансия, мы посчитаем это за две разные благодаря участию url в хэширование.
Сбор статистики реализован на основе паттерна Observer. При создании или обновлении иформации в log обсерверу посылается пост запрос и он сохраняет новые данные.
Пути обсервера приведены в README.md репозитория StatisticCollector.

About

Scraps vacancies from job aggregators

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published