Клонируем:
git clone https://github.com/vilnitskiy/MRO.git
cd MRO
Затем разворачиваем локально:
virtualenv .venv --no-site-packages
source .venv/bin/activate
pip install -r requirements.txt
cd mro
scrapy list
Все новые спайдеры должны быть в папке mro/spiders. Все csv файлы от заказчика должны быть в папке mro/spiders/csv_data, результаты сбора в mro/results.
TODO reminder:
- Вынести прокси в отдельную стратегию
- Навести порядок в utils
- Создать отдельные стратегии для разной скорости краулинга
- Создать отдельные стратегии с распространёнными юзерагентами