prawler

Prawler scrapes product data from sites into JSON files.

Install

pip install -r requirements.txt

Site config files

Prawler uses CSS selectors to recognize and scrape product pages from each site. To add a new site, create a JSON file with the following structure:

{
  "domain": "localhost",
  "selectors": {
    "name": "span#name",
    "number": "span#number",
    "image": "div#left div img",
    "description": "div#description p"
  }
}

Usage

./crawl.py example-sites

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
example-sites		example-sites
prawler		prawler
test		test
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
aws-deploy.sh		aws-deploy.sh
crawl.py		crawl.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

example-sites

example-sites

prawler

prawler

test

test

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

aws-deploy.sh

aws-deploy.sh

crawl.py

crawl.py

requirements.txt

requirements.txt

scrapy.cfg

scrapy.cfg

Repository files navigation

prawler

Install

Site config files

Usage

About

Releases

Packages

Languages

License

jlamontagne/prawler

Folders and files

Latest commit

History

Repository files navigation

prawler

Install

Site config files

Usage

About

Resources

License

Stars

Watchers

Forks

Languages