psicrawler

This tool will crawl various news websites, extract article data, the article's topics or tags, and create an XML-based corpus

Requirements

python v3 is required to run this tool

Installation

$ git clone https://github.com/psiopic2/psicrawler.git
$ cd psicrawler
$ virtualenv -p python3 env
$ source env/bin/activate
$ pip install -r requirements/psicrawler.txt

Available crawl jobs

wikinews-en
telegraph-archives

Start a job

$ scrapy crawl wikinews-en

Output

Files are stored in the directory xmlfiles.

Each XML looks like so:

<?xml version="1.0" encoding="utf-8"?>
<document>
  <title></title>
  <topics>
    <topic></topic>
    ...
    <topic></topic>
  </topics>
  <url></url>
  <source></source>
  <text><?[CDATA[ ]]></text>
</document>

Tools

analyze.py

This tool can tell you some statistics about your xml corpus.

$ ./analyze.py --stats

Lists various statistical information about the corpus

$ ./analyze.py --stats --source=wikinews-en

Lists the same statistics, but only for a specific source/crawl job

$ ./analyze.py --topic=Disasters

Lists URLs that are associated with the topic Disasters

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
build-scripts		build-scripts
psicrawler		psicrawler
requirements		requirements
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
analyze.py		analyze.py
clean.sh		clean.sh
coverage.ini		coverage.ini
pytest.ini		pytest.ini
scrapy.cfg		scrapy.cfg
setup.py		setup.py
sonar-project.properties		sonar-project.properties
tox.ini		tox.ini

License

psiopic2/psicrawler

Folders and files

Latest commit

History

Repository files navigation

psicrawler

Requirements

Installation

Available crawl jobs

Start a job

Output

Tools

analyze.py

About

Resources

License

Stars

Watchers

Forks

Languages