Python Scrapper usando Selenuim y mongoDB

Scrapper de información y almacenamiento en base de datos

El scrapper está construido en Python utilizando Flask. La base de datos es NoSQL y basada en documentos, mongoDB. El scrapper se desarrolló utilizando Selenium, un software que nos ayuda a navegar por la web simulando un navegador.

Requerimentos

- Git
- Python 3>
- Virtualenv
- Google ChromeDriver

Instalación

Clonar el repositorio y crear un entorno virtual para ahí instalar las librerías necesarias para que funcione el programa.

git clone https://github.com/dcamhi/workyCharactersScrapper.git
cd workyCharactersScrapper
virtualenv envScrapper
source ../envScrapper/bin/activate
pip install -r requirements.txt
touch .env
python manage.py runserver

A continuación se describen los archivos del proyecto.

/config.py

Configuración de variables de ambiente, se necesitan las siguientes variables en el .env:

DEBUG_VAR = os.environ.get("DEBUG_VAR")
dbName = os.environ.get("dbName")
dbUrl = os.environ.get("dbUrl")

/settings.py

Configuración de flask

/manage.py

Creación de la aplicación de flask y encendido de el servidor con el ambiente predefinido

debug = config.DEBUG
host = os.getenv('IP', '0.0.0.0')
port = int(os.getenv('PORT', 8080))

app = create_app(debug)
manager = Manager(app)

manager.add_command("ci", CICommand(settings))
manager.add_command("runserver", Server(
    use_debugger=debug,
    use_reloader=debug,
    host=host,
    port=port
))

/application.py

Definición de la aplicación, los blueprints y las rutas

app.register_blueprint(characters_app, url_prefix="/api/v1/")

#la ruta del scrapper se encuentra en:
#localhost:8080/api/v1/characters

characters/api.py

Aquí se encuentra el código del scrapper como tal.

Ver el código (todo está comentado y documentado)

Para dudas contactar a david.camhi26@gmail.com

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
characters		characters
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
app.yaml		app.yaml
application.py		application.py
config.py		config.py
manage.py		manage.py
requirements.txt		requirements.txt
settings.py		settings.py

dcamhi/workyCharactersScrapper

Folders and files

Latest commit

History

Repository files navigation