Este proyeco ha sido desarrollado como solución a "Práctica 1: Web Scraping" de la asignatura Tipología y ciclo de vida de los datos, que pertenece al Máster de Ciencia de Datos de la Universitat Politècnica de Catalunya.
Se ha realizado web scraping sobre el catálogo de Computadoras y Tablets de Amazon para crear un conjunto de datos que permita realizar price tracking sobre dichos productos.
El proyecto ha sido llevado a cabo por Javier Samir Rey e Irene López Ruiz.
-
input_data
. Contiene el archivourls_to_scrape.csv
con la URL sobre la que empezar el scraping. -
output_data
. Carpeta donde se guardan los resultados del scraping. Contiene una carpeta con la fecha en la que se realizó el scraping. Dentro de ella se encuentran:-
scraped_urls_data.csv
. Archivo CSV con las URL de todos los productos que se han analizado. -
product_complete_data.csv
. Dataset resultante con los datos para realizar el price tracking. -
\log
. Carpeta con ficheros JSON auxiliares para realizar el proceso.
-
-
python
. Carpeta con la instalación de Python 3.8. Es importante no modificar esta carpeta.
-
DocumentacionProyecto.pdf
. Archivo PDF con una descripción detallada del dataset. -
config.json
. Archivo con las configuraciones necesarias para realizar el scraping. Para más información, consultarDocumentacionProyecto.pdf
. -
main.py
. Inicia y realiza todo el proceso de scraping. Para más información, consultarDocumentacionProyecto.pdf
. -
interface_class.py
. Clase que implementa métodos auxiliares para realizar las peticiones HTTP que se utilizan en el archivo principalmain.py
. -
helper_class.py
. Clase que implementa métodos auxiliares de lectura, escritura y listado de archivos que se utilizan en el archivo principalmain.py
. -
start.bat
. Archivo Batch que llama a la ejecución del scraping. Para comenzar el proceso solo se necesita descargar todo este repositorio y hacer doble click en este archivo. Para más información, consultarDocumentacionProyecto.pdf
.