Segunda práctica de la asignatura Tipología y ciclo de vida de los datos del máster de Data Science de la UOC (Universitat Oberta de Catalunya). El proyecto consiste en utilizar técnicas de data cleaning para preparar un dataset para poder resolver un problema, en este caso se ha realizado sobre el problema de Kaggle sobre los pasajeros del Titanic
El proyecto se ha realizado de forma individual por Xavi Medina Torregrosa
El código se encuentra en la carpeta src:
- App.py : Entry point del proyecto
- DataCleaning.py : Funciones necesarias para la limpieza de datos del dataset
- DataExploration.py : Funciones para explorar los datos del dataset
- DataImport.py: Funciones para cargar los dataset
- Prediction.py: Funciones para crear el modelo predictivo y ejecutarlo
El documento con las respuestas de la práctica se ecuentra en la carpeta pdf
El dataset se encuentra en la carpeta data
- train.csv : Dataset para entrenar el modelo
- test.csv : Dataset para probar el modelo
- solution.csv : Dataset resultante del modelo para subir a Kaggle
- cleaned_processed_data.csv : Dataset con los datos limpiados y normalizados
Código y dataset bajo licencia CC BY-NC-SA 4.0