A medida que la tecnología y los servicios informáticos han ido evolucionando, nos hemos percatado del gran valor que tienen los datos que estos generan para ayudar a plantear las aplicaciones de una forma más eficiente. Es por ello por lo que, hoy en día, la gran mayoría de empresas dispone de herramientas capaces de analizar cantidades masivas de datos en busca de información valiosa que les ayude a comercializar sus servicios. Para ello es necesario disponer de plataformas especializadas para aplicar técnicas de Big Data, como es el caso de Spark, que dispone de una serie de librerías con diversas funciones relacionadas con el aprendizaje automático.
Por lo tanto, el objetivo de esta práctica consiste en resolver un problema de clasificación en función de seis variables asignadas de forma particular a cada alumno, haciendo uso de la biblioteca MLLib para el tratamiento de datos y aprendizaje que dispone Spark. Asimismo, como el dataset es de un tamaño sumamente considerable, las operaciones anteriores se realizarán sobre Hadoop, utilizando los clusters asignados para los estudiantes. Para ello también disponemos del sistema de ficheros HDFS con el que trabaja Spark para administrar y operar con grandes volúmenes de datos.