Skip to content

lidiasm/MPII-CC2-Spark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

78 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Cloud Computing

Práctica 4. Procesamiento y minería de datos en Big Data con Spark sobre plataformas cloud

Máster en Ingeniera Informática

A medida que la tecnología y los servicios informáticos han ido evolucionando, nos hemos percatado del gran valor que tienen los datos que estos generan para ayudar a plantear las aplicaciones de una forma más eficiente. Es por ello por lo que, hoy en día, la gran mayoría de empresas dispone de herramientas capaces de analizar cantidades masivas de datos en busca de información valiosa que les ayude a comercializar sus servicios. Para ello es necesario disponer de plataformas especializadas para aplicar técnicas de Big Data, como es el caso de Spark, que dispone de una serie de librerías con diversas funciones relacionadas con el aprendizaje automático.

Por lo tanto, el objetivo de esta práctica consiste en resolver un problema de clasificación en función de seis variables asignadas de forma particular a cada alumno, haciendo uso de la biblioteca MLLib para el tratamiento de datos y aprendizaje que dispone Spark. Asimismo, como el dataset es de un tamaño sumamente considerable, las operaciones anteriores se realizarán sobre Hadoop, utilizando los clusters asignados para los estudiantes. Para ello también disponemos del sistema de ficheros HDFS con el que trabaja Spark para administrar y operar con grandes volúmenes de datos.

About

Repositorio para la Práctica 4: Procesamiento y minería de datos en Big Data con Spark sobre plataformas cloud, de la asignatura Cloud Computing.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages