def process(self): df_registro_defunciones = SQLUtil.readSparkDf(self.spark, "registro_defunciones") df_comunidades_autonomas = SQLUtil.readSparkDf( self.spark, "comunidades_autonomas") df_mapeos = self.spark.read.load(self.mapeo_codigos, format="csv", sep=";", inferSchema="true", header="true") df_mapeos.head() df_mapeos.show(n=30) df_comunidades_autonomas.show(n=30) df_registro_defunciones.registerTempTable("registro_defunciones") df_comunidades_autonomas.registerTempTable("comunidades_autonomas") df_comunidades_autonomas\ .withColumn("latitud", df_comunidades_autonomas["latitud"].cast(FloatType()))\ .withColumn("longitud", df_comunidades_autonomas["longitud"].cast(FloatType())) df_mapeos.registerTempTable("mapeos") df_defunciones_con_coordenadas = self.sql.sql(''' SELECT rd.*, ca.* FROM registro_defunciones rd JOIN mapeos map on rd.comunidad = map.nombre JOIN comunidades_autonomas ca on map.codigo = ca.codigo ''') df_defunciones_con_coordenadas = df_defunciones_con_coordenadas.where( df_defunciones_con_coordenadas.fecha_defuncion >= self.fecha_corte) df_defunciones_con_coordenadas = df_defunciones_con_coordenadas\ .withColumn("latitud", df_defunciones_con_coordenadas["latitud"].cast(FloatType()))\ .withColumn("longitud", df_defunciones_con_coordenadas["longitud"].cast(FloatType())) SQLUtil.writeSparkDf(df_defunciones_con_coordenadas, "registro_defunciones", True) df_registro_defunciones.unpersist(blocking=True)
def process(self): df_lecturas = SQLUtil.readSparkDf(self.spark, "calidad_aire") SQLUtil.writeSparkDf(df_lecturas, "calidad_aire", True) df_lecturas.unpersist(blocking=True)
def process(self): df_cotizaciones = SQLUtil.readSparkDf(self.spark, IBEX35DataProcessor.IBEX35_data_table) SQLUtil.writeSparkDf(df_cotizaciones, "cotizaciones", True) df_cotizaciones.unpersist(blocking=True)
def process(self): df_madrid_calle30 = SQLUtil.readSparkDf(self.spark, MadridCalle30DataProcessor.TABLA_TRAFICO_MC30) df_madrid_calle30 = df_madrid_calle30.where(df_madrid_calle30.Fecha >= self.fecha_corte) SQLUtil.writeSparkDf(df_madrid_calle30, MadridCalle30DataProcessor.TABLA_TRAFICO_MC30, True) df_madrid_calle30.unpersist(blocking=True)
def process(self): df_datos_covid = SQLUtil.readSparkDf( self.spark, WorldCovidProcessor.datos_covid_table) SQLUtil.writeSparkDf(df_datos_covid, WorldCovidProcessor.datos_covid_table, True) df_datos_covid.unpersist(blocking=True)