def process(self):

        df_registro_defunciones = SQLUtil.readSparkDf(self.spark,
                                                      "registro_defunciones")
        df_comunidades_autonomas = SQLUtil.readSparkDf(
            self.spark, "comunidades_autonomas")
        df_mapeos = self.spark.read.load(self.mapeo_codigos,
                                         format="csv",
                                         sep=";",
                                         inferSchema="true",
                                         header="true")

        df_mapeos.head()

        df_mapeos.show(n=30)
        df_comunidades_autonomas.show(n=30)

        df_registro_defunciones.registerTempTable("registro_defunciones")
        df_comunidades_autonomas.registerTempTable("comunidades_autonomas")
        df_comunidades_autonomas\
                    .withColumn("latitud", df_comunidades_autonomas["latitud"].cast(FloatType()))\
                    .withColumn("longitud", df_comunidades_autonomas["longitud"].cast(FloatType()))
        df_mapeos.registerTempTable("mapeos")

        df_defunciones_con_coordenadas = self.sql.sql('''
        SELECT rd.*, ca.*
        FROM registro_defunciones rd
        JOIN mapeos map on rd.comunidad = map.nombre
        JOIN comunidades_autonomas ca on map.codigo = ca.codigo 
        ''')
        df_defunciones_con_coordenadas = df_defunciones_con_coordenadas.where(
            df_defunciones_con_coordenadas.fecha_defuncion >= self.fecha_corte)

        df_defunciones_con_coordenadas = df_defunciones_con_coordenadas\
            .withColumn("latitud", df_defunciones_con_coordenadas["latitud"].cast(FloatType()))\
            .withColumn("longitud", df_defunciones_con_coordenadas["longitud"].cast(FloatType()))

        SQLUtil.writeSparkDf(df_defunciones_con_coordenadas,
                             "registro_defunciones", True)
        df_registro_defunciones.unpersist(blocking=True)
 def process(self):
     
     df_lecturas = SQLUtil.readSparkDf(self.spark, "calidad_aire") 
     SQLUtil.writeSparkDf(df_lecturas, "calidad_aire", True)
     df_lecturas.unpersist(blocking=True)
Esempio n. 3
0
 def process(self):
     df_cotizaciones = SQLUtil.readSparkDf(self.spark, IBEX35DataProcessor.IBEX35_data_table)  
     SQLUtil.writeSparkDf(df_cotizaciones, "cotizaciones", True)
     df_cotizaciones.unpersist(blocking=True)
 def process(self):
     df_madrid_calle30 = SQLUtil.readSparkDf(self.spark, MadridCalle30DataProcessor.TABLA_TRAFICO_MC30)
     df_madrid_calle30 = df_madrid_calle30.where(df_madrid_calle30.Fecha >= self.fecha_corte)
     SQLUtil.writeSparkDf(df_madrid_calle30, MadridCalle30DataProcessor.TABLA_TRAFICO_MC30, True)
     df_madrid_calle30.unpersist(blocking=True)
Esempio n. 5
0
 def process(self):
     df_datos_covid = SQLUtil.readSparkDf(
         self.spark, WorldCovidProcessor.datos_covid_table)
     SQLUtil.writeSparkDf(df_datos_covid,
                          WorldCovidProcessor.datos_covid_table, True)
     df_datos_covid.unpersist(blocking=True)