def leer_todo(self): kiosco = Kiosco() print("leyendo '" + self.etiqueta + "'...") tag_regexp = re.compile(r'<[^>]+>') entradas = [] url_feed_template = self.feeds['todo'] + "&start=" index = 0 feed = fp.parse(url_feed_template + str(index)) while len(feed.entries) > 0: entradas.extend(feed.entries) index += 40 feed = fp.parse(url_feed_template + str(index)) urls_existentes = kiosco.urls(diario = self.etiqueta) for entrada in entradas: titulo = entrada.title texto = bs(re.sub(tag_regexp,' ',entrada.summary), features="lxml").text fecha = dateutil.parser.parse(entrada.published) url = entrada.link if url in urls_existentes: continue self.noticias.append(Noticia(fecha=fecha, url=url, diario=self.etiqueta, seccion='todo', titulo=titulo, texto=self.limpiar_texto(texto)))
def test_urls(self): k = Kiosco() fecha = datetime.datetime(year=2020, month=8, day=26) #fecha = {'desde' : datetime.datetime(year = 2020, month = 8, day = 22), 'hasta' : datetime.datetime(year = 2020, month = 8, day = 24)} #seccion = ['economia', 'internacional'] urls = k.urls(diario='clarin') urls