Example #1
0
    def parse_article(self, response):
        link = response.url
        titulo = response.css("h1.entry-title::text").extract_first()
        dataPublicacao = self.data_parse(
            response.css("time.entry-date::attr(datetime)").extract_first())

        conteudo = ""
        result = response.css("div.entry-content h1::text").extract_first()
        if result is not None:
            conteudo += result

        for p in response.css("div.entry-content h3"):
            result = p.css("h3 ::text").extract_first()
            if result is not None:
                conteudo += "\n" + result

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(titulo=titulo,
                                       descritores=descritores,
                                       midias=midias,
                                       fonte=fonte,
                                       grupoAcesso=grupoAcesso,
                                       conteudo=conteudo,
                                       link=link,
                                       dataPublicacao=dataPublicacao)
        yield notice
Example #2
0
    def parse_article(self, response):

        link = response.url
        titulo = response.css("h1::text").extract_first('') + response.css(
            "h1 a::text").extract_first('')
        dataPublicacao = self.data_parse(
            response.css('time.time::attr(datetime)').extract_first())

        conteudo = ""

        for p in response.css("article"):
            conteudo = conteudo+"\n" + \
                p.xpath("//p/span/text()").extract_first('') + \
                p.xpath("//p/text()").extract_first('') +\
                p.xpath('//div/p/text()').extract_first('')

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(titulo=titulo,
                                       descritores=descritores,
                                       midias=midias,
                                       fonte=fonte,
                                       grupoAcesso=grupoAcesso,
                                       conteudo=conteudo,
                                       link=link,
                                       dataPublicacao=dataPublicacao)

        yield notice
Example #3
0
    def parse_article(self, response):

        link = response.url
        titulo = response.css("h1.featured-title::text").extract_first(
            '') + response.css("h5::text").extract_first('')
        dataPublicacao = self.data_parse(
            response.css("span.text-muted::text").extract_first()
        ) or self.data_parse(response.css("h6 i::text").extract_first())

        sep = ','
        conteudo = sep.join(response.css('div.content-block p::text').getall())

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(titulo=titulo,
                                       descritores=descritores,
                                       midias=midias,
                                       fonte=fonte,
                                       grupoAcesso=grupoAcesso,
                                       conteudo=conteudo,
                                       link=link,
                                       dataPublicacao=dataPublicacao)

        yield notice
Example #4
0
    def parse_article(self, response):

        link = response.url
        titulo = response.css("h3.outstanding-title::text").extract_first()
        dataPublicacao = self.data_parse(
            response.css("span.documentPublished span::text").getall()
            [1].split()[0])
        try:
            conteudo = ""
            for p in response.css("div.cell p"):
                conteudo = conteudo + "\n" + p.css("p ::text").extract_first()
        except:
            lista_conteudo = response.css("div.row div.cell::text").extract()
            for p in lista_conteudo:
                conteudo += p

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(titulo=titulo,
                                       descritores=descritores,
                                       midias=midias,
                                       fonte=fonte,
                                       grupoAcesso=grupoAcesso,
                                       conteudo=conteudo,
                                       link=link,
                                       dataPublicacao=dataPublicacao)

        yield notice
    def parse_article(self, response):
        link = response.url
        titulo = response.css("div.noticia h1::text").extract_first()
        dataPublicacao = self.data_parse(
            response.css("div.noticia h2::text").extract_first())

        conteudo = ""
        for p in response.css("div.texto "):
            result = p.css("p span::text").extract_first()
            if result is not None:
                conteudo += "\n" + result

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(titulo=titulo,
                                       descritores=descritores,
                                       midias=midias,
                                       fonte=fonte,
                                       grupoAcesso=grupoAcesso,
                                       conteudo=conteudo,
                                       link=link,
                                       dataPublicacao=dataPublicacao)

        yield notice
Example #6
0
    def parse_article(self, response):
        link = response.url
        titulo = response.css("h1::text").extract_first()
        dataPublicacao = self.data_parse(
            response.css("div.jeg_meta_date a::text").extract_first())
        conteudo = ""
        for p in response.css("div.content-inner p"):
            conteudo = conteudo + "\n" + p.css("p ::text").extract_first()

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(titulo=titulo,
                                       descritores=descritores,
                                       midias=midias,
                                       fonte=fonte,
                                       grupoAcesso=grupoAcesso,
                                       conteudo=conteudo,
                                       link=link,
                                       dataPublicacao=dataPublicacao)

        yield notice
Example #7
0
    def parse_article(self, response):
        link = response.url
        titulo = response.css("h1.heading-font a::text").extract_first()
        dataPublicacao = self.data_parse(
            response.xpath("//meta[@property='article:published_time']").css(
                '::attr(content)').extract_first())
        conteudo = ""
        for p in response.css("div.article-content p"):
            conteudo = conteudo + "\n" + p.css("p ::text").extract_first()

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(titulo=titulo,
                                       descritores=descritores,
                                       midias=midias,
                                       fonte=fonte,
                                       grupoAcesso=grupoAcesso,
                                       conteudo=conteudo,
                                       link=link,
                                       dataPublicacao=dataPublicacao)

        yield notice
Example #8
0
    def parse_article(self, response):
        link = response.url
        titulo = response.css("h1.article-title b::text").extract_first()
        dataPublicacao = self.data_parse(
            response.css("ul.article-meta li::text").extract_first())
        conteudo = ""
        for p in response.css("div.textoNoticia::text").getall():
            conteudo = conteudo + "\n" + p

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(titulo=titulo,
                                       descritores=descritores,
                                       midias=midias,
                                       fonte=fonte,
                                       grupoAcesso=grupoAcesso,
                                       conteudo=conteudo,
                                       link=link,
                                       dataPublicacao=dataPublicacao)

        yield notice
Example #9
0
    def parse_article(self, response):
        link = response.url
        titulo = response.css("h1::text").extract_first()
        dataPublicacao = self.data_parse(response.css(
            "article header.leitura-header span::text").extract_first())
        conteudo = ""
        for p in response.css("div.PrimeiraLetra.color_acontece p"):
            conteudo = conteudo+"\n"+p.css("p ::text").extract_first()
        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(
            titulo=titulo, descritores=descritores, midias=midias, fonte=fonte, grupoAcesso=grupoAcesso, conteudo=conteudo, link=link, dataPublicacao=dataPublicacao)

        yield notice
Example #10
0
    def parse_article(self, response):
        link = response.url
        titulo = response.css("div.layout h1::text").extract_first()
        dataPublicacao = self.data_parse(response.css(
            "li.data p::text").extract_first())

        conteudo = response.css("div.html_box p::text").extract_first('')
        conteudo = response.css("div.html_box div::text").extract_first('')

        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []

        notice = SigdesastrescrapyItem(
            titulo=titulo, descritores=descritores, midias=midias, fonte=fonte, grupoAcesso=grupoAcesso, conteudo=conteudo, link=link, dataPublicacao=dataPublicacao)

        yield notice
Example #11
0
    def parse(self, response):
      for article in response.css("dt"):

        link    = article.css("a::attr(href)").extract_first()
        # if link != "":
        #     conteudo  = response.follow(link, self.parse_article)
        conteudo = ""

        titulo  = response.css("a::text").extract_first()
        dataPublicacao = response.css("span.documentPublished").extract_first()


        notice = SigdesastrescrapyItem(titulo=titulo, conteudo=conteudo, link=link, dataPublicacao=dataPublicacao)
        yield notice        


      next_page = response.css('a.proximo::attr(href)').extract_first()
      if next_page is not None:
          yield response.follow(next_page, self.parse)
Example #12
0
    def parse(self, response):

        link = response.css("div.item a::attr(href)").extract()

        titulo = response.css("div.item strong.title::text").extract()
        dataPublicacao = response.css("div.item strong.title::text").extract()

        conteudo = response.css("div.item div.abstract::text").extract()
        cf = Fonte()
        fonte = cf.createFonte(self.name)
        midias = []
        grupoAcesso = cf.GRUPOACESSO
        descritores = []
        for i in range(len(link)):

            notice = SigdesastrescrapyItem(titulo=titulo[i],
                                           conteudo=conteudo[i],
                                           link=link[i],
                                           dataPublicacao=dataPublicacao,
                                           fonte=fonte,
                                           grupoAcesso=grupoAcesso,
                                           descritores=descritores,
                                           midias=midias)
            yield notice