Exemple #1
0
    def parse(self, response):

        data = response.xpath(
            '//*[@id="main-chart-val"]/@value').extract_first()
        category1 = response.xpath(
            '//*[@id="aliindex-masthead"]/div/div[3]/div[1]/p/a/text()'
        ).extract()
        category2 = response.xpath(
            '//*[@id="aliindex-masthead"]/div/div[3]/div[2]/p/a/text()'
        ).extract()
        # 去掉[] 以及''
        category1 = str(category1)[2:-2]
        category2 = str(category2)[2:-2]
        datajson = json.loads(data)
        purchaseIndex1688s = datajson["purchaseIndex1688"]["index"]["history"]
        supplyIndexs = datajson['supplyIndex']["index"]["history"]
        crawl_Time = time.strftime('%Y-%m-%d %H:%M:%S',
                                   time.localtime(time.time()))
        print('正在更新Spider , 更新名称 :' + category2 + '网页,Please wait....')
        # 依次遍历,将数据添加进item中
        items = []
        for i in range(0, len(purchaseIndex1688s)):
            # debug时所用代码
            # for i in range(0,1):
            list_Count = self.datalist()
            item = SecondIndexItem()
            item['category1'] = category1
            item['category2'] = category2
            item['showtime'] = list_Count[i]
            item['purchaseIndex1688'] = purchaseIndex1688s[i]
            item['supplyIndex'] = supplyIndexs[i]
            item['crawl_Time'] = crawl_Time
            items.append(item)
        surl = str(response.url)
        count = surl.find(',')
        resurl = surl[count + 1:]
        if resurl == '127424004':
            print('正在更新Spider , 更新名称 : 1688我是供应商网站行业大盘二级目录全年指数数据')
            Logger('all.log', level='debug').logger.info(
                '正在更新Spider , 更新名称 : 1688我是供应商网站行业大盘二级目录全年指数数据')
        self.next.remove(resurl)
        if self.next:
            r = scrapy.Request(url=self.url + self.next[0],
                               callback=self.parse)
            items.append(r)
        elif len(self.next) == 0:
            print('更新Spider完成 , 更新数据名称 : 1688我是供应商网站行业大盘二级目录全年指数数据')
            Logger('all.log', level='debug').logger.info(
                '更新Spider完成 , 更新数据名称 : 1688我是供应商网站行业大盘二级目录全年指数数据')
        return items
Exemple #2
0
 def __init__(self):
     self.f = open(aliIndex_30_2, "w")
     self.writer = csv.writer(self.f, delimiter='\t')
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新数据名称 : aliindex_30_2 1688网站阿里排行搜索排行榜30天热搜榜')
     self.writer.writerow(
         ['目录1', '目录2', '榜名', '关键词', '搜索指数', '全站商品数', 'url', '爬取时间'])
Exemple #3
0
 def __init__(self):
     self.f = open(aLiSupplyFileMain, "w")
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新数据名称 : alisupplyfilemain ')
     self.writer = csv.writer(self.f, delimiter='\t')
     self.writer.writerow(
         ['公司名', '地区', '主要产品', '主要市场', '交易量', '交易额', '爬取时间'])
Exemple #4
0
 def __init__(self):
     self.f = open(BuyerSketch, "w")
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新名称  : BuyerSketch 1688网站采购商素描')
     self.writer = csv.writer(self.f, delimiter='\t')
     self.writer.writerow([
         '目录1', '目录2', '行业类型', '新老采购商', '百分比1', '非淘宝/淘宝店主', '百分比2', '爬取时间'
     ])
Exemple #5
0
 def __init__(self):
     # self.f = open("/home/chenhang/workplace/crawlFile/阿里排行/搜索排行榜_30天_新词榜.csv", "w")
     self.f = open("搜索排行榜_30天_新词榜.csv", "w")
     self.writer = csv.writer(self.f, delimiter='\t')
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新数据名称 : aliindex_30_4 1688网站阿里排行搜索排行榜7天新词榜')
     self.writer.writerow(
         ['目录1', '目录2', '榜名', '关键词', '搜索指数', '全站商品数', 'url', '爬取时间'])
Exemple #6
0
 def __init__(self):
     # 1688供应商 全年写入
     # self.f = open(Children1688Supply, "w")
     # 1688供应商 更新童装所有全年指数
     self.f = open(Children1688Supply, "a+")
     self.writer = csv.writer(self.f, delimiter='\t')
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider..... , 更新数据名称 : 1688我是供应商网站行业大盘童装所有全年三大指数')
Exemple #7
0
 def __init__(self):
     self.f = open(IndustryMarketDown, "w")
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新名称 : IndustryMarketDown 1688网站我是采购商行业大盘下部数据')
     self.writer = csv.writer(self.f, delimiter='\t')
     self.writer.writerow([
         '目录1', '目录2', '行业类型', '行业名称', '1688采购指数', '1688供应指数', '淘宝需求预测',
         '爬取时间'
     ])
Exemple #8
0
 def __init__(self):
     self.f = open(AttributeSegmentationPrice, "w")
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新名称 : AttributeSegmentationPrice 1688网站属性细分价格带分布')
     self.writer = csv.writer(self.f, delimiter='\t')
     self.writer.writerow([
         '目录1', '目录2', '行业类型', '属性名称1', '价格分布1', '百分比', '属性名称2', '价格分布2',
         '百分比', '爬取时间'
     ])
Exemple #9
0
 def __init__(self):
     self.f = open(Attributesegmentation, "w")
     self.writer = csv.writer(self.f, delimiter='\t')
     self.writer.writerow([
         '目录1', '目录2', '行业类型', '属性类型', '属性名称', '1688采购指数', '1688供应指数',
         '爬取时间'
     ])
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 数据名称 : AttributeSegmentation 1688网站属性细分热门基础属性')
Exemple #10
0
 def __init__(self):
     self.f = open(AttributesegmentationMiddle, "w")
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新名称 : AttributeSegmentationMiddle 1688网站属性名称中部热门营销属性数据'
     )
     self.writer = csv.writer(self.f, delimiter='\t')
     self.writer.writerow([
         '目录1', '目录2', '行业类型', '属性类型', '属性名称', '1688采购指数', '1688供应指数',
         '爬取时间'
     ])
Exemple #11
0
 def __init__(self):
     self.f = open(aLiSupplyFileMarket, "w")
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新数据名称 : alisupplyfilemarket')
     self.writer = csv.writer(self.f, delimiter='\t')
     self.writer.writerow(['公司名', '市场地区', '市场份额', '爬取时间'])
Exemple #12
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新数据名称 : IndustryMarketDown_supply 1688我是供应商网站行业大盘下部数据'
     )
     self.f.close()
Exemple #13
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新数据名称 : aliindex_30_hot 1688网站阿里排行产品排行榜')
     self.f.close()
Exemple #14
0
 def __init__(self):
     self.f = open(aliIndex_30_hot, "w")
     self.writer = csv.writer(self.f, delimiter='\t')
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新数据名称 : aliindex_30_hot 1688网站阿里排行产品排行榜')
     self.writer.writerow(['name', 'type', 'title', 'price', 'trade'])
Exemple #15
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新数据名称 : everyIndex 1688我是采购商商网站行业大盘童装所有全年三大指数')
     self.f.close()
Exemple #16
0
 def close_spider(self, spider):
     Logger('all.log',
            level='debug').logger.info('更新Spider完成 , 更新数据名称 : cmindexchild')
     self.f.close()
Exemple #17
0
 def __init__(self):
     self.f = open(aLiSupplyFileProduct, "w")
     self.writer = csv.writer(self.f, delimiter='\t')
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新数据名称: alisupplyfilproduct')
     self.writer.writerow(['公司名', '产品', '爬取时间'])
Exemple #18
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新数据名称 : AttributeSegmentationPrice 1688网站属性细分价格带分布')
     self.f.close()
Exemple #19
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新名称 : AttributeSegmentationMiddle 1688网站属性名称中部热门营销属性数据'
     )
     self.f.close()
Exemple #20
0
 def close_spider(self, spider):
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新数据名称 : alisupplyfilproduct')
     self.f.close()
Exemple #21
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新数据名称 : BuyerSketch 1688网站采购商素描')
     self.f.close()
Exemple #22
0
 def close_spider(self, spider):
     Logger('all.log',
            level='debug').logger.info('CmindexpricegreySpider爬取完成')
     self.f.close()
Exemple #23
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新数据名称 : aliindex_7_4 1688网站阿里排行搜索排行榜7天新词榜')
     self.f.close()
Exemple #24
0
 def close_spider(self, spider):
     Logger('all.log', level='debug').logger.info('cmindexSaleGrey爬取完成')
     self.f.close()
Exemple #25
0
 def __init__(self):
     self.f = open(secondIndexSupply, "a+")
     self.writer = csv.writer(self.f, delimiter='\t')
     Logger('all.log', level='debug').logger.info(
         '正在更新Spider , 更新名称 : secondIndexupdate_supply 1688我是供应商网站行业大盘二级目录全年指数数据'
     )
Exemple #26
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新Spider完成 , 更新数据名称 : secondIndex_update 1688我是采购商网站行业大盘二级目录全年指数数据'
     )
     self.f.close()
Exemple #27
0
 def close_spider(self, spider):  # 关闭
     Logger('all.log', level='debug').logger.info(
         '更新完成 , 更新名称 : secondIndexupdate_supply 1688我是供应商网站行业大盘二级目录全年指数数据')
     self.f.close()