def parse(self, response): data = response.xpath( '//*[@id="main-chart-val"]/@value').extract_first() category1 = response.xpath( '//*[@id="aliindex-masthead"]/div/div[3]/div[1]/p/a/text()' ).extract() category2 = response.xpath( '//*[@id="aliindex-masthead"]/div/div[3]/div[2]/p/a/text()' ).extract() # 去掉[] 以及'' category1 = str(category1)[2:-2] category2 = str(category2)[2:-2] datajson = json.loads(data) purchaseIndex1688s = datajson["purchaseIndex1688"]["index"]["history"] supplyIndexs = datajson['supplyIndex']["index"]["history"] crawl_Time = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())) print('正在更新Spider , 更新名称 :' + category2 + '网页,Please wait....') # 依次遍历,将数据添加进item中 items = [] for i in range(0, len(purchaseIndex1688s)): # debug时所用代码 # for i in range(0,1): list_Count = self.datalist() item = SecondIndexItem() item['category1'] = category1 item['category2'] = category2 item['showtime'] = list_Count[i] item['purchaseIndex1688'] = purchaseIndex1688s[i] item['supplyIndex'] = supplyIndexs[i] item['crawl_Time'] = crawl_Time items.append(item) surl = str(response.url) count = surl.find(',') resurl = surl[count + 1:] if resurl == '127424004': print('正在更新Spider , 更新名称 : 1688我是供应商网站行业大盘二级目录全年指数数据') Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新名称 : 1688我是供应商网站行业大盘二级目录全年指数数据') self.next.remove(resurl) if self.next: r = scrapy.Request(url=self.url + self.next[0], callback=self.parse) items.append(r) elif len(self.next) == 0: print('更新Spider完成 , 更新数据名称 : 1688我是供应商网站行业大盘二级目录全年指数数据') Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : 1688我是供应商网站行业大盘二级目录全年指数数据') return items
def __init__(self): self.f = open(aliIndex_30_2, "w") self.writer = csv.writer(self.f, delimiter='\t') Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新数据名称 : aliindex_30_2 1688网站阿里排行搜索排行榜30天热搜榜') self.writer.writerow( ['目录1', '目录2', '榜名', '关键词', '搜索指数', '全站商品数', 'url', '爬取时间'])
def __init__(self): self.f = open(aLiSupplyFileMain, "w") Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新数据名称 : alisupplyfilemain ') self.writer = csv.writer(self.f, delimiter='\t') self.writer.writerow( ['公司名', '地区', '主要产品', '主要市场', '交易量', '交易额', '爬取时间'])
def __init__(self): self.f = open(BuyerSketch, "w") Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新名称 : BuyerSketch 1688网站采购商素描') self.writer = csv.writer(self.f, delimiter='\t') self.writer.writerow([ '目录1', '目录2', '行业类型', '新老采购商', '百分比1', '非淘宝/淘宝店主', '百分比2', '爬取时间' ])
def __init__(self): # self.f = open("/home/chenhang/workplace/crawlFile/阿里排行/搜索排行榜_30天_新词榜.csv", "w") self.f = open("搜索排行榜_30天_新词榜.csv", "w") self.writer = csv.writer(self.f, delimiter='\t') Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新数据名称 : aliindex_30_4 1688网站阿里排行搜索排行榜7天新词榜') self.writer.writerow( ['目录1', '目录2', '榜名', '关键词', '搜索指数', '全站商品数', 'url', '爬取时间'])
def __init__(self): # 1688供应商 全年写入 # self.f = open(Children1688Supply, "w") # 1688供应商 更新童装所有全年指数 self.f = open(Children1688Supply, "a+") self.writer = csv.writer(self.f, delimiter='\t') Logger('all.log', level='debug').logger.info( '正在更新Spider..... , 更新数据名称 : 1688我是供应商网站行业大盘童装所有全年三大指数')
def __init__(self): self.f = open(IndustryMarketDown, "w") Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新名称 : IndustryMarketDown 1688网站我是采购商行业大盘下部数据') self.writer = csv.writer(self.f, delimiter='\t') self.writer.writerow([ '目录1', '目录2', '行业类型', '行业名称', '1688采购指数', '1688供应指数', '淘宝需求预测', '爬取时间' ])
def __init__(self): self.f = open(AttributeSegmentationPrice, "w") Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新名称 : AttributeSegmentationPrice 1688网站属性细分价格带分布') self.writer = csv.writer(self.f, delimiter='\t') self.writer.writerow([ '目录1', '目录2', '行业类型', '属性名称1', '价格分布1', '百分比', '属性名称2', '价格分布2', '百分比', '爬取时间' ])
def __init__(self): self.f = open(Attributesegmentation, "w") self.writer = csv.writer(self.f, delimiter='\t') self.writer.writerow([ '目录1', '目录2', '行业类型', '属性类型', '属性名称', '1688采购指数', '1688供应指数', '爬取时间' ]) Logger('all.log', level='debug').logger.info( '正在更新Spider , 数据名称 : AttributeSegmentation 1688网站属性细分热门基础属性')
def __init__(self): self.f = open(AttributesegmentationMiddle, "w") Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新名称 : AttributeSegmentationMiddle 1688网站属性名称中部热门营销属性数据' ) self.writer = csv.writer(self.f, delimiter='\t') self.writer.writerow([ '目录1', '目录2', '行业类型', '属性类型', '属性名称', '1688采购指数', '1688供应指数', '爬取时间' ])
def __init__(self): self.f = open(aLiSupplyFileMarket, "w") Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新数据名称 : alisupplyfilemarket') self.writer = csv.writer(self.f, delimiter='\t') self.writer.writerow(['公司名', '市场地区', '市场份额', '爬取时间'])
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : IndustryMarketDown_supply 1688我是供应商网站行业大盘下部数据' ) self.f.close()
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : aliindex_30_hot 1688网站阿里排行产品排行榜') self.f.close()
def __init__(self): self.f = open(aliIndex_30_hot, "w") self.writer = csv.writer(self.f, delimiter='\t') Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新数据名称 : aliindex_30_hot 1688网站阿里排行产品排行榜') self.writer.writerow(['name', 'type', 'title', 'price', 'trade'])
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : everyIndex 1688我是采购商商网站行业大盘童装所有全年三大指数') self.f.close()
def close_spider(self, spider): Logger('all.log', level='debug').logger.info('更新Spider完成 , 更新数据名称 : cmindexchild') self.f.close()
def __init__(self): self.f = open(aLiSupplyFileProduct, "w") self.writer = csv.writer(self.f, delimiter='\t') Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新数据名称: alisupplyfilproduct') self.writer.writerow(['公司名', '产品', '爬取时间'])
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : AttributeSegmentationPrice 1688网站属性细分价格带分布') self.f.close()
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新名称 : AttributeSegmentationMiddle 1688网站属性名称中部热门营销属性数据' ) self.f.close()
def close_spider(self, spider): Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : alisupplyfilproduct') self.f.close()
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : BuyerSketch 1688网站采购商素描') self.f.close()
def close_spider(self, spider): Logger('all.log', level='debug').logger.info('CmindexpricegreySpider爬取完成') self.f.close()
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : aliindex_7_4 1688网站阿里排行搜索排行榜7天新词榜') self.f.close()
def close_spider(self, spider): Logger('all.log', level='debug').logger.info('cmindexSaleGrey爬取完成') self.f.close()
def __init__(self): self.f = open(secondIndexSupply, "a+") self.writer = csv.writer(self.f, delimiter='\t') Logger('all.log', level='debug').logger.info( '正在更新Spider , 更新名称 : secondIndexupdate_supply 1688我是供应商网站行业大盘二级目录全年指数数据' )
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新Spider完成 , 更新数据名称 : secondIndex_update 1688我是采购商网站行业大盘二级目录全年指数数据' ) self.f.close()
def close_spider(self, spider): # 关闭 Logger('all.log', level='debug').logger.info( '更新完成 , 更新名称 : secondIndexupdate_supply 1688我是供应商网站行业大盘二级目录全年指数数据') self.f.close()