Python XPathItemLoader.state_in Exemples

Langage de programmation: Python

Espace de nommage/Pack: scrapy.contrib.loader

Class/Type: XPathItemLoader

Méthode/Fonction: state_in

Exemples au hotexamples.com: 2

Python XPathItemLoader.state_in - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de scrapy.contrib.loader.XPathItemLoader.state_in extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

XPathItemLoader(30)

add_value(30)

add_xpath(30)

load_item(30)

default_input_processor(14)

default_output_processor(14)

get_output_value(9)

replace_value(1)

name_in(1)

load_items(1)

get_xpath(1)

deffault_input_processor(1)

get_collected_values(1)

__init__(1)

defalut_output_processor(1)

county_in(1)

add_css(1)

state_in(1)

Méthodes fréquemment utilisées

XPathItemLoader (30)

add_value (30)

add_xpath (30)

load_item (30)

default_input_processor (14)

default_output_processor (14)

get_output_value (9)

replace_value (1)

name_in (1)

load_items (1)

Méthodes fréquemment utilisées

get_xpath (1)

deffault_input_processor (1)

get_collected_values (1)

__init__ (1)

defalut_output_processor (1)

county_in (1)

add_css (1)

state_in (1)

Exemple #1

0

Afficher le fichier

Fichier : FracFocusScraper.py Projet : SkyTruth/scraper

def scrape_content_items (self, response): hxs = HtmlXPathSelector(response) stats = self.crawler.stats page_num = hxs.select ('//*[@id="MainContent_DocumentList1_GridView1_PageCurrent"]/@value').extract() if page_num: page_num = page_num[0] self.log('%s Scraping page %s' % (response.meta['cookiejar'], page_num), log.INFO) else: self.log('%s No page number found' % (response.meta['cookiejar']), log.WARNING) stats.inc_value ('_pages', spider=self) reports = hxs.select ('//table[@id="MainContent_DocumentList1_GridView1"]//tr') for report in reports: l = XPathItemLoader(FracFocusScrape(), report) l.state_in = lambda slist: [s[:20] for s in slist] l.county_in = lambda slist: [s[:20] for s in slist] for name, params in FracFocusScrape.fields.items(): l.add_xpath(name, params['xpath']) item = l.load_item() if item.get('api'): if self.db.itemExists(item): stats.inc_value ('_existing_count', spider=self) else: stats.inc_value ('_new_count', spider=self) # print item['operator'] yield item if not stats.get_value('_existing_count') and not stats.get_value('_new_count'): self.log('%s No records found' % (response.meta['cookiejar']), log.WARNING)

Exemple #2

0

Afficher le fichier

def scrape_content_items(self, response): hxs = HtmlXPathSelector(response) stats = self.crawler.stats page_num = hxs.select( '//*[@id="MainContent_DocumentList1_GridView1_PageCurrent"]/@value' ).extract() if page_num: page_num = page_num[0] self.log( '%s Scraping page %s' % (response.meta['cookiejar'], page_num), log.INFO) else: self.log('%s No page number found' % (response.meta['cookiejar']), log.WARNING) stats.inc_value('_pages', spider=self) reports = hxs.select( '//table[@id="MainContent_DocumentList1_GridView1"]//tr') for report in reports: l = XPathItemLoader(FracFocusScrape(), report) l.state_in = lambda slist: [s[:20] for s in slist] l.county_in = lambda slist: [s[:20] for s in slist] for name, params in FracFocusScrape.fields.items(): l.add_xpath(name, params['xpath']) item = l.load_item() if item.get('api'): if self.db.itemExists(item): stats.inc_value('_existing_count', spider=self) else: stats.inc_value('_new_count', spider=self) # print item['operator'] yield item if not stats.get_value('_existing_count') and not stats.get_value( '_new_count'): self.log('%s No records found' % (response.meta['cookiejar']), log.WARNING)