Python Selector.re_first Beispiele

Programmiersprache: Python

Namespace / Paketname: scrapy

Klasse / Typ: Selector

Methode / Funktion: re_first

Beispiele auf hotexamples.com: 2

Python Selector.re_first - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die scrapy.Selector.re_first, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Selector(30)

css(30)

split(30)

xpath(30)

re(24)

extract(22)

replace(11)

strip(9)

__len__(8)

remove_namespaces(7)

startswith(7)

find(6)

select(6)

__contains__(4)

extract_first(3)

index(3)

append(2)

register_namespace(2)

re_first(2)

group(2)

get(2)

findall(2)

endswith(1)

rsplit(1)

json(1)

select_by_visible_text(1)

isdigit(1)

Beispiel #1

Datei anzeigen

Datei: spider.py Projekt: OleksandrKvitka/python_lab_2

 def parse_thread_pages(self, response):
     sel = Selector(response) \
         .xpath("//div[contains(@class, 'pagenav')]/table/tr/td[contains(@nowrap, 'nowrap')]/a/@href")
     pages = sel.re_first(r'.*page=(\d+)')
     link = sel.re_first(r'(.*page=).*')
     if pages is None:
         yield from self.parse_thread_messages(response)
     else:
         for p in range(int(pages)):
             url = response.urljoin(link + str(p + 1))
             request = scrapy.Request(url, callback=self.parse_thread_messages)
             request.meta['topic'] = response.meta['topic']
             yield request

Beispiel #2

Datei anzeigen

 def parse_thread_pages(self, response):
     sel = Selector(response) \
         .xpath("//a[contains(@class,'navPages)]/@href")
     pages = sel.re_first(r'.*topic=(\d+\.\d+)')
     link = sel.re_first(r'(.*topic=).*')
     if pages is None:
         yield from self.parse_thread_messages(response)
     else:
         for p in range(int(pages)):
             url = response.urljoin(link + str((p + 1) * 40))
             request = scrapy.Request(url,
                                      callback=self.parse_thread_messages)
             request.meta['topic'] = response.meta['topic']
             yield request