Python Selector.rindex Beispiele

Programmiersprache: Python

Namespace / Paketname: scrapy.selector

Klasse / Typ: Selector

Methode / Funktion: rindex

Beispiele auf hotexamples.com: 3

Python Selector.rindex - 3 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die scrapy.selector.Selector.rindex, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Selector(30)

strip(30)

split(30)

css(30)

select(30)

replace(30)

extract(30)

re(30)

extract_first(19)

remove_namespaces(16)

index(9)

rstrip(9)

lstrip(9)

encode(8)

register_namespace(6)

find(5)

remove(4)

append(4)

startswith(3)

rindex(3)

extend(3)

get(3)

re_first(2)

getall(2)

lower(2)

pop(1)

partition(1)

extract_unquoted(1)

__getattribute__(1)

rfind(1)

items(1)

decode(1)

find_all(1)

group(1)

__len__(1)

title(1)

to_csv(1)

url(1)

Beispiel #1

Datei anzeigen

Datei: neteasemusicspider.py Projekt: JeffHzq/NeteaseCrawler

 def name_parse(self, response):
     body = response.body
     tag_a_list = Selector(text=body).xpath("//a[@class='nm nm-icn f-thide s-fc0']").extract()
     for tag in tag_a_list:
         self.singer_count += 1
         singer_name = Selector(text=tag).xpath("//a/text()").extract_first()
         singer_href = Selector(text=tag).xpath("//a/@href").extract_first()
         mark_index = singer_href.rindex('?')
         singer_href = singer_href[:mark_index] + '/album' + singer_href[mark_index:]
         sub_url = '/'.join([self.domain, singer_href])
         print u'正在爬取第[{}]个歌手[{}]的歌曲, url:{} ...'.format(self.singer_count, singer_name, singer_href)
         yield scrapy.Request(url=sub_url,
                              method="GET",
                              callback=self.singer_parse, 
                              meta={"language": response.meta['language']})

Beispiel #2

Datei anzeigen

Datei: neteasemusicspider.py Projekt: JeffHzq/NeteaseCrawler

 def parse(self, response):
     body = response.body
     type_list = Selector(text=body).xpath("//a[@class='cat-flag']").extract()
     for t in type_list:
         if u'华语' in t:
             sub_type = Selector(text=t).xpath("//a/text()").extract_first()
             type_href = Selector(text=t).xpath("//a/@href").extract_first()
             id = int(type_href[type_href.rindex('=')+1:])
             if not MusicLanguage.objects.filter(id=id).exists():
                 MusicLanguage.objects.create(id=id, name=sub_type)
             sub_url = '/'.join([self.domain, type_href])
             print u'正在爬取[{}]歌曲, url:{} ...'.format(sub_type, type_href)
             yield scrapy.Request(url=sub_url,
                                  method="GET",
                                  callback=self.spell_parse, meta={"language": id})

Beispiel #3

Datei anzeigen

Datei: neteasemusicspider.py Projekt: JeffHzq/NeteaseCrawler

 def music_parse(self, response):
     body = response.body
     tr_list = Selector(text=body).xpath("//table[@class='m-table']/tbody/tr").extract()
     for tr in tr_list:
         music_href = Selector(text=tr).xpath("//tr/td/div[@class='f-cb']/div/div/span/a/@href").extract_first()
         music_id = int(music_href[music_href.rindex('=')+1:])
         music_url = get_music_url(music_id)
         if music_url:
             music_name = Selector(text=tr).xpath("//tr/td/div[@class='f-cb']/div/div/span/a/b/@title").extract_first()
             music_duration = Selector(text=tr).xpath("//tr/td[@class='s-fc3']/span[@class='u-dur']/text()").extract_first()
             print u'正在爬取歌曲<<{}>>, url:{} ...'.format(music_name, music_url)
             if not Music.objects.filter(id=music_id).exists():
                 Music.objects.create(id=music_id, 
                                 name=music_name, 
                                 url=music_url,
                                 duration=music_duration,
                                 singer_id=response.meta['singer_id'],
                                 album_id=response.meta['album_id'])