Python HtmlParser.xpath示例

编程语言: Python

命名空间/包名称: dragline.htmlparser

类/类型: HtmlParser

方法/功能: xpath

hotexamples.com的示例: 6

Python HtmlParser.xpath - 已找到6个示例。这些是从开源项目中提取的最受好评的dragline.htmlparser.HtmlParser.xpath现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

HtmlParser(7)

extract_urls(6)

xpath(3)

示例#1

显示文件

 def parseCat(self, response):
     parser = HtmlParser(response)
     if 'Next' not in parser.xpath('//li/a/text()'):
         for i in parser.xpath('//span[@class="bqQuoteLink"]/a//text()'):
             self.mydb.quotes.insert({'quote': i})
     else:
         for i in parser.xpath('//span[@class="bqQuoteLink"]/a//text()'):
             self.mydb.quotes.insert({'quote': i})
         for url in parser.extract_urls('//li/a[contains(text(),"Next")]'):
             yield Request(url, callback="parseCat")

示例#2

显示文件

文件： main.py 项目： narenaryan/BrainyQuote

 def parseCat(self, response):
     parser = HtmlParser(response)
     if 'Next' not in parser.xpath('//li/a/text()'):
         for i in parser.xpath('//span[@class="bqQuoteLink"]/a//text()'):
             self.mydb.quotes.insert({'quote':i})
     else:
         for i in parser.xpath('//span[@class="bqQuoteLink"]/a//text()'):
             self.mydb.quotes.insert({'quote':i})
         for url in parser.extract_urls('//li/a[contains(text(),"Next")]'):
             yield Request(url,callback="parseCat")

示例#3

显示文件

文件： main.py 项目： a1156/Quotebot

 def parseCat(self, response):
     parser = HtmlParser(response)
     dbname= response.meta['u']
     if not  parser.xpath('//a[@class="next_page"]'):
         for i in parser.xpath('//div[@class="quoteText"]'):
             quote = i.text
             for j in i.iterfind('a'):
                 author=j.text
             self.mydb[dbname].insert({'quote':quote,'author':author})
     else:
         for i in parser.xpath('//div[@class="quoteText"]'):
             quote = i.text
             for j in i.iterfind('a'):
                 author=j.text
             self.mydb[dbname].insert({'quote':quote,'author':author})
         
         for url in parser.extract_urls('//a[@class="next_page"]'):
             yield Request(url,callback="parseCat",meta={'u':dbname})

示例#4

显示文件

文件： main.py 项目： narenaryan/Quotebot

    def parseCat(self, response):
        parser = HtmlParser(response)
        dbname = response.meta['u']
        if not parser.xpath('//a[@class="next_page"]'):
            for i in parser.xpath('//div[@class="quoteText"]'):
                quote = i.text
                for j in i.iterfind('a'):
                    author = j.text
                self.mydb[dbname].insert({'quote': quote, 'author': author})
        else:
            for i in parser.xpath('//div[@class="quoteText"]'):
                quote = i.text
                for j in i.iterfind('a'):
                    author = j.text
                self.mydb[dbname].insert({'quote': quote, 'author': author})

            for url in parser.extract_urls('//a[@class="next_page"]'):
                yield Request(url, callback="parseCat", meta={'u': dbname})

示例#5

显示文件

文件： main.py 项目： narenaryan/NatgeoImage

 def parseAnimal(self, response):
     print "parseAniml"
     html = HtmlParser(response)
     print "Downloading........"
     for url in html.xpath('//div[@class="primary_photo"]/a/img/@src'):
         urlretrieve(url, url.split("/")[-1])

示例#6

显示文件

    def parseAnimal(self,response):
        print 'parseAniml'
        html = HtmlParser(response)
        print 'Downloading........'
        for url in html.xpath('//div[@class="primary_photo"]/a/img/@src'):
	    urlretrieve(url,url.split('/')[-1])