Python HtmlParser.extract_urls 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: dragline.htmlparser

클래스/타입: HtmlParser

메소드/함수: extract_urls

hotexamples.com에서의 예제들: 12

Python HtmlParser.extract_urls - 12개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 dragline.htmlparser.HtmlParser.extract_urls에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

HtmlParser(7)

extract_urls(6)

xpath(3)

자주 사용되는 메소드들

HtmlParser (7)

extract_urls (6)

xpath (3)

예제 #1

파일 보기

파일: main.py 프로젝트: narenaryan/NatgeoImage

 def parseAnimals(self, response):
     html = HtmlParser(response)
     if html.extract_urls('//div[@class="pagination"]/a[@class="next"]'):
         for url in html.extract_urls('//div[@id="search_results"]/div/a'):
             yield Request(url, callback="parseAnimal")
         for url in html.extract_urls('//div[@class="pagination"]/a[@class="next"]'):
             yield Request(url, callback="parseAnimals")
     else:
         for url in html.extract_urls('//div[@id="search_results"]/div/a'):
             yield Request(url, callback="parseAnimal")

예제 #2

파일 보기

    def parseAnimals(self,response):
        html = HtmlParser(response)
        if html.extract_urls('//div[@class="pagination"]/a[@class="next"]'):
	    for url in html.extract_urls('//div[@id="search_results"]/div/a'):
		yield Request(url,callback="parseAnimal")
	    for url in html.extract_urls('//div[@class="pagination"]/a[@class="next"]'):
		yield Request(url,callback="parseAnimals")
        else:
	    for url in html.extract_urls('//div[@id="search_results"]/div/a'):
		yield Request(url,callback="parseAnimal")

예제 #3

파일 보기

 def parseCat(self, response):
     parser = HtmlParser(response)
     if 'Next' not in parser.xpath('//li/a/text()'):
         for i in parser.xpath('//span[@class="bqQuoteLink"]/a//text()'):
             self.mydb.quotes.insert({'quote': i})
     else:
         for i in parser.xpath('//span[@class="bqQuoteLink"]/a//text()'):
             self.mydb.quotes.insert({'quote': i})
         for url in parser.extract_urls('//li/a[contains(text(),"Next")]'):
             yield Request(url, callback="parseCat")

예제 #4

파일 보기

파일: main.py 프로젝트: narenaryan/BrainyQuote

 def parseCat(self, response):
     parser = HtmlParser(response)
     if 'Next' not in parser.xpath('//li/a/text()'):
         for i in parser.xpath('//span[@class="bqQuoteLink"]/a//text()'):
             self.mydb.quotes.insert({'quote':i})
     else:
         for i in parser.xpath('//span[@class="bqQuoteLink"]/a//text()'):
             self.mydb.quotes.insert({'quote':i})
         for url in parser.extract_urls('//li/a[contains(text(),"Next")]'):
             yield Request(url,callback="parseCat")

예제 #5

파일 보기

파일: main.py 프로젝트: a1156/Quotebot

 def parseCat(self, response):
     parser = HtmlParser(response)
     dbname= response.meta['u']
     if not  parser.xpath('//a[@class="next_page"]'):
         for i in parser.xpath('//div[@class="quoteText"]'):
             quote = i.text
             for j in i.iterfind('a'):
                 author=j.text
             self.mydb[dbname].insert({'quote':quote,'author':author})
     else:
         for i in parser.xpath('//div[@class="quoteText"]'):
             quote = i.text
             for j in i.iterfind('a'):
                 author=j.text
             self.mydb[dbname].insert({'quote':quote,'author':author})
         
         for url in parser.extract_urls('//a[@class="next_page"]'):
             yield Request(url,callback="parseCat",meta={'u':dbname})

예제 #6

파일 보기

파일: main.py 프로젝트: narenaryan/Quotebot

    def parseCat(self, response):
        parser = HtmlParser(response)
        dbname = response.meta['u']
        if not parser.xpath('//a[@class="next_page"]'):
            for i in parser.xpath('//div[@class="quoteText"]'):
                quote = i.text
                for j in i.iterfind('a'):
                    author = j.text
                self.mydb[dbname].insert({'quote': quote, 'author': author})
        else:
            for i in parser.xpath('//div[@class="quoteText"]'):
                quote = i.text
                for j in i.iterfind('a'):
                    author = j.text
                self.mydb[dbname].insert({'quote': quote, 'author': author})

            for url in parser.extract_urls('//a[@class="next_page"]'):
                yield Request(url, callback="parseCat", meta={'u': dbname})

예제 #7

파일 보기

 def parse(self, response):
     parser = HtmlParser(response)
     for i in parser.extract_urls(
             '//div[@class="bqLn"]/div[@class="bqLn"]/a'):
         yield Request(i, callback="parseCat")

예제 #8

파일 보기

파일: main.py 프로젝트: a1156/Quotebot

 def parse(self,response):
     parser = HtmlParser(response)
     for url in parser.extract_urls('//a[@class="actionLinkLite serif"]'):
         dbname = url.split('/')[-1]
         yield Request(url,callback="parseCat",meta={'u':dbname})

예제 #9

파일 보기

파일: main.py 프로젝트: narenaryan/Quotebot

 def parse(self, response):
     parser = HtmlParser(response)
     for url in parser.extract_urls('//a[@class="actionLinkLite serif"]'):
         dbname = url.split('/')[-1]
         yield Request(url, callback="parseCat", meta={'u': dbname})

예제 #10

파일 보기

파일: main.py 프로젝트: narenaryan/NatgeoImage

 def parse(self, response):
     html = HtmlParser(response)
     photo_list = ['//li[@class="first"]', '//li[@class=" "]', '//li[@class="last"]']
     for item in photo_list:
         for url in html.extract_urls(item):
             yield Request(url, callback="parseAnimals")

예제 #11

파일 보기

파일: main.py 프로젝트: narenaryan/BrainyQuote

 def parse(self, response):
     parser = HtmlParser(response)
     for i in parser.extract_urls('//div[@class="bqLn"]/div[@class="bqLn"]/a'):
         yield Request(i,callback="parseCat")

예제 #12

파일 보기

    def parse(self,response):
        html = HtmlParser(response)
        photo_list = ['//li[@class="first"]','//li[@class=" "]','//li[@class="last"]']
        for item in photo_list:
	    for url in html.extract_urls(item):
	        yield Request(url,callback="parseAnimals")