Python Parser.parseArticle Examples

Programming Language: Python

Namespace/Package Name: crawler.parser

Class/Type: Parser

Method/Function: parseArticle

Examples at hotexamples.com: 1

Python Parser.parseArticle - 1 examples found. These are the top rated real world Python examples of crawler.parser.Parser.parseArticle extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Parser(16)

get_links(2)

get_urls(2)

get_ratings_per_movie(2)

print_result_from_parser(2)

find_webpage_title(1)

get_info(1)

find_webpage_metadata(1)

get_metadata(1)

feed(1)

check_empty_titles_and_descriptions(1)

containsComments(1)

parse(1)

parseArticle(1)

parseDependencies(1)

parse_webpage_content(1)

parse_webpages_links(1)

parser_titles(1)

print_result(1)

get_ratings_per_user(1)

Example #1

Show file

File: article_spider.py Project: minowak/tuaw-ed

class ArticleSpider(CrawlSpider):
    name = 'article'
    allowed_domains = ['tuaw.com']
    start_urls = [
        "http://www.tuaw.com/about",
        "http://www.tuaw.com/editor/chris-rawson/page/101",
		"http://www.tuaw.com/editor/Mel-Martin/page/184"
    ]
    rules = (
        Rule(LinkExtractor(allow=(r'tuaw.com/[0-9]{4}/[0-9]{1,2}/[0-9]{1,2}', )), callback='crawlArticlePage', follow=True),
        Rule(LinkExtractor(allow=(r'\/editor\/', )), callback='crawlEditorPage', follow=True),
        Rule(LinkExtractor(deny=(r'(\/editor\/)|(tuaw.com/[0-9]{4}/[0-9]{1,2}/[0-9]{1,2})', )), callback='crawlPage', follow=True)
        #Rule(LinkExtractor(deny=visited_urls))
    )

    def __init__(self):
        CrawlSpider.__init__(self)
        self.selenium = webdriver.Firefox()
        self.parser = Parser(self.selenium)
        self.webpageLoadTimeoutInSeconds = 10

    def parse_start_url(self, response):
        return self.crawlPage(response)

    def crawlPage(self, response):
        url = response.url
        self.selenium.get(url)
        return WebDriverWait(self.selenium, self.webpageLoadTimeoutInSeconds)

    def crawlArticlePage(self, response):
        if self.parser.containsComments():
            self.crawlPage(response).until(EC.presence_of_element_located((By.CSS_SELECTOR, ".fyre-widget")))
        else:
            self.crawlPage(response)
        article = self.parser.parseArticle(response.url)
        yield article

    def crawlEditorPage(self, response):
        self.crawlPage(response)