Python Parser.parseArticle 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: crawler.parser

클래스/타입: Parser

메소드/함수: parseArticle

hotexamples.com에서의 예제들: 1

Python Parser.parseArticle - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 crawler.parser.Parser.parseArticle에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Parser(16)

get_links(2)

get_urls(2)

get_ratings_per_movie(2)

print_result_from_parser(2)

find_webpage_title(1)

get_info(1)

find_webpage_metadata(1)

get_metadata(1)

feed(1)

check_empty_titles_and_descriptions(1)

containsComments(1)

parse(1)

parseArticle(1)

parseDependencies(1)

parse_webpage_content(1)

parse_webpages_links(1)

parser_titles(1)

print_result(1)

get_ratings_per_user(1)

예제 #1

파일 보기

파일: article_spider.py 프로젝트: minowak/tuaw-ed

class ArticleSpider(CrawlSpider):
    name = 'article'
    allowed_domains = ['tuaw.com']
    start_urls = [
        "http://www.tuaw.com/about",
        "http://www.tuaw.com/editor/chris-rawson/page/101",
		"http://www.tuaw.com/editor/Mel-Martin/page/184"
    ]
    rules = (
        Rule(LinkExtractor(allow=(r'tuaw.com/[0-9]{4}/[0-9]{1,2}/[0-9]{1,2}', )), callback='crawlArticlePage', follow=True),
        Rule(LinkExtractor(allow=(r'\/editor\/', )), callback='crawlEditorPage', follow=True),
        Rule(LinkExtractor(deny=(r'(\/editor\/)|(tuaw.com/[0-9]{4}/[0-9]{1,2}/[0-9]{1,2})', )), callback='crawlPage', follow=True)
        #Rule(LinkExtractor(deny=visited_urls))
    )

    def __init__(self):
        CrawlSpider.__init__(self)
        self.selenium = webdriver.Firefox()
        self.parser = Parser(self.selenium)
        self.webpageLoadTimeoutInSeconds = 10

    def parse_start_url(self, response):
        return self.crawlPage(response)

    def crawlPage(self, response):
        url = response.url
        self.selenium.get(url)
        return WebDriverWait(self.selenium, self.webpageLoadTimeoutInSeconds)

    def crawlArticlePage(self, response):
        if self.parser.containsComments():
            self.crawlPage(response).until(EC.presence_of_element_located((By.CSS_SELECTOR, ".fyre-widget")))
        else:
            self.crawlPage(response)
        article = self.parser.parseArticle(response.url)
        yield article

    def crawlEditorPage(self, response):
        self.crawlPage(response)