Python Helper 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: DataModels.webcrawler.quickr.ReaderHelper

클래스/타입: Helper

hotexamples.com에서의 예제들: 2

Python Helper - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 DataModels.webcrawler.quickr.ReaderHelper.Helper에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

getHtmlFileHandle(1)

예제 #1

파일 보기

파일: QuickerCrawler.py 프로젝트: shaleen/CS-784_DataScience

class QuikrCrawler (Crawler):

    setOfUrls = set()
    currentUrl = ''

    def __init__(self):
        self.urlList = [CONST.QUIKRSEED()]
        self.helper = Helper()

    def getCurrentUrl(self):
        return self.currentUrl

    def writeToFile(self, page):
        url_file = open(self.helper.getHtmlFileHandle(self.getCurrentUrl().replace("/","@")), 'w+')
        url_file.write(page)
        return

    def crawlforhtml(self):
        try:
            browser = mechanize.Browser()
            url = self.getNextUrl()
            self.currentUrl = url
            print url
        except:
            print "Error in generating HTML for url", url
        return browser.open(self.currentUrl).read()

    def generateAllUrls(self):
        browser = mechanize.Browser()
        self.processMechanizeObject(browser)
        urlToParse = self.urlList.pop(0)
        try:
            browser.open(urlToParse)
            for link in browser.links():
                if 'used-bikes-detail' in link.url:
                    self.setOfUrls.add(urlparse.urljoin(CONST.QUIKRBASE(),link.url))
        except:
            print "Error generating all urls"
        return

    def getNextUrl(self):
        return self.setOfUrls.pop()

    def processMechanizeObject(self, browser):
        browser.set_handle_robots(False)
        browser.set_handle_equiv(False)
        browser.set_handle_equiv(True)
        browser.set_handle_redirect(True)
        browser.set_handle_robots(False)
        browser.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
        browser.addheaders = [('User-agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.72 Safari/537.36')
                              ,('Accept','text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8')
                              ,('Accept-Charset','ISO-8859-1,utf-8;q=0.7,*;q=0.3')
                              ,('Accept-Encoding','none')
                              ,('Accept-Language','en-US,en;q=0.8')
                              ,('Connection','keep-alive')]

    @property
    def isURLListEmpty(self):
        return len(self.setOfUrls) == 0

예제 #2

파일 보기

파일: QuickerCrawler.py 프로젝트: shaleen/CS-784_DataScience

 def __init__(self):
     self.urlList = [CONST.QUIKRSEED()]
     self.helper = Helper()