Python Scraper示例

编程语言: Python

命名空间/包名称: issue.scraper.scraper

类/类型: Scraper

hotexamples.com的示例: 5

Python Scraper - 已找到5个示例。这些是从开源项目中提取的最受好评的issue.scraper.scraper.Scraper现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

loadHtml(3)

load(3)

extractImageUrls(2)

makeThumbnails(2)

thumbnailImages(1)

示例#1

显示文件

文件： test_scraper.py 项目： ecolemo/issuetrackr

    def testParsingError(self):
        url = "http://test.co.kr"
        def loadHtml(self,url):
            with open('parse_error.html') as f: return f.read()

        Scraper.loadHtml = loadHtml

        scraper = Scraper(url).load()
        self.assertEquals ("no title", scraper.title)
        thumbnailImages = scraper.makeThumbnails(scraper.extractImageUrls(scraper.soup, scraper.siteUrl))
        self.assertEquals([], thumbnailImages)

示例#2

显示文件

文件： test_scraper.py 项目： ecolemo/issuetrackr

 def testLoadWithWrongURL(self):
     url = "http://wrongwuhaha.com/"
     scraper = Scraper(url)
     def loadHtml(url):
         raise urllib2.URLError('no site')
     scraper.loadHtml = loadHtml
     try:
         scraper.load()
         self.fail("no exception")
     except RetrieveDataError, e:
         pass

示例#3

显示文件

文件： test_scraper.py 项目： ecolemo/issuetrackr

    def testMediatoday(self):
        url = "http://www.mediatoday.co.kr/news/articleView.html?idxno=98608"
        scraper = Scraper(url)
        def loadHtml(url):
            with open('mediatoday.html') as f: return f.read()
        scraper.loadHtml = loadHtml

        self.assertEquals (url, scraper.url)
        self.assertEquals ('http://www.mediatoday.co.kr', scraper.siteUrl)

        scraper.load()
        expectedTitle = u'미디어오늘 : "강용석 의원님, 우리는 닥치고 개그나 할게요"'
        self.assertEquals (expectedTitle, scraper.title)

示例#4

显示文件

文件： scraper.py 项目： ecolemo/issuetrackr

def scrap(request, resource_id):
    url = request.GET['url']

    try:
        scraper = Scraper(url).load()

        data = {
            'status':'ok',
            'title':scraper.title,
            'images':scraper.thumbnailImages(),
            'url':url,
            'site_url':scraper.siteUrl,
        }
    except Exception as e:
        print 'controller.scraper:', e
        data = {
            'status':'error'
        }
        
    return render_to_json(data)

示例#5

显示文件

文件： test_scraper.py 项目： ecolemo/issuetrackr

    def testEtomato(self):
        url = "http://news.etomato.com/Home/ReadNews.aspx?no=201886"
        scraper = Scraper(url)
        def loadHtml(url):
            with open('news_etomato.html') as f: return f.read()
        scraper.loadHtml = loadHtml
            
        self.assertEquals (url, scraper.url)
        self.assertEquals ('http://news.etomato.com', scraper.siteUrl)

        scraper.load()
        expectedTitle = u'경제전문 멀티미디어 뉴스 - 뉴스 토마토 -'
        self.assertEquals (expectedTitle, scraper.title)

        thumbnailImages = scraper.makeThumbnails(scraper.extractImageUrls(scraper.soup, scraper.siteUrl))
        self.assertTrue (thumbnailImages is not None)