Ejemplos de Parser en Python

Lenguaje de programación: Python

Namespace/Package Name: gain

Clase / Tipo: Parser

Ejemplos en hotexamples.com: 12

Python Parser - 12 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de gain.Parser extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Parser(12)

parse_urls(2)

parse(1)

parse_item(1)

Ejemplo n.º 1

Mostrar archivo

class MySpider(Spider):
    start_url = 'https://blog.scrapinghub.com/'
    frequency = 5
    parsers = [
        Parser('https://blog.scrapinghub.com/page/\d+/'),
        Parser('https://blog.scrapinghub.com/\d{4}/\d{2}/\d{2}/[a-z0-9\-]+/',
               Post)
    ]

Ejemplo n.º 2

Mostrar archivo

class MySpider(Spider):
    start_url = 'http://blog.sciencenet.cn/home.php?mod=space&uid=40109&do=blog&view=me&from=space'
    concurrency = 1
    headers = {'User-Agent': 'Google Spider'}
    parsers = [
        Parser(
            'http://blog.sciencenet.cn/home.php\?mod=space&uid=\d+&do=blog&view=me&from=space&amp;page=\d+'
        ),
        Parser('blog\-\d+\-\d+\.html', Post)
    ]

Ejemplo n.º 3

Mostrar archivo

Archivo: test_parser.py Proyecto: raj347/gain

def test_parse_urls():
    html = ('<a href="item?id=14447885">64comments</a>'
            '<a href="item?id=14447886">64comments</a>')

    class User(Item):
        username = Xpath('//title')
        karma = Css('.karma')

    parser = Parser('item\?id=\d+', User)
    parser.parse_urls(html, 'https://blog.scrapinghub.com')
    assert parser.pre_parse_urls.__len__() == 2

Ejemplo n.º 4

Mostrar archivo

Archivo: test_parser.py Proyecto: wuqiangroy/gain

def test_parse():
    html = '<title class="username">tom</title><div class="karma">15</div>'

    class User(Item):
        username = Xpath('//title')
        karma = Css('.karma')

    parser = Parser(html, User)

    user = parser.parse_item(html)
    assert user.results == {'username': '******', 'karma': '15'}

Ejemplo n.º 5

Mostrar archivo

Archivo: test_parser.py Proyecto: zhangf911/gain

def test_parse():
    html = '<title class="username">tom</title><div class="karma">15</div>'

    class User(Item):
        username = Xpath('//title')
        karma = Css('.karma')

    parser = Parser('http://github.com', User)

    user = parser.parse(html)
    assert 'username' in user.results
    assert 'karma' in user.results
    assert user.username == 'tom'
    assert user.karma == '15'

Ejemplo n.º 6

Mostrar archivo

Archivo: test_parser.py Proyecto: zhangf911/gain

def test_parse_urls():
    html = ('<a href="item?id=14447885">64comments</a>'
            '<a href="item?id=14447886">64comments</a>')

    class User(Item):
        username = Xpath('//title')
        karma = Css('.karma')

    parser = Parser('item\?id=\d+', User)
    parser.parse_urls(html)
    assert parser.parsing_urls.__len__() == 2
    assert 'item?id=14447886' in parser.parsing_urls
    assert 'item?id=14447885' in parser.parsing_urls

    assert 'item?id=14447886' in parser.parsed_urls
    assert 'item?id=14447885' in parser.parsed_urls

Ejemplo n.º 7

Mostrar archivo

class MySpider(Spider):
    start_url = 'http://blog.jobbole.com/'
    concurrency = 5
    headers = {
        'User-Agent':
        'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'
    }
    parsers = [
        Parser('http://blog.jobbole.com/114503/', Post),
    ]

Ejemplo n.º 8

Mostrar archivo

class MySpider(Spider):
    start_url = 'https://mydramatime.com/europe-and-us-drama/'
    concurrency = 5
    headers = {'User-Agent': 'Google Spider'}
    parsers = [
        Parser(
            'https://mydramatime.com/europe-and-us-drama/game-of-thrones/page/\d+?/'
        ),
        XPathParser('//span[@class="category-name"]/a/@href'),
        XPathParser(
            '//div[@class="mini-left"]//div[contains(@class, "mini-title")]/a/@href',
            Post)
    ]

Ejemplo n.º 9

Mostrar archivo

Archivo: scrapinghub_spider.py Proyecto: Air-Zhuang/gain_pro

class MySpider(Spider):
    start_url = 'https://blog.scrapinghub.com/'
    concurrency = 5
    headers = {'User-Agent': 'Google Spider'}
    parsers = [Parser('https://blog.scrapinghub.com/page/\d+/'),
               Parser('https://blog.scrapinghub.com/\d{4}/\d{2}/\d{2}/[a-z0-9\-]+/', Post)]

Ejemplo n.º 10

Mostrar archivo

Archivo: v2ex_spider.py Proyecto: Air-Zhuang/gain_pro

class MySpider(Spider):
    start_url = 'https://///www.v2ex.com/go//////create'  # change here, if you want to scrape this site.
    concurrency = 1
    headers = {'User-Agent': 'Google Spider'}
    parsers = [Parser('/go/create?p=\d+'),
               Parser('/t/\d+#reply\d+', Post)]

Ejemplo n.º 11

Mostrar archivo

class MySpider(Spider):
    concurrency = 5
    headers = {'User-Agent': 'Google Spider'}
    start_url = 'http://quotes.toscrape.com/'
    parsers = [Parser('/page/1/'),
               Parser('/page/1/', Post)]

Ejemplo n.º 12

Mostrar archivo

Archivo: google.py Proyecto: svanderwoude/ModularityTesting

class GoogleSpider(Spider):
    start_url = 'https://google.com/'
    concurrency = 1
    headers = {'User-Agent': 'Google Spider'}
    parsers = [Parser('/'), Parser('/', Post)]