Ejemplos de Scrape.setUrl en Python

Lenguaje de programación: Python

Namespace/Package Name: scrape

Clase / Tipo: Scrape

Método / Función: setUrl

Ejemplos en hotexamples.com: 2

Python Scrape.setUrl - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de scrape.Scrape.setUrl extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Scrape(23)

scrape(6)

get_soup(3)

scrapy(2)

get_company_list(2)

select_company(2)

setUrl(2)

__init__(2)

scrape_url(1)

scrape_search_pg(1)

scrape_review(1)

scrape_post_pg(1)

scrape_file(1)

strain_by_id(1)

sub_exists(1)

post(1)

grab_content_from_detail_page(1)

parse_content(1)

grab_all_page_urls(1)

get_selector(1)

get_raw_data(1)

get_main_info(1)

get_html(1)

get_data(1)

getPRList(1)

getDictionary(1)

getAddress(1)

get(1)

execute(1)

bestbuy(1)

writeScrape(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: test_scrape.py Proyecto: ltebben/distributed-keyword-indexer

    def testScrape(self):
        url = "https://www.bbc.com"
        s = Scrape()
        s.setUrl(url)

        keywords, links = s.scrape()
        
        self.assertTrue(keywords, msg='No Keywords found')
        self.assertTrue(links, msg='No links found')

Ejemplo n.º 2

Mostrar archivo

Archivo: main.py Proyecto: ltebben/distributed-keyword-indexer

    while stopTime < 0 or time.time() < stopTime:

        # Wait to receive a source from the master
        source = comm.recv(source=0)
        links = list()
        keywords = list()

        if source == '':
            # We got a blank link, wait for a while then ask again
            time.sleep(1)
        else:
            source = source.strip()
            parts = source.split('/')
            baseurl = '/'.join(parts[0:3])
            rp = roboparser.RobotFileParser()
            rp.set_url(baseurl + '/robots.txt')

            rp.read()

            if rp.can_fetch('*', source):
                s.setUrl(source)
                keywords, links = s.scrape()

                # Persist keywords to the database
                # commenting out because this is such a bottleneck
                # s.submitWords(keywords)

        # Send new links back to the master queue
        comm.send((keywords, links), dest=0)
        time.sleep(1)