Esempi in Python per HtmlParser.get_page_urls

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: HtmlParser

Classe/tipologia: HtmlParser

Metodo/funzione: get_page_urls

Esempi su hotexamples.com: 2

HtmlParser.get_page_urls in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per HtmlParser.HtmlParser.get_page_urls, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

HtmlParser(30)

parser(30)

parse(5)

parser_json(5)

getHtml(4)

get_data(2)

get_page_urls(2)

get(1)

parser_html(1)

parser_article_page(1)

parserCatalog(1)

chapter_parser(1)

parse_test(1)

parse_next_page(1)

parse_article(1)

chapterlist_parser(1)

novel_parser(1)

getdata(1)

get_summary(1)

get_post_list_urls(1)

get_page(1)

get_page_num(1)

get_node(1)

Parser(1)

get_kw_track(1)

get_kw_album(1)

get_job(1)

get_items(1)

get_intern_urls(1)

get_image(1)

get_essential_posts_detail_url(1)

get_collect_page_num(1)

get_city_code(1)

get_brand_urls(1)

get_all_patents_info(1)

get_new_urls(1)

Esempio n. 1

Mostra file

 def spider(self, url, param):
     page_num = HtmlParser.get_page_num(url)
     print('page_num:', page_num)
     with open('./name.csv', 'a') as csvfile:
         fielddnames = ['title', 'url', 'down']
         write = csv.DictWriter(csvfile, fieldnames=fielddnames)
         write.writeheader()
     for i in range(1, page_num + 1):
         page_url = url + param + str(i)
         print(page_url)
         new_urls = HtmlParser.get_page_urls(page_url)
         self.manage.add_new_urls(new_urls)
         while self.manage.has_new_url():
             try:
                 new_url = self.manage.get_new_url()
                 data = HtmlParser.get_data(new_url)
                 DataOutput.write_data(data)
                 print(data)
             except Exception as e:
                 print('抓取失败！error:', e)
         print('已经抓取{}条数据'.format(self.manage.old_urls_size()))

Esempio n. 2

Mostra file

class Spider(object):
    def __init__(self):
        self.manage = UrlManager()
        self.output = DataOutput()
        self.parse = HtmlParser()

    def crawl(self):
        print(self.parse.page_num)
        for i in range(1, self.parse.page_num + 1):
            new_urls = self.parse.get_page_urls(i)
            print(new_urls)
            self.manage.add_new_urls(new_urls)
            while self.manage.has_new_url():
                new_url = ''
                try:
                    new_url = self.manage.get_new_url()
                    print(new_url)
                    data = self.parse.get_data(new_url)
                    print(data)
                    self.output.save_mongo(data)
                    time.sleep(1)
                except Exception as e:
                    print('抓取失败：', new_url, e)
        print('已经抓取{}条数据'.format(self.output.data_size()))