Python Parser.get_urls Examples

Programming Language: Python

Namespace/Package Name: crawler.parser

Class/Type: Parser

Method/Function: get_urls

Examples at hotexamples.com: 2

Python Parser.get_urls - 2 examples found. These are the top rated real world Python examples of crawler.parser.Parser.get_urls extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Parser(16)

get_links(2)

get_urls(2)

get_ratings_per_movie(2)

print_result_from_parser(2)

find_webpage_title(1)

get_info(1)

find_webpage_metadata(1)

get_metadata(1)

feed(1)

check_empty_titles_and_descriptions(1)

containsComments(1)

parse(1)

parseArticle(1)

parseDependencies(1)

parse_webpage_content(1)

parse_webpages_links(1)

parser_titles(1)

print_result(1)

get_ratings_per_user(1)

Example #1

Show file

 def analyze_url(self, page: Page):
     self.seen_urls.add(page)
     if not self.check_domains(str(page)):
         return
     html = self.get_html(page.url)
     if html is None:
         return
     if self.analyze_robot(page.url):
         return
     if self.visited_urls_count < self.max_count_urls:
         self.visited_urls_count += 1
         parser = Parser(page.url)
         info = parser.get_info(html, str(page))
         if len(self.request.intersection(info)) != 0 \
                 and page not in self.result_urls:
             self.result_urls.add(page)
             self.update_parents()
             if self.download:
                 self.write_html(page, html)
         found_links = set(parser.get_urls(html))
         for link in found_links.difference(self.seen_urls):
             if link:
                 if str(link)[-1] == '/':
                     page = Page(link.parent)
                 else:
                     page = Page(link)
                 self.urls.put(page)
     else:
         return

Example #2

Show file

 def test_get_url_with_urls(self):
     with open('test.html', 'r') as test:
         text = test.read()
         test_url = Parser(URL('https://t/'))
         self.assertEqual(len(test_url.get_urls(text)), 4)