Example #1
0
 def collect_url(web_url):
     html_data_string = ''
     try:
         received_response = urlopen(web_url)
         if 'text/html' in received_response.getheader('Content-Type'):
             data_bytes = received_response.read()
             html_data_string = data_bytes.decode("latin-1")
         link_finder = link_crawler(Crawl_bot.start_link, web_url)
         link_finder.feed(html_data_string)
     except Exception as e:
         print(str(e))
         return set()
     return link_finder.page_urls()
Example #2
0
    def collect_url(web_url):
        html_data_string = ''
        try:
            received_response = urlopen(web_url)
            if 'text/html' in received_response.getheader('Content-Type'):
                data_bytes = received_response.read()
                html_data_string = data_bytes.decode("latin-1")
            link_finder = link_crawler(Crawl_bot.start_link, web_url)
            link_finder.feed(html_data_string)

            ##############################################################################################################################################################################################
            #######################################FOR SCRAPPING PURPOSES#################################################################################################################################
            f = open(
                Crawl_bot.folder_name + '/' +
                ((tldextract.extract(web_url)).domain), 'w')
            f.write(html_data_string)
            f.close()
###############################################################################################################################################################################################
###############################################################################################################################################################################################

        except Exception as e:
            print(str(e))
            return set()
        return link_finder.page_urls()