def collect_url(web_url): html_data_string = '' try: received_response = urlopen(web_url) if 'text/html' in received_response.getheader('Content-Type'): data_bytes = received_response.read() html_data_string = data_bytes.decode("latin-1") link_finder = link_crawler(Crawl_bot.start_link, web_url) link_finder.feed(html_data_string) except Exception as e: print(str(e)) return set() return link_finder.page_urls()
def collect_url(web_url): html_data_string = '' try: received_response = urlopen(web_url) if 'text/html' in received_response.getheader('Content-Type'): data_bytes = received_response.read() html_data_string = data_bytes.decode("latin-1") link_finder = link_crawler(Crawl_bot.start_link, web_url) link_finder.feed(html_data_string) ############################################################################################################################################################################################## #######################################FOR SCRAPPING PURPOSES################################################################################################################################# f = open( Crawl_bot.folder_name + '/' + ((tldextract.extract(web_url)).domain), 'w') f.write(html_data_string) f.close() ############################################################################################################################################################################################### ############################################################################################################################################################################################### except Exception as e: print(str(e)) return set() return link_finder.page_urls()