def create_dictionary(url): # , func=return_status """ Returns the status of this procedure """ # a screener to remove abviously erronious urlz if this_url_looks_fine(url): request = requests.get(url) #print request.status_code if request.status_code == 404: #logger.warning("404 not foud: %s", url) return 'url_404' # aka break out if this # url looks fine and no 404, ok then we run..! OK! Let's go. logger.warning("\n prover med url: %s", url) data = request.text soup = BeautifulSoup(data) dictionary = {'url':url, 'timestamp':datetime.datetime.now()} # Oppretter første dictionary, med url og datetime for når vi laster ned. dictionary = analyze_url(dictionary) # Analyserer URL med hensyn på ting vi ville ha med. dictionary = dispatch_on_template(soup, data, dictionary) # Henter ut data som må hentes ut spesifikt fra hver side. if(dictionary != False): add_to_db(dictionary) # Hiver hele herligheten inn i databasen vår. dictionary['status'] = 'scraped' return dictionary['status'] # Returnerer det vi har laget i tilfelle det skulle være interessant. (til dømes, dersom et annet program skulle kalle denne funksjonen) else: return 'template_not_supported'#False else: return 'url_not_fine'
def main(url): dictionary = {'url':url, 'timestamp':datetime.datetime.now()} # Oppretter første dictionary, med url og datetime for når vi laster ned. dictionary = analyze_url(dictionary) # Analyserer URL med hensyn på ting vi ville ha med. souplist = soup_from_url(url) if souplist == False: # If something went horribly wrong, we just return return soup = souplist[0] data = souplist[1] dictionary = dispatch_on_template(soup, data, dictionary) # Henter ut data som må hentes ut spesifikt fra hver side. if(dictionary != False): add_to_db(dictionary) # Hiver hele herligheten inn i databasen vår. return dictionary # Returnerer det vi har laget i tilfelle det skulle være interessant. (til dømes, dersom et annet program skulle kalle denne funksjonen) else: return False
def main(url): dictionary = { 'url': url, 'timestamp': datetime.datetime.now() } # Oppretter første dictionary, med url og datetime for når vi laster ned. dictionary = analyze_url( dictionary) # Analyserer URL med hensyn på ting vi ville ha med. souplist = soup_from_url(url) if souplist == False: # If something went horribly wrong, we just return return soup = souplist[0] data = souplist[1] dictionary = dispatch_on_template( soup, data, dictionary) # Henter ut data som må hentes ut spesifikt fra hver side. if (dictionary != False): add_to_db(dictionary) # Hiver hele herligheten inn i databasen vår. return dictionary # Returnerer det vi har laget i tilfelle det skulle være interessant. (til dømes, dersom et annet program skulle kalle denne funksjonen) else: return False
def mains(url_collection): for url in url_collection: analyze_url(url) return "DONE"
#! /usr/bin/python2.7 # coding: utf-8 from analyze_url import analyze_url with open ("/home/haakon/pythonjobb/nrk/haakon/testhtml/url.txt") as lenkekilde: lenker = lenkekilde.readlines() for lenke in lenker: oppslag = analyze_url({'url':lenke}) if oppslag['programtilknytning'] == "Juntafil": print "junta"