Example #1
0
def create_dictionary(url): # , func=return_status
    """ Returns the status of this procedure """

    # a screener to remove abviously erronious urlz
    if this_url_looks_fine(url):

        request  = requests.get(url)
        #print request.status_code
        if request.status_code == 404:
            #logger.warning("404 not foud: %s", url) 
            return 'url_404' # aka break out if this
        # url looks fine and no 404, ok then we run..! OK! Let's go.
        logger.warning("\n prover med url: %s", url) 

        data = request.text
        soup = BeautifulSoup(data)

        dictionary = {'url':url, 'timestamp':datetime.datetime.now()}     # Oppretter første dictionary, med url og datetime for når vi laster ned.
        dictionary = analyze_url(dictionary)                              # Analyserer URL med hensyn på ting vi ville ha med.


        dictionary = dispatch_on_template(soup, data, dictionary)         # Henter ut data som må hentes ut spesifikt fra hver side.
        if(dictionary != False):
            add_to_db(dictionary)                                         # Hiver hele herligheten inn i databasen vår.
            dictionary['status'] = 'scraped'
            return dictionary['status']                                             # Returnerer det vi har laget i tilfelle det skulle være interessant. (til dømes, dersom et annet program skulle kalle denne funksjonen)
        else:
            return 'template_not_supported'#False
    else:
        return 'url_not_fine'
Example #2
0
def main(url):           
    dictionary = {'url':url, 'timestamp':datetime.datetime.now()}     # Oppretter første dictionary, med url og datetime for når vi laster ned.
    dictionary = analyze_url(dictionary)                              # Analyserer URL med hensyn på ting vi ville ha med.
    souplist = soup_from_url(url)
    if souplist == False: # If something went horribly wrong, we just return
        return
    soup = souplist[0]
    data = souplist[1]
    dictionary = dispatch_on_template(soup, data, dictionary)         # Henter ut data som må hentes ut spesifikt fra hver side.
    if(dictionary != False):
        add_to_db(dictionary)                                         # Hiver hele herligheten inn i databasen vår.
        return dictionary                                             # Returnerer det vi har laget i tilfelle det skulle være interessant. (til dømes, dersom et annet program skulle kalle denne funksjonen)
    else:
        return False
Example #3
0
def main(url):
    dictionary = {
        'url': url,
        'timestamp': datetime.datetime.now()
    }  # Oppretter første dictionary, med url og datetime for når vi laster ned.
    dictionary = analyze_url(
        dictionary)  # Analyserer URL med hensyn på ting vi ville ha med.
    souplist = soup_from_url(url)
    if souplist == False:  # If something went horribly wrong, we just return
        return
    soup = souplist[0]
    data = souplist[1]
    dictionary = dispatch_on_template(
        soup, data,
        dictionary)  # Henter ut data som må hentes ut spesifikt fra hver side.
    if (dictionary != False):
        add_to_db(dictionary)  # Hiver hele herligheten inn i databasen vår.
        return dictionary  # Returnerer det vi har laget i tilfelle det skulle være interessant. (til dømes, dersom et annet program skulle kalle denne funksjonen)
    else:
        return False
Example #4
0
def mains(url_collection):
    for url in url_collection:
        analyze_url(url)
    return "DONE"
Example #5
0
def mains(url_collection):
    for url in url_collection:
        analyze_url(url)
    return "DONE"
Example #6
0
#! /usr/bin/python2.7
# coding: utf-8
from analyze_url import analyze_url

with open ("/home/haakon/pythonjobb/nrk/haakon/testhtml/url.txt") as lenkekilde:
    lenker = lenkekilde.readlines()

for lenke in lenker:
    oppslag = analyze_url({'url':lenke})
    if oppslag['programtilknytning'] == "Juntafil":
        print "junta"