def zajemi_spletne_strani(imenik):
    osnovni_naslov = 'http://www.imdb.com/search/title'
    parametri = 'sort=num_votes,desc&title_type=feature&num_votes=25000,'
    for stran in range(1, 51):
        naslov = '{}?{}&page={}'.format(osnovni_naslov, parametri, stran)
        ime_datoteke = '{}/{:02}.html'.format(imenik, stran)
        orodja.shrani(naslov, ime_datoteke)
def zajemi_piva():
    '''Pregleda celotne strani in zajame posamezna piva'''
    piva = izloci_url('beerpages/', regex_url_beer)
    for pivo in piva:
        ime_datoteke = 'beer/{}.html'.format(pivo['id'])
        url = "https://www.masterofmalt.com/beer/" + pivo['url']
        orodja.shrani(url, ime_datoteke)
Example #3
0
def grange(st, ime):
    rec=0
    ImamZadetke=True
    #global tekme
    while ImamZadetke:
        orodja.shrani('http://data.fis-ski.com/dynamic/athlete-biography.html?sector=AL&listid=&competitorid={}&type=result&category=WC&rec_start={}&limit=100'.format(st,rec), 'zajete-strani/{}{}.html'.format(ime,rec))
        if rec == 0:
            rezultat = re.search(r'Skis:.*?>[^>]*>(?P<smuci>[^<]*)', orodja.vsebina_datoteke('zajete-strani/{}{}.html'.format(ime,rec)))
            rez=re.search(r'Nation:.*\n\W*.*?>.*?>.*?>.*?>(?P<drzava>.+?)<.span>', orodja.vsebina_datoteke('zajete-strani/{}{}.html'.format(ime,rec)))
            if rezultat is None:
                ski='Ni_podatka'
            else:
                ski = rezultat.group('smuci')
            tekmovalci.append({'id':st, 'ime':ime, 'drzava': rez.group('drzava'), 'smuci': ski})

        tekma = re.compile(
            #r'<tr><td class=.i[01].>(?P<datum>.*?)&nbsp;<.td>'
            r'<tr><td class=.i[01].>(?P<datum>.*?)&nbsp;<.td>\n<td class=.i[01].><a href=.+?>(?P<kraj>.+?)<.a><.td>\n.*\n.*\n.*?>(?P<disciplina>.+?)&.*\n<td class.*?>(?P<uvrstitev>.+?)&nbsp;<.td>\n<td .+?>'
        )
    
        for vnos in re.finditer(tekma, orodja.vsebina_datoteke('zajete-strani/{}{}.html'.format(ime,rec))):
            datum='{}'.format(vnos.group('datum'))
            kraj='{}'.format(vnos.group('kraj'))
            disciplina='{}'.format(vnos.group('disciplina'))
            mesto='{}'.format(vnos.group('uvrstitev'))
            tekme.append({'datum': datum, 'kraj': kraj, 'mesto': mesto, 'disciplina': disciplina})
            vse.append({'datum': datum, 'kraj': kraj, 'mesto': mesto, 'disciplina': disciplina, 'id': st})

        #print (rec)
        rec+=100
        ImamZadetke=(len (tekme) == rec)
        #print (ImamZadetke, len (tekme))
    orodja.zapisi_tabelo(tekme,['datum', 'kraj', 'disciplina', 'mesto'], 'csv-datoteke/{}.csv'.format(ime))
def save_sites():
    server = 'https://www.imo-official.org/year_individual_r.aspx'
    parameters = 'year'
    for year in range(2007, 2017):
        url = '{}?{}={}'.format(server, parameters, year)
        name = 'podatki/{}'.format(year)
        orodja.shrani(url, name)
def potegni():
    for stran in range(1, 422, 4):
        osnovni_naslov = 'https://ratings.fide.com/toparc.phtml'
        parametri = '?cod='
        naslov = '{}{}{}'.format(osnovni_naslov, parametri, stran)
        datoteka = 'lista/{:003}.html'.format(stran)
        orodja.shrani(naslov, datoteka)
Example #6
0
def zajemi():
    for stran in range(1, 96):
        osnovno = 'http://www.emsc-csem.org/Earthquake/'
        parametri = 'filter=yes&start_date=2016-10-01&end_date=2016-10-15'
        naslov = ('{}?{}&view={}'.format(osnovno, parametri, stran))
        datoteka = 'Potresi/{:02}.html'.format(stran)
        orodja.shrani(naslov, datoteka)
def zajemi_knjige():
    for i in range(1,35):
         spletna_stran = 'http://www.bookdepository.com/bestsellers?format=1,2&searchLang=123'
         parametri = '&page={}'.format(i)
         naslov = spletna_stran + parametri
         ime_datoteke = 'Knjigehtml/Stran{:02}.html'.format(i)
         orodja.shrani(naslov, ime_datoteke)
Example #8
0
def zajemi_recepte():
    for i in range(0, 100):
        spletna_stran = 'https://www.kulinarika.net/recepti/seznam/'
        parametri = '?sort=popularnost&offset={}'.format(i * 12)
        naslov = spletna_stran + parametri
        ime_datoteke = 'ReceptiHTML/Stran{:02}.html'.format(i)
        orodja.shrani(naslov, ime_datoteke)
Example #9
0
def zajemi_podatke():
    for stran in range(1, 1500, 20):
        osnovni_naslov = 'http://www.androidrank.org/listcategory?category=&start='
        parametri = '&sort=4&price=all&hl=en'
        naslov = '{}{}{}'.format(osnovni_naslov, stran, parametri)
        ime_datoteke = 'aplikacijee/ aplikacije, {}.html'.format(stran)
        orodja.shrani(naslov, ime_datoteke)
Example #10
0
def tekme_url(seznam):
    '''Iz prejetega seznama pridobi id-je tekem, vsebino strani na danih naslovih shrani v datoteke tekem.'''
    osnovni_url = 'http://data.fis-ski.com/dynamic/results.html'
    parametri = 'sector=JP'
    for stevilka in seznam:
        id = uredi_id(stevilka)
        koncni_url = '{}?{}&{}'.format(osnovni_url, parametri, stevilka)
        datoteka = 'smucarskiskoki/tekme_id/skoki{}.html'.format(id)
        orodja.shrani(koncni_url, datoteka)
Example #11
0
def zajemi_html():
    sezone = list(range(1991, 2005)) + list(range(2006, 2009)) + list(
        range(2012, 2018))  #seznam sezon v katerij je nastopal
    osnova = "https://www.hockey-reference.com/players/j/jagrja01/gamelog/"  #osnovni spletni naslov
    for sezona in sezone:
        naslov = "{}{}".format(osnova, sezona)
        ime_datoteke = "Jagr{}-{}.html".format("%02d" % ((sezona - 1) % 100),
                                               "%02d" % (sezona % 100))
        orodja.shrani(naslov, ime_datoteke)
Example #12
0
def zajemi_spletne_strani():
    for stran in range(1, 62):
        osnovni_naslov = 'http://www.tate.org.uk/search'
        parametri = 'era=20th century 1900-1945&type=artwork'
        naslov = '{}?{}&page={}'.format(osnovni_naslov, parametri, stran)
        datoteka = 'tate/{:02}.html'.format(stran)
        orodja.shrani(naslov, datoteka)
        with open(datoteka) as f:
            vsebina = f.read()
            for ujemanje in re.finditer('\(\d{4}\)', vsebina):
                print(ujemanje)
Example #13
0
def prenesi_html():
    '''
    Funcija za shranitev html datoteke za tekme. Sklicuje se na funkcijo
    shrani iz datoteke orodja.
    '''

    for olimpijske in leta:
        for disciplina in discipline:
            naslov = osnovni_naslov + olimpijske + sport + disciplina
            datoteka = "rezultati_{}_{}.html".format(olimpijske, disciplina)
            orodja.shrani(naslov, datoteka)
def zajemi_strani_pivo():
    '''Zajame podatke iz spletne strani'''
    osnova = 'https://www.masterofmalt.com/country/'
    drzave = [("american-beer", 8), ("australian-beer", 1),
              ("belgian-beer", 5), ("danish-beer", 4), ("dutch-beer", 2),
              ("english-beer", 17), ("german-beer", 2), ("icelandic-beer", 1),
              ("japanese-beer", 2), ("kiwi-beer", 2), ("scotch-beer", 5)]
    for drzava, strani in drzave:
        for i in range(1, strani + 1):
            naslov = osnova + drzava + "/" + str(i) + "/"
            ime_datoteke = 'beer/{}-{}.html'.format(drzava, i)
            orodja.shrani(naslov, ime_datoteke)
Example #15
0
def prenesi_html_tekmovalca():
    '''
    Funcija za shranitev html datoteke za vsakega tekmovalca. Sklicuje se
    na funkcijo shrani iz datoteke orodja.
    '''

    for tekmovalec in tekmovalci:
        tekmovalec.replace('\n', '')
        naslov = osnovni_naslov + "/" + tekmovalec
        datoteka = "{}.html".format(tekmovalec)
        pot = os.path.join("tekmovalci", datoteka)
        orodja.shrani(naslov, pot)
Example #16
0
def zajemi_rezultate():
    '''Zajame podatke iz spletne strani'''
    osnova = 'http://classic.autosport.com/results.php'
    parametri = 's=80'
    for leto in range(1949, 2017):
        naslov = '{}?{}&y={}&c=1'.format(osnova, parametri, leto)
        ime_datoteke = 'skupni_rezultati/{}.html'.format(leto)
        orodja.shrani(naslov, ime_datoteke)
        for dirka in range(1, 19):
            naslov2 = '{}?{}&y={}&r={}80{:02}&c=2'.format(osnova, parametri, leto, leto, dirka)
            ime = 'rezultati/{}-{:02}.html'.format(leto, dirka)
            orodja.shrani(naslov2, ime)
Example #17
0
def skakalnice_url(seznam):
    '''Dobi sezam id-jev skakalnic in vrne seznam url-jev skakalnic'''
    seznam_skakalnic = []
    osnovni_url = 'http://data.fis-ski.com/dynamic/event-details.html'
    parametri = 'cal_suchsector=JP'
    for skakalnica in seznam:
        koncni_url = '{}?event_id={}&{}'.format(osnovni_url, skakalnica,
                                                parametri)
        datoteka = 'smucarskiskoki/skakalnice_id/skoki_{}.html'.format(
            skakalnica)
        orodja.shrani(koncni_url, datoteka)
        seznam_skakalnic.append(datoteka)
    return seznam_skakalnic
Example #18
0
def pripravi_aplikacije():
    regex_aplikacije = re.compile(
        r'<a href="/application/(?P<povezava>.+?)?hl=en">(?P<ime>.+?)</a>',
        flags=re.DOTALL)

    for html_datoteka in orodja.datoteke('aplikacije/'):
        for aplikacija in re.finditer(regex_aplikacije,
                                      orodja.vsebina_datoteke(html_datoteka)):
            naslovcek = '{}{}'.format(
                'http://www.androidrank.org/application/',
                aplikacija.group('povezava'))
            imencek = 'app/{}.html'.format(aplikacija.group('ime'))
            orodja.shrani(naslovcek, imencek)
Example #19
0
def zajemi_bwin():
    if not os.path.exists(datum):
        os.makedirs(datum)
    orodja.shrani('https://sports.bwin.com/en/sports', datum + 'bwin.html')
    izraz = r'href="(?P<link>/en/sports/(?P<id>[0-9]+)/.*/(?P<sport>.*))" title=".*">\s*<span class="sporticon"'
    #print(izraz)
    regex_url_filma = re.compile(izraz)
    #print(regex_url_filma)
    #print(orodja.vsebina_datoteke(datum + 'bwin.html'))
    for sport in re.finditer(regex_url_filma, orodja.vsebina_datoteke(datum + 'bwin.html')):
        url = 'https://sports.bwin.com{}'.format(sport.group('link'))
        ime_datoteke = datum + 'bwin/{}.html'.format(sport.group('sport'))
        print(url)
        orodja.shrani(url, ime_datoteke)
def zajemi_strani_vino():
    '''Zajame podatke iz spletne strani'''
    osnova1 = 'https://winelibrary.com/search?page='
    osnova2 = '&search=&sort_by=popular&varietal%5B%5D=Cabernet+Sauvignon&varie' \
             'tal%5B%5D=Chardonnay&varietal%5B%5D=Pinot+Noir&varietal%5B%5D=Merlot&varietal%5B%5D=Syrah+%2F+Shiraz&v' \
             'arietal%5B%5D=Grenache+%2F+Garnacha&varietal%5B%5D=Cabernet+Franc&varietal%5B%5D=Sauvignon+Blanc&varie' \
             'tal%5B%5D=Sangiovese&varietal%5B%5D=Riesling&varietal%5B%5D=Mourvedre+%2F+Mataro+%2F+Monastrell+%2F+Ga' \
             'rrut&varietal%5B%5D=Petit+Verdot&varietal%5B%5D=Tempranillo+%2F+Tinto+Fino+%2F+Tinta+Roriz&varietal%5B' \
             '%5D=Malbec&varietal%5B%5D=Pinot+Gris+%2F+Pinot+Grigio&varietal%5B%5D=Cinsault&varietal%5B%5D=Gamay&var' \
             'ietal%5B%5D=Nebbiolo&varietal%5B%5D=Zinfandel&varietal%5B%5D=Carignan+%2F+Carinena&varietal%5B%5D=Peti' \
             'te+Sirah&varietal%5B%5D=Port+Varieties&varietal%5B%5D=Chenin+Blanc&varietal%5B%5D=Muscat&varietal%5B%5' \
             'D=Pinot+Meunier&varietal%5B%5D=Roussanne&varietal%5B%5D=Pinot+Bianco+%2F+Pinot+Blanc&varietal%5B%5D=Ma' \
             'lvasia&varietal%5B%5D=Sherry+Varieties&varietal%5B%5D=Refosco'
    for stran in range(72, 74):
        naslov = osnova1 + str(stran) + osnova2
        ime_datoteke = 'strani_vina/{}.html'.format(stran)
        orodja.shrani(naslov, ime_datoteke)
Example #21
0
def sezone_url():
    '''Vsebino strani za vsako tekmo posebej shrani v svojo datoteko.'''
    for leto in range(2006, 2017):
        osnovni_url = 'http://data.fis-ski.com/global-links/all-fis-results.html'
        parametri = 'sector_search=JP&gender_search=m&category_search=WC&date_from=begin'
        koncni_url = '{}?seasoncode_search={}&{}'.format(
            osnovni_url, leto, parametri)
        datoteka_sezone = 'smucarskiskoki/{}.html'.format(leto)
        orodja.shrani(koncni_url, datoteka_sezone)
        '''Sestavimo seznam datotek skakalnic.'''
        skakalnice_seznam = skakalnice_url(
            uredi(id_skakalnice(datoteka_sezone)))

        for skakalnica in skakalnice_seznam:
            '''Sestavimo seznam id-jev tekem.'''
            seznam_id_tekem = obdelava_skakalnic(skakalnica)

            for tekma_id in seznam_id_tekem:
                tekme_url(tekma_id)
Example #22
0
def prenesi_html_drzave():
    '''
    Funkcija za shranitev html datoteke iz wikipedije za slike zastav.
    '''

    for _, drzava in slovar_drzav.items():
        if drzava in {
                'Unified_Team_Ex_Ussr_In_1992',
                '_Independent_Olympic_Athletes', 'Bohemia_Tch_Since_1920',
                'British_West_Indies_Bar_Jam',
                'Independant Olympic Participant', 'Refugee Olympic Team',
                'International Olympic Committee',
                'Independent Olympic Athletes'
        }:
            continue
        naslov = osnovni_naslov + "/wiki/" + drzava
        datoteka = "{}.html".format(drzava)
        pot = os.path.join("drzave", datoteka)
        orodja.shrani(naslov, pot)
Example #23
0
def zajemi_url():
    global tekme
    orodja.shrani('http://www.fis-ski.com/alpine-skiing/athletes/', 'zajete-strani/sportniki.html')
    #print("Zajemam ulr ... ")
    url = re.compile(
        r'<a href=..alpine-skiing.athletes\D+(?P<id>\d+).. alt=.(?P<ime>[\w| |-]+)'
    )

    smucarji = []
 
    for vnos in re.finditer(url, orodja.vsebina_datoteke('zajete-strani/sportniki.html')):
        st='{}'.format(vnos.group('id'))
        ime='{}'.format(vnos.group('ime'))
        #print (ime, st)
        #print ('1')
        smucarji.append({'id': st, 'ime': ime})
        tekme=[]
        grange(st, ime) #zajame podatke za posameznega smučarja
    #orodja.zapisi_tabelo(smucarji,['id', 'ime'], 'csv-datoteke/smucarji.csv')

    orodja.zapisi_tabelo(tekmovalci, ['id', 'ime', 'drzava', 'smuci'], 'csv-datoteke/smucarji.csv')
def zajemi_rezultate():
    vzorec = 'http://www.imo-official.org/year_individual_r.aspx?year={0}&column=total&order=desc&nameform=western&gender=hide'
    for i in range(2000,2020):
        url = vzorec.format(i)
        ime_datoteke = 'zajemi-rezultate/{0}.html'.format(i)
        orodja.shrani(url, ime_datoteke)
def zajemi_vina():
    '''Pregleda celotne strani in zajame posamezna vina'''
    vina = izloci_url('strani_vina/', regex_url)
    for vino in vina:
        ime_datoteke = 'vina/{}.html'.format(vino['id'])
        orodja.shrani(vino['url'], ime_datoteke)
Example #26
0
import requests
import orodja


for stran in range (1,62):
    osnovni_naslov = 'http://www.emsc-csem.org/Earthquake/europe/M4/'
    parametri = 'view='
    naslov = '{}?{}{}'.format(osnovni_naslov, parametri, stran)
    datoteka = 'strani/{:02}.html'.format(stran)
    orodja.shrani(naslov, datoteka)
    print(stran)
        continue
    else:
        csv_stvari = line.split(',')
        kategorije[csv_stvari[0]] = [csv_stvari[1]]

#spet vzeta koda iz predavanj
#https://github.com/matijapretnar/programiranje-1/blob/master/ap-1-zajem-podatkov/predavanja/shrani_strani.py

#ta naslednja koda je grozota ampak deluje tako, da kategorija pomeni številka iz csv datoteke
#človeku prijaznejši prikaz za ime datotek pa dobim iz kategorije[kategorija]
stevilo = 0  #to zgolj da vidim kako dolgo do konca je se

for kategorija in kategorije:
    stevilo += 1 * 20
    print(stevilo / 100)
    for stran in range(1, 21):
        html_osnova = 'http://www.ebay.com/sch/' + str(
            kategorija) + '/i.html?_pgn=' + str(
                stran) + '&_skc=200&_sop=1&_ipg=200'
        #datoteka = '/Data/Html_Strani/' + 'ebay' + kategorije[kategorija][0] + '-stran{}'.format(stran) + time.strftime('%d.%m.2016') + '.html'
        datoteka = '{}-stran{:01}-{}.html'.format(kategorije[kategorija][0],
                                                  stran,
                                                  time.strftime('%d.%m.2016'))
        orodja.shrani(html_osnova, datoteka)

#to ne deluje ampak očitno ima ebay en API ki mi to lažje omogoča, ta datoteka se bo ohranila, če se API izkaže kot
#zanič
#API ne dovoljuje uporabe za zbiranje statističnih podatkov
#Možno, da ebay ne dovoljuje takih programov, javi samo ! ko zaženem program
#Problem enkodiranja se poja včasih, včasih pa ne, nimam pojma kaj je s tem.
import re
import orodja

spletni_naslovi_projektov = []
with open('spletni_naslovi_projektov', 'r+') as datoteka:
    for vrstica in datoteka:
        spletni_naslovi_projektov.append(vrstica[:-1])

print(spletni_naslovi_projektov)

stevec = 1
for naslov in spletni_naslovi_projektov:
    glavni_naslov = 'https://www.kickstarter.com/projects/'
    polni_naslov = '{}{}'.format(glavni_naslov, naslov)
    ime_datoteke = 'strani_projektov/{:05}.html'.format(stevec)
    orodja.shrani(polni_naslov, ime_datoteke)
    stevec += 1
def poberi_podatke():
    for stran in range(2, 243, 40):
        osnovni_naslov = 'http://www.espn.com/nba/statistics/player/_/stat/scoring-per-game/sort/avgPoints/count/'
        naslov = '{}{}'.format(osnovni_naslov, stran)
        ime = 'StatLeaders1617/ StatLeaders,{}.html.txt'.format(stran)
        orodja.shrani(naslov, ime)
def prenesi_html():
    '''
    Funcija za shranitev html datoteke za tekme. Sklicuje se na funkcijo
    shrani iz datoteke orodja.
    '''

    for poddisciplina in poddiscipline1_1:
        naslov = osnovni_naslov + leta[0] + disciplina1 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina1[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline2_1:
        naslov = osnovni_naslov + leta[0] + disciplina2 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina2[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline3_1:
        naslov = osnovni_naslov + leta[0] + disciplina3 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina3[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline4_1:
        naslov = osnovni_naslov + leta[0] + disciplina4 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina4[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline5_1:
        naslov = osnovni_naslov + leta[0] + disciplina5 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina5[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline6_1:
        naslov = osnovni_naslov + leta[0] + disciplina6 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina6[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline7_1:
        naslov = osnovni_naslov + leta[0] + disciplina7 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina7[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline8_1:
        naslov = osnovni_naslov + leta[0] + disciplina8_1 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina8_1[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline9_1:
        naslov = osnovni_naslov + leta[0] + disciplina9 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina9[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline10_1:
        naslov = osnovni_naslov + leta[0] + disciplina10 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina10[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline11_1:
        naslov = osnovni_naslov + leta[0] + disciplina11 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina11[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)
    for poddisciplina in poddiscipline12_1:
        naslov = osnovni_naslov + leta[0] + disciplina12 + poddisciplina
        datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina12[1:],
                                                    poddisciplina[1:])
        orodja.shrani(naslov, datoteka)

    for olimpijske in leta[1:]:
        for poddisciplina in poddiscipline1_2:
            naslov = osnovni_naslov + olimpijske + disciplina1 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina1[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline2_2:
            naslov = osnovni_naslov + olimpijske + disciplina2 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina2[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline3_2:
            naslov = osnovni_naslov + olimpijske + disciplina3 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina3[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline4_2:
            naslov = osnovni_naslov + olimpijske + disciplina4 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina4[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline5_2:
            naslov = osnovni_naslov + olimpijske + disciplina5 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina5[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline6_2:
            naslov = osnovni_naslov + olimpijske + disciplina6 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina6[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline7_2:
            naslov = osnovni_naslov + olimpijske + disciplina7 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina7[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline8_2:
            naslov = osnovni_naslov + olimpijske + disciplina8_2 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina8_2[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline9_2:
            naslov = osnovni_naslov + olimpijske + disciplina9 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina9[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline10_2:
            naslov = osnovni_naslov + olimpijske + disciplina10 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina10[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline11_2:
            naslov = osnovni_naslov + olimpijske + disciplina11 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina11[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
        for poddisciplina in poddiscipline12_2:
            naslov = osnovni_naslov + olimpijske + disciplina12 + poddisciplina
            datoteka = "rezultati_{}_{}_{}.html".format(
                olimpijske, disciplina12[1:], poddisciplina[1:])
            orodja.shrani(naslov, datoteka)
Example #31
0
def prenesi_url_ikon():
    pot = os.path.join('oi', 'oi_ikone.html')
    orodja.shrani('https://www.olympic.org/summer-games', pot)
import csv
import math
import time

oglasi_na_bolhi = []

file = requests.get(
    'http://www.bolha.com/zivali/male-zivali/macke/?page=1').text
number_of_adverts = re.findall(r'Št. najdenih oglasov: (\d+)', file)
number_of_pages = math.ceil(int(number_of_adverts[0]) / 20)

for stran in range(1, number_of_pages + 1):
    server = 'http://www.bolha.com/zivali/male-zivali/macke/'
    parametri = 'page='
    r = '{}?{}{}'.format(server, parametri, stran)
    orodja.shrani(r, 'bolha/{:02}'.format(stran))
    datoteka = 'bolha/{:02}'.format(stran)
    with open(datoteka) as f:
        vsebina = f.read()
        regex = re.compile(
            r'div class="ad">.*?<a title="(.+?)".*?</h3>(.+?)<div.*?<div class="price">(?:<span>)?(.*?)(?:</span>)?</div>',
            re.MULTILINE | re.DOTALL)
        cats = regex.findall(vsebina)
        for cat in cats:
            name, description, price = cat
            name, description, price = name.strip(), description.strip(
            ), price.strip()
            temporary_dic = {
                'name': name,
                'description': description,
                'price': price