def zajemi_spletne_strani(imenik): osnovni_naslov = 'http://www.imdb.com/search/title' parametri = 'sort=num_votes,desc&title_type=feature&num_votes=25000,' for stran in range(1, 51): naslov = '{}?{}&page={}'.format(osnovni_naslov, parametri, stran) ime_datoteke = '{}/{:02}.html'.format(imenik, stran) orodja.shrani(naslov, ime_datoteke)
def zajemi_piva(): '''Pregleda celotne strani in zajame posamezna piva''' piva = izloci_url('beerpages/', regex_url_beer) for pivo in piva: ime_datoteke = 'beer/{}.html'.format(pivo['id']) url = "https://www.masterofmalt.com/beer/" + pivo['url'] orodja.shrani(url, ime_datoteke)
def grange(st, ime): rec=0 ImamZadetke=True #global tekme while ImamZadetke: orodja.shrani('http://data.fis-ski.com/dynamic/athlete-biography.html?sector=AL&listid=&competitorid={}&type=result&category=WC&rec_start={}&limit=100'.format(st,rec), 'zajete-strani/{}{}.html'.format(ime,rec)) if rec == 0: rezultat = re.search(r'Skis:.*?>[^>]*>(?P<smuci>[^<]*)', orodja.vsebina_datoteke('zajete-strani/{}{}.html'.format(ime,rec))) rez=re.search(r'Nation:.*\n\W*.*?>.*?>.*?>.*?>(?P<drzava>.+?)<.span>', orodja.vsebina_datoteke('zajete-strani/{}{}.html'.format(ime,rec))) if rezultat is None: ski='Ni_podatka' else: ski = rezultat.group('smuci') tekmovalci.append({'id':st, 'ime':ime, 'drzava': rez.group('drzava'), 'smuci': ski}) tekma = re.compile( #r'<tr><td class=.i[01].>(?P<datum>.*?) <.td>' r'<tr><td class=.i[01].>(?P<datum>.*?) <.td>\n<td class=.i[01].><a href=.+?>(?P<kraj>.+?)<.a><.td>\n.*\n.*\n.*?>(?P<disciplina>.+?)&.*\n<td class.*?>(?P<uvrstitev>.+?) <.td>\n<td .+?>' ) for vnos in re.finditer(tekma, orodja.vsebina_datoteke('zajete-strani/{}{}.html'.format(ime,rec))): datum='{}'.format(vnos.group('datum')) kraj='{}'.format(vnos.group('kraj')) disciplina='{}'.format(vnos.group('disciplina')) mesto='{}'.format(vnos.group('uvrstitev')) tekme.append({'datum': datum, 'kraj': kraj, 'mesto': mesto, 'disciplina': disciplina}) vse.append({'datum': datum, 'kraj': kraj, 'mesto': mesto, 'disciplina': disciplina, 'id': st}) #print (rec) rec+=100 ImamZadetke=(len (tekme) == rec) #print (ImamZadetke, len (tekme)) orodja.zapisi_tabelo(tekme,['datum', 'kraj', 'disciplina', 'mesto'], 'csv-datoteke/{}.csv'.format(ime))
def save_sites(): server = 'https://www.imo-official.org/year_individual_r.aspx' parameters = 'year' for year in range(2007, 2017): url = '{}?{}={}'.format(server, parameters, year) name = 'podatki/{}'.format(year) orodja.shrani(url, name)
def potegni(): for stran in range(1, 422, 4): osnovni_naslov = 'https://ratings.fide.com/toparc.phtml' parametri = '?cod=' naslov = '{}{}{}'.format(osnovni_naslov, parametri, stran) datoteka = 'lista/{:003}.html'.format(stran) orodja.shrani(naslov, datoteka)
def zajemi(): for stran in range(1, 96): osnovno = 'http://www.emsc-csem.org/Earthquake/' parametri = 'filter=yes&start_date=2016-10-01&end_date=2016-10-15' naslov = ('{}?{}&view={}'.format(osnovno, parametri, stran)) datoteka = 'Potresi/{:02}.html'.format(stran) orodja.shrani(naslov, datoteka)
def zajemi_knjige(): for i in range(1,35): spletna_stran = 'http://www.bookdepository.com/bestsellers?format=1,2&searchLang=123' parametri = '&page={}'.format(i) naslov = spletna_stran + parametri ime_datoteke = 'Knjigehtml/Stran{:02}.html'.format(i) orodja.shrani(naslov, ime_datoteke)
def zajemi_recepte(): for i in range(0, 100): spletna_stran = 'https://www.kulinarika.net/recepti/seznam/' parametri = '?sort=popularnost&offset={}'.format(i * 12) naslov = spletna_stran + parametri ime_datoteke = 'ReceptiHTML/Stran{:02}.html'.format(i) orodja.shrani(naslov, ime_datoteke)
def zajemi_podatke(): for stran in range(1, 1500, 20): osnovni_naslov = 'http://www.androidrank.org/listcategory?category=&start=' parametri = '&sort=4&price=all&hl=en' naslov = '{}{}{}'.format(osnovni_naslov, stran, parametri) ime_datoteke = 'aplikacijee/ aplikacije, {}.html'.format(stran) orodja.shrani(naslov, ime_datoteke)
def tekme_url(seznam): '''Iz prejetega seznama pridobi id-je tekem, vsebino strani na danih naslovih shrani v datoteke tekem.''' osnovni_url = 'http://data.fis-ski.com/dynamic/results.html' parametri = 'sector=JP' for stevilka in seznam: id = uredi_id(stevilka) koncni_url = '{}?{}&{}'.format(osnovni_url, parametri, stevilka) datoteka = 'smucarskiskoki/tekme_id/skoki{}.html'.format(id) orodja.shrani(koncni_url, datoteka)
def zajemi_html(): sezone = list(range(1991, 2005)) + list(range(2006, 2009)) + list( range(2012, 2018)) #seznam sezon v katerij je nastopal osnova = "https://www.hockey-reference.com/players/j/jagrja01/gamelog/" #osnovni spletni naslov for sezona in sezone: naslov = "{}{}".format(osnova, sezona) ime_datoteke = "Jagr{}-{}.html".format("%02d" % ((sezona - 1) % 100), "%02d" % (sezona % 100)) orodja.shrani(naslov, ime_datoteke)
def zajemi_spletne_strani(): for stran in range(1, 62): osnovni_naslov = 'http://www.tate.org.uk/search' parametri = 'era=20th century 1900-1945&type=artwork' naslov = '{}?{}&page={}'.format(osnovni_naslov, parametri, stran) datoteka = 'tate/{:02}.html'.format(stran) orodja.shrani(naslov, datoteka) with open(datoteka) as f: vsebina = f.read() for ujemanje in re.finditer('\(\d{4}\)', vsebina): print(ujemanje)
def prenesi_html(): ''' Funcija za shranitev html datoteke za tekme. Sklicuje se na funkcijo shrani iz datoteke orodja. ''' for olimpijske in leta: for disciplina in discipline: naslov = osnovni_naslov + olimpijske + sport + disciplina datoteka = "rezultati_{}_{}.html".format(olimpijske, disciplina) orodja.shrani(naslov, datoteka)
def zajemi_strani_pivo(): '''Zajame podatke iz spletne strani''' osnova = 'https://www.masterofmalt.com/country/' drzave = [("american-beer", 8), ("australian-beer", 1), ("belgian-beer", 5), ("danish-beer", 4), ("dutch-beer", 2), ("english-beer", 17), ("german-beer", 2), ("icelandic-beer", 1), ("japanese-beer", 2), ("kiwi-beer", 2), ("scotch-beer", 5)] for drzava, strani in drzave: for i in range(1, strani + 1): naslov = osnova + drzava + "/" + str(i) + "/" ime_datoteke = 'beer/{}-{}.html'.format(drzava, i) orodja.shrani(naslov, ime_datoteke)
def prenesi_html_tekmovalca(): ''' Funcija za shranitev html datoteke za vsakega tekmovalca. Sklicuje se na funkcijo shrani iz datoteke orodja. ''' for tekmovalec in tekmovalci: tekmovalec.replace('\n', '') naslov = osnovni_naslov + "/" + tekmovalec datoteka = "{}.html".format(tekmovalec) pot = os.path.join("tekmovalci", datoteka) orodja.shrani(naslov, pot)
def zajemi_rezultate(): '''Zajame podatke iz spletne strani''' osnova = 'http://classic.autosport.com/results.php' parametri = 's=80' for leto in range(1949, 2017): naslov = '{}?{}&y={}&c=1'.format(osnova, parametri, leto) ime_datoteke = 'skupni_rezultati/{}.html'.format(leto) orodja.shrani(naslov, ime_datoteke) for dirka in range(1, 19): naslov2 = '{}?{}&y={}&r={}80{:02}&c=2'.format(osnova, parametri, leto, leto, dirka) ime = 'rezultati/{}-{:02}.html'.format(leto, dirka) orodja.shrani(naslov2, ime)
def skakalnice_url(seznam): '''Dobi sezam id-jev skakalnic in vrne seznam url-jev skakalnic''' seznam_skakalnic = [] osnovni_url = 'http://data.fis-ski.com/dynamic/event-details.html' parametri = 'cal_suchsector=JP' for skakalnica in seznam: koncni_url = '{}?event_id={}&{}'.format(osnovni_url, skakalnica, parametri) datoteka = 'smucarskiskoki/skakalnice_id/skoki_{}.html'.format( skakalnica) orodja.shrani(koncni_url, datoteka) seznam_skakalnic.append(datoteka) return seznam_skakalnic
def pripravi_aplikacije(): regex_aplikacije = re.compile( r'<a href="/application/(?P<povezava>.+?)?hl=en">(?P<ime>.+?)</a>', flags=re.DOTALL) for html_datoteka in orodja.datoteke('aplikacije/'): for aplikacija in re.finditer(regex_aplikacije, orodja.vsebina_datoteke(html_datoteka)): naslovcek = '{}{}'.format( 'http://www.androidrank.org/application/', aplikacija.group('povezava')) imencek = 'app/{}.html'.format(aplikacija.group('ime')) orodja.shrani(naslovcek, imencek)
def zajemi_bwin(): if not os.path.exists(datum): os.makedirs(datum) orodja.shrani('https://sports.bwin.com/en/sports', datum + 'bwin.html') izraz = r'href="(?P<link>/en/sports/(?P<id>[0-9]+)/.*/(?P<sport>.*))" title=".*">\s*<span class="sporticon"' #print(izraz) regex_url_filma = re.compile(izraz) #print(regex_url_filma) #print(orodja.vsebina_datoteke(datum + 'bwin.html')) for sport in re.finditer(regex_url_filma, orodja.vsebina_datoteke(datum + 'bwin.html')): url = 'https://sports.bwin.com{}'.format(sport.group('link')) ime_datoteke = datum + 'bwin/{}.html'.format(sport.group('sport')) print(url) orodja.shrani(url, ime_datoteke)
def zajemi_strani_vino(): '''Zajame podatke iz spletne strani''' osnova1 = 'https://winelibrary.com/search?page=' osnova2 = '&search=&sort_by=popular&varietal%5B%5D=Cabernet+Sauvignon&varie' \ 'tal%5B%5D=Chardonnay&varietal%5B%5D=Pinot+Noir&varietal%5B%5D=Merlot&varietal%5B%5D=Syrah+%2F+Shiraz&v' \ 'arietal%5B%5D=Grenache+%2F+Garnacha&varietal%5B%5D=Cabernet+Franc&varietal%5B%5D=Sauvignon+Blanc&varie' \ 'tal%5B%5D=Sangiovese&varietal%5B%5D=Riesling&varietal%5B%5D=Mourvedre+%2F+Mataro+%2F+Monastrell+%2F+Ga' \ 'rrut&varietal%5B%5D=Petit+Verdot&varietal%5B%5D=Tempranillo+%2F+Tinto+Fino+%2F+Tinta+Roriz&varietal%5B' \ '%5D=Malbec&varietal%5B%5D=Pinot+Gris+%2F+Pinot+Grigio&varietal%5B%5D=Cinsault&varietal%5B%5D=Gamay&var' \ 'ietal%5B%5D=Nebbiolo&varietal%5B%5D=Zinfandel&varietal%5B%5D=Carignan+%2F+Carinena&varietal%5B%5D=Peti' \ 'te+Sirah&varietal%5B%5D=Port+Varieties&varietal%5B%5D=Chenin+Blanc&varietal%5B%5D=Muscat&varietal%5B%5' \ 'D=Pinot+Meunier&varietal%5B%5D=Roussanne&varietal%5B%5D=Pinot+Bianco+%2F+Pinot+Blanc&varietal%5B%5D=Ma' \ 'lvasia&varietal%5B%5D=Sherry+Varieties&varietal%5B%5D=Refosco' for stran in range(72, 74): naslov = osnova1 + str(stran) + osnova2 ime_datoteke = 'strani_vina/{}.html'.format(stran) orodja.shrani(naslov, ime_datoteke)
def sezone_url(): '''Vsebino strani za vsako tekmo posebej shrani v svojo datoteko.''' for leto in range(2006, 2017): osnovni_url = 'http://data.fis-ski.com/global-links/all-fis-results.html' parametri = 'sector_search=JP&gender_search=m&category_search=WC&date_from=begin' koncni_url = '{}?seasoncode_search={}&{}'.format( osnovni_url, leto, parametri) datoteka_sezone = 'smucarskiskoki/{}.html'.format(leto) orodja.shrani(koncni_url, datoteka_sezone) '''Sestavimo seznam datotek skakalnic.''' skakalnice_seznam = skakalnice_url( uredi(id_skakalnice(datoteka_sezone))) for skakalnica in skakalnice_seznam: '''Sestavimo seznam id-jev tekem.''' seznam_id_tekem = obdelava_skakalnic(skakalnica) for tekma_id in seznam_id_tekem: tekme_url(tekma_id)
def prenesi_html_drzave(): ''' Funkcija za shranitev html datoteke iz wikipedije za slike zastav. ''' for _, drzava in slovar_drzav.items(): if drzava in { 'Unified_Team_Ex_Ussr_In_1992', '_Independent_Olympic_Athletes', 'Bohemia_Tch_Since_1920', 'British_West_Indies_Bar_Jam', 'Independant Olympic Participant', 'Refugee Olympic Team', 'International Olympic Committee', 'Independent Olympic Athletes' }: continue naslov = osnovni_naslov + "/wiki/" + drzava datoteka = "{}.html".format(drzava) pot = os.path.join("drzave", datoteka) orodja.shrani(naslov, pot)
def zajemi_url(): global tekme orodja.shrani('http://www.fis-ski.com/alpine-skiing/athletes/', 'zajete-strani/sportniki.html') #print("Zajemam ulr ... ") url = re.compile( r'<a href=..alpine-skiing.athletes\D+(?P<id>\d+).. alt=.(?P<ime>[\w| |-]+)' ) smucarji = [] for vnos in re.finditer(url, orodja.vsebina_datoteke('zajete-strani/sportniki.html')): st='{}'.format(vnos.group('id')) ime='{}'.format(vnos.group('ime')) #print (ime, st) #print ('1') smucarji.append({'id': st, 'ime': ime}) tekme=[] grange(st, ime) #zajame podatke za posameznega smučarja #orodja.zapisi_tabelo(smucarji,['id', 'ime'], 'csv-datoteke/smucarji.csv') orodja.zapisi_tabelo(tekmovalci, ['id', 'ime', 'drzava', 'smuci'], 'csv-datoteke/smucarji.csv')
def zajemi_rezultate(): vzorec = 'http://www.imo-official.org/year_individual_r.aspx?year={0}&column=total&order=desc&nameform=western&gender=hide' for i in range(2000,2020): url = vzorec.format(i) ime_datoteke = 'zajemi-rezultate/{0}.html'.format(i) orodja.shrani(url, ime_datoteke)
def zajemi_vina(): '''Pregleda celotne strani in zajame posamezna vina''' vina = izloci_url('strani_vina/', regex_url) for vino in vina: ime_datoteke = 'vina/{}.html'.format(vino['id']) orodja.shrani(vino['url'], ime_datoteke)
import requests import orodja for stran in range (1,62): osnovni_naslov = 'http://www.emsc-csem.org/Earthquake/europe/M4/' parametri = 'view=' naslov = '{}?{}{}'.format(osnovni_naslov, parametri, stran) datoteka = 'strani/{:02}.html'.format(stran) orodja.shrani(naslov, datoteka) print(stran)
continue else: csv_stvari = line.split(',') kategorije[csv_stvari[0]] = [csv_stvari[1]] #spet vzeta koda iz predavanj #https://github.com/matijapretnar/programiranje-1/blob/master/ap-1-zajem-podatkov/predavanja/shrani_strani.py #ta naslednja koda je grozota ampak deluje tako, da kategorija pomeni številka iz csv datoteke #človeku prijaznejši prikaz za ime datotek pa dobim iz kategorije[kategorija] stevilo = 0 #to zgolj da vidim kako dolgo do konca je se for kategorija in kategorije: stevilo += 1 * 20 print(stevilo / 100) for stran in range(1, 21): html_osnova = 'http://www.ebay.com/sch/' + str( kategorija) + '/i.html?_pgn=' + str( stran) + '&_skc=200&_sop=1&_ipg=200' #datoteka = '/Data/Html_Strani/' + 'ebay' + kategorije[kategorija][0] + '-stran{}'.format(stran) + time.strftime('%d.%m.2016') + '.html' datoteka = '{}-stran{:01}-{}.html'.format(kategorije[kategorija][0], stran, time.strftime('%d.%m.2016')) orodja.shrani(html_osnova, datoteka) #to ne deluje ampak očitno ima ebay en API ki mi to lažje omogoča, ta datoteka se bo ohranila, če se API izkaže kot #zanič #API ne dovoljuje uporabe za zbiranje statističnih podatkov #Možno, da ebay ne dovoljuje takih programov, javi samo ! ko zaženem program #Problem enkodiranja se poja včasih, včasih pa ne, nimam pojma kaj je s tem.
import re import orodja spletni_naslovi_projektov = [] with open('spletni_naslovi_projektov', 'r+') as datoteka: for vrstica in datoteka: spletni_naslovi_projektov.append(vrstica[:-1]) print(spletni_naslovi_projektov) stevec = 1 for naslov in spletni_naslovi_projektov: glavni_naslov = 'https://www.kickstarter.com/projects/' polni_naslov = '{}{}'.format(glavni_naslov, naslov) ime_datoteke = 'strani_projektov/{:05}.html'.format(stevec) orodja.shrani(polni_naslov, ime_datoteke) stevec += 1
def poberi_podatke(): for stran in range(2, 243, 40): osnovni_naslov = 'http://www.espn.com/nba/statistics/player/_/stat/scoring-per-game/sort/avgPoints/count/' naslov = '{}{}'.format(osnovni_naslov, stran) ime = 'StatLeaders1617/ StatLeaders,{}.html.txt'.format(stran) orodja.shrani(naslov, ime)
def prenesi_html(): ''' Funcija za shranitev html datoteke za tekme. Sklicuje se na funkcijo shrani iz datoteke orodja. ''' for poddisciplina in poddiscipline1_1: naslov = osnovni_naslov + leta[0] + disciplina1 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina1[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline2_1: naslov = osnovni_naslov + leta[0] + disciplina2 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina2[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline3_1: naslov = osnovni_naslov + leta[0] + disciplina3 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina3[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline4_1: naslov = osnovni_naslov + leta[0] + disciplina4 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina4[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline5_1: naslov = osnovni_naslov + leta[0] + disciplina5 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina5[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline6_1: naslov = osnovni_naslov + leta[0] + disciplina6 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina6[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline7_1: naslov = osnovni_naslov + leta[0] + disciplina7 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina7[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline8_1: naslov = osnovni_naslov + leta[0] + disciplina8_1 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina8_1[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline9_1: naslov = osnovni_naslov + leta[0] + disciplina9 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina9[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline10_1: naslov = osnovni_naslov + leta[0] + disciplina10 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina10[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline11_1: naslov = osnovni_naslov + leta[0] + disciplina11 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina11[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline12_1: naslov = osnovni_naslov + leta[0] + disciplina12 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format(leta[0], disciplina12[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for olimpijske in leta[1:]: for poddisciplina in poddiscipline1_2: naslov = osnovni_naslov + olimpijske + disciplina1 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina1[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline2_2: naslov = osnovni_naslov + olimpijske + disciplina2 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina2[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline3_2: naslov = osnovni_naslov + olimpijske + disciplina3 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina3[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline4_2: naslov = osnovni_naslov + olimpijske + disciplina4 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina4[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline5_2: naslov = osnovni_naslov + olimpijske + disciplina5 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina5[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline6_2: naslov = osnovni_naslov + olimpijske + disciplina6 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina6[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline7_2: naslov = osnovni_naslov + olimpijske + disciplina7 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina7[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline8_2: naslov = osnovni_naslov + olimpijske + disciplina8_2 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina8_2[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline9_2: naslov = osnovni_naslov + olimpijske + disciplina9 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina9[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline10_2: naslov = osnovni_naslov + olimpijske + disciplina10 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina10[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline11_2: naslov = osnovni_naslov + olimpijske + disciplina11 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina11[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka) for poddisciplina in poddiscipline12_2: naslov = osnovni_naslov + olimpijske + disciplina12 + poddisciplina datoteka = "rezultati_{}_{}_{}.html".format( olimpijske, disciplina12[1:], poddisciplina[1:]) orodja.shrani(naslov, datoteka)
def prenesi_url_ikon(): pot = os.path.join('oi', 'oi_ikone.html') orodja.shrani('https://www.olympic.org/summer-games', pot)
import csv import math import time oglasi_na_bolhi = [] file = requests.get( 'http://www.bolha.com/zivali/male-zivali/macke/?page=1').text number_of_adverts = re.findall(r'Št. najdenih oglasov: (\d+)', file) number_of_pages = math.ceil(int(number_of_adverts[0]) / 20) for stran in range(1, number_of_pages + 1): server = 'http://www.bolha.com/zivali/male-zivali/macke/' parametri = 'page=' r = '{}?{}{}'.format(server, parametri, stran) orodja.shrani(r, 'bolha/{:02}'.format(stran)) datoteka = 'bolha/{:02}'.format(stran) with open(datoteka) as f: vsebina = f.read() regex = re.compile( r'div class="ad">.*?<a title="(.+?)".*?</h3>(.+?)<div.*?<div class="price">(?:<span>)?(.*?)(?:</span>)?</div>', re.MULTILINE | re.DOTALL) cats = regex.findall(vsebina) for cat in cats: name, description, price = cat name, description, price = name.strip(), description.strip( ), price.strip() temporary_dic = { 'name': name, 'description': description, 'price': price