def test_get_base_url(self): url ="http://www.gamet.com.tr/gelecege-donus/" base_url = "http://www.gamet.com.tr" self.assertEqual(base_url, turlib.get_base_url(url)) self.assertEqual("gelecege-donus",turlib.get_path1(url)) url2="http://www.google.com/testing/retesting/x/" self.assertEqual("http://www.google.com",turlib.get_base_url(url2)) self.assertEqual("testing",turlib.get_path1(url2)) self.assertEqual("1:00:00:00",turlib.gecen_sure(int(time.time())-86400)) self.assertEqual("0:01:00:00",turlib.gecen_sure(int(time.time())-3600)) self.assertEqual("0:00:01:00",turlib.gecen_sure(int(time.time())-60)) self.assertEqual("0:00:00:00",turlib.gecen_sure(int(time.time())-0)) self.assertFalse(turlib.hepsi_turkce("Tequila")) self.assertFalse(turlib.hepsi_turkce("Washington Post")) self.assertTrue(turlib.hepsi_turkce("Bu Türkçe bir cümledir."))
def test_get_base_url(self): url = "http://www.gamet.com.tr/gelecege-donus/" base_url = "http://www.gamet.com.tr" self.assertEqual(base_url, turlib.get_base_url(url)) self.assertEqual("gelecege-donus", turlib.get_path1(url)) url2 = "http://www.google.com/testing/retesting/x/" self.assertEqual("http://www.google.com", turlib.get_base_url(url2)) self.assertEqual("testing", turlib.get_path1(url2)) self.assertEqual("1:00:00:00", turlib.gecen_sure(int(time.time()) - 86400)) self.assertEqual("0:01:00:00", turlib.gecen_sure(int(time.time()) - 3600)) self.assertEqual("0:00:01:00", turlib.gecen_sure(int(time.time()) - 60)) self.assertEqual("0:00:00:00", turlib.gecen_sure(int(time.time()) - 0)) self.assertFalse(turlib.hepsi_turkce("Tequila")) self.assertFalse(turlib.hepsi_turkce("Washington Post")) self.assertTrue(turlib.hepsi_turkce("Bu Türkçe bir cümledir."))
def main(): #Daha önce ziyaret edilen adreslerin listesini belleğe al ziyaret_edilenleri_oku() #Daha önce tespit edilen ama henüz ziyaret edilmemiş adresleri belleğe al yeni_linkleri_oku() #yeni linkler tamamlanıncaya kadar işlemlere devam et while len(yeni_linkler) > 0: url = yeni_linkler[0].strip() base_url = turlib.get_base_url(url) print(len(yeni_linkler), url, base_url) #Bu adresteki linkleri al linkler = turlib.linkleriAl(url) for link in linkler: if link not in yeni_linkler: yeni_linkler.append(link) #Bu adresteki sayfayı oku, sadece text haline dönüştür #Belli bir boyutun üzerindeyse Türkçe kontrolü yap #Uygun boyutta ve Türkçeyse ayrıştırma işlemlerini uygula sayfa = turlib.sayfaOku(url) #print(sayfa) if base_url == "http://www.gamet.com.tr": metin = sayfa.findAll("div", attrs={"class": "entry-container"}) for sat in metin: print(sat.text) """ data = sayfa.findAll(text=True) result = filter(visible, data) for element in result: metin = element.strip() if len(metin)>0: print(metin) """ #En baştaki adresi ziyaret edilenler listesine ekle ve yeni_linkler listesinden sil ziyaret_edilenler.append(url) yeni_linkler.pop(0)
def main(): #Daha önce ziyaret edilen adreslerin listesini belleğe al ziyaret_edilenleri_oku() #Daha önce tespit edilen ama henüz ziyaret edilmemiş adresleri belleğe al yeni_linkleri_oku() #yeni linkler tamamlanıncaya kadar işlemlere devam et while len(yeni_linkler)>0: url = yeni_linkler[0].strip() base_url = turlib.get_base_url(url) print(len(yeni_linkler),url, base_url) #Bu adresteki linkleri al linkler = turlib.linkleriAl(url) for link in linkler: if link not in yeni_linkler: yeni_linkler.append(link) #Bu adresteki sayfayı oku, sadece text haline dönüştür #Belli bir boyutun üzerindeyse Türkçe kontrolü yap #Uygun boyutta ve Türkçeyse ayrıştırma işlemlerini uygula sayfa = turlib.sayfaOku(url) #print(sayfa) if base_url=="http://www.gamet.com.tr": metin = sayfa.findAll("div",attrs={"class" : "entry-container"}) for sat in metin: print(sat.text) """ data = sayfa.findAll(text=True) result = filter(visible, data) for element in result: metin = element.strip() if len(metin)>0: print(metin) """ #En baştaki adresi ziyaret edilenler listesine ekle ve yeni_linkler listesinden sil ziyaret_edilenler.append(url) yeni_linkler.pop(0)