Ejemplo n.º 1
0
 def test_get_base_url(self):
     url ="http://www.gamet.com.tr/gelecege-donus/"
     base_url = "http://www.gamet.com.tr"
     self.assertEqual(base_url, turlib.get_base_url(url))
     self.assertEqual("gelecege-donus",turlib.get_path1(url))
     url2="http://www.google.com/testing/retesting/x/"
     self.assertEqual("http://www.google.com",turlib.get_base_url(url2))
     self.assertEqual("testing",turlib.get_path1(url2))
     self.assertEqual("1:00:00:00",turlib.gecen_sure(int(time.time())-86400))
     self.assertEqual("0:01:00:00",turlib.gecen_sure(int(time.time())-3600))
     self.assertEqual("0:00:01:00",turlib.gecen_sure(int(time.time())-60))
     self.assertEqual("0:00:00:00",turlib.gecen_sure(int(time.time())-0))
     self.assertFalse(turlib.hepsi_turkce("Tequila"))
     self.assertFalse(turlib.hepsi_turkce("Washington Post"))
     self.assertTrue(turlib.hepsi_turkce("Bu Türkçe bir cümledir."))
Ejemplo n.º 2
0
 def test_get_base_url(self):
     url = "http://www.gamet.com.tr/gelecege-donus/"
     base_url = "http://www.gamet.com.tr"
     self.assertEqual(base_url, turlib.get_base_url(url))
     self.assertEqual("gelecege-donus", turlib.get_path1(url))
     url2 = "http://www.google.com/testing/retesting/x/"
     self.assertEqual("http://www.google.com", turlib.get_base_url(url2))
     self.assertEqual("testing", turlib.get_path1(url2))
     self.assertEqual("1:00:00:00",
                      turlib.gecen_sure(int(time.time()) - 86400))
     self.assertEqual("0:01:00:00",
                      turlib.gecen_sure(int(time.time()) - 3600))
     self.assertEqual("0:00:01:00",
                      turlib.gecen_sure(int(time.time()) - 60))
     self.assertEqual("0:00:00:00", turlib.gecen_sure(int(time.time()) - 0))
     self.assertFalse(turlib.hepsi_turkce("Tequila"))
     self.assertFalse(turlib.hepsi_turkce("Washington Post"))
     self.assertTrue(turlib.hepsi_turkce("Bu Türkçe bir cümledir."))
Ejemplo n.º 3
0
def main():
    #Daha önce ziyaret edilen adreslerin listesini belleğe al
    ziyaret_edilenleri_oku()
    #Daha önce tespit edilen ama henüz ziyaret edilmemiş adresleri belleğe al
    yeni_linkleri_oku()

    #yeni linkler tamamlanıncaya kadar işlemlere devam et
    while len(yeni_linkler) > 0:
        url = yeni_linkler[0].strip()
        base_url = turlib.get_base_url(url)
        print(len(yeni_linkler), url, base_url)
        #Bu adresteki linkleri al
        linkler = turlib.linkleriAl(url)
        for link in linkler:
            if link not in yeni_linkler:
                yeni_linkler.append(link)

        #Bu adresteki sayfayı oku, sadece text haline dönüştür
        #Belli bir boyutun üzerindeyse Türkçe kontrolü yap
        #Uygun boyutta ve Türkçeyse ayrıştırma işlemlerini uygula
        sayfa = turlib.sayfaOku(url)
        #print(sayfa)

        if base_url == "http://www.gamet.com.tr":
            metin = sayfa.findAll("div", attrs={"class": "entry-container"})
            for sat in metin:
                print(sat.text)
        """
        data = sayfa.findAll(text=True)
        result = filter(visible, data)
        for element in result:
            metin = element.strip()
            if len(metin)>0:
                print(metin)
        """
        #En baştaki adresi ziyaret edilenler listesine ekle ve yeni_linkler listesinden sil
        ziyaret_edilenler.append(url)
        yeni_linkler.pop(0)
Ejemplo n.º 4
0
def main():
    #Daha önce ziyaret edilen adreslerin listesini belleğe al
    ziyaret_edilenleri_oku()
    #Daha önce tespit edilen ama henüz ziyaret edilmemiş adresleri belleğe al
    yeni_linkleri_oku()

    #yeni linkler tamamlanıncaya kadar işlemlere devam et
    while len(yeni_linkler)>0:
        url = yeni_linkler[0].strip()
        base_url = turlib.get_base_url(url)
        print(len(yeni_linkler),url, base_url)
        #Bu adresteki linkleri al
        linkler = turlib.linkleriAl(url)
        for link in linkler:
            if link not in yeni_linkler:
                yeni_linkler.append(link)

        #Bu adresteki sayfayı oku, sadece text haline dönüştür
        #Belli bir boyutun üzerindeyse Türkçe kontrolü yap
        #Uygun boyutta ve Türkçeyse ayrıştırma işlemlerini uygula
        sayfa = turlib.sayfaOku(url)
        #print(sayfa)

        if base_url=="http://www.gamet.com.tr":
            metin = sayfa.findAll("div",attrs={"class" : "entry-container"})
            for sat in metin:
                print(sat.text)
        """
        data = sayfa.findAll(text=True)
        result = filter(visible, data)
        for element in result:
            metin = element.strip()
            if len(metin)>0:
                print(metin)
        """
        #En baştaki adresi ziyaret edilenler listesine ekle ve yeni_linkler listesinden sil
        ziyaret_edilenler.append(url)
        yeni_linkler.pop(0)