コード例 #1
0
ファイル: turlibtest.py プロジェクト: ahmetax/derlemtr
 def test_get_base_url(self):
     url ="http://www.gamet.com.tr/gelecege-donus/"
     base_url = "http://www.gamet.com.tr"
     self.assertEqual(base_url, turlib.get_base_url(url))
     self.assertEqual("gelecege-donus",turlib.get_path1(url))
     url2="http://www.google.com/testing/retesting/x/"
     self.assertEqual("http://www.google.com",turlib.get_base_url(url2))
     self.assertEqual("testing",turlib.get_path1(url2))
     self.assertEqual("1:00:00:00",turlib.gecen_sure(int(time.time())-86400))
     self.assertEqual("0:01:00:00",turlib.gecen_sure(int(time.time())-3600))
     self.assertEqual("0:00:01:00",turlib.gecen_sure(int(time.time())-60))
     self.assertEqual("0:00:00:00",turlib.gecen_sure(int(time.time())-0))
     self.assertFalse(turlib.hepsi_turkce("Tequila"))
     self.assertFalse(turlib.hepsi_turkce("Washington Post"))
     self.assertTrue(turlib.hepsi_turkce("Bu Türkçe bir cümledir."))
コード例 #2
0
ファイル: hurriyet.py プロジェクト: ahmetax/derlemtr
def load_arsiv_page(driver,adres):
    global habersay
    basla = time.perf_counter()
    if adres[-1]=='/': adres = adres[:-1]
    base_url = get_base_url(adres)
    driver.get(adres)
    elements = driver.find_elements_by_xpath("//h3/a[@href]")
    for a in elements:
        try:
            b = a.get_attribute('href')
        except Exception as e:
            turkcemi.mesajyaz("{} Exception -1: {}".format(modname,e))
            continue
        if b is None: continue
        if len(b)==0: continue
        if b[-1]=='/': b = b[:-1]
        if b == base_url: continue
        if not b.startswith(base_url): continue
        if b == adres: continue
        if b == base_url+"/index": continue
        habersay += 1
        turkcemi.mesajyaz("\n{} {} {} {:05d} {}".format(turlib.damgatar(), modname, turlib.gecen_sure(baslama), habersay, b))
        #link başka bir siteye ait olmasın
        if base_url in b:
            sayfa_oku(b,basla)
        else:
             turkcemi.mesajyaz(modname+" Link başka siteye aittir: {}".format(b))
コード例 #3
0
ファイル: turlibtest.py プロジェクト: erkantaylan/trderlem
 def test_get_base_url(self):
     url = "http://www.gamet.com.tr/gelecege-donus/"
     base_url = "http://www.gamet.com.tr"
     self.assertEqual(base_url, turlib.get_base_url(url))
     self.assertEqual("gelecege-donus", turlib.get_path1(url))
     url2 = "http://www.google.com/testing/retesting/x/"
     self.assertEqual("http://www.google.com", turlib.get_base_url(url2))
     self.assertEqual("testing", turlib.get_path1(url2))
     self.assertEqual("1:00:00:00",
                      turlib.gecen_sure(int(time.time()) - 86400))
     self.assertEqual("0:01:00:00",
                      turlib.gecen_sure(int(time.time()) - 3600))
     self.assertEqual("0:00:01:00",
                      turlib.gecen_sure(int(time.time()) - 60))
     self.assertEqual("0:00:00:00", turlib.gecen_sure(int(time.time()) - 0))
     self.assertFalse(turlib.hepsi_turkce("Tequila"))
     self.assertFalse(turlib.hepsi_turkce("Washington Post"))
     self.assertTrue(turlib.hepsi_turkce("Bu Türkçe bir cümledir."))
コード例 #4
0
ファイル: gamet.py プロジェクト: erkantaylan/trderlem
def load_arsiv_page(driver, adres):
    global sayfasay
    if adres[-1] == '/': adres = adres[:-1]
    base_url = get_base_url(adres)
    driver.get(adres)
    elements = driver.find_elements_by_xpath("//li/a[@href]")
    for a in elements:
        b = a.get_attribute('href')
        if b[-1] == '/': b = b[:-1]
        if b == base_url: continue
        if not b.startswith(base_url): continue
        if b == adres: continue
        sayfasay += 1
        print("{} {} {:05d} {}".format(turlib.damga(),
                                       turlib.gecen_sure(baslama), sayfasay,
                                       b))
        #link başka bir siteye ait olmasın
        if base_url in b:
            sayfa = turlib.sayfaOku(b)
            if sayfa == None: continue
            #sayfadan tüm linkleri kaldır
            for tag in sayfa.findAll('a', href=True):
                tag.extract()

            paragraflar = sayfa.find_all('div',
                                         attrs={'class': 'entry-content'})
            for p in paragraflar:
                #script bölümlerini temizle
                [s.extract() for s in p('script')]
                #div - class=sharedaddy bölümünü temizle
                for div in p.findAll('div', attrs={'class': 'sharedaddy'}):
                    div.extract()
                #http:// ile başlayan ardışık karakterleri sil
                re.sub('(http.*)\s', '', p.text)
                print(p.text)
                print(p.text, file=outfile, flush=True)
                if turkcemi.turkcemi(p.text, fout=outfile) == True:
                    print("Bu metin Türkçedir")
                else:
                    print(
                        "Bu metin Türkçe değildir veya yeterli sayıda geçerli Türkçe sözcük barındırmamaktadır."
                    )
コード例 #5
0
ファイル: gamet.py プロジェクト: ahmetax/trderlem
def load_arsiv_page(driver,adres):
    global sayfasay
    if adres[-1]=='/': adres = adres[:-1]
    base_url = get_base_url(adres)
    driver.get(adres)
    elements = driver.find_elements_by_xpath("//li/a[@href]")
    for a in elements:
        b = a.get_attribute('href')
        if b[-1]=='/': b = b[:-1]
        if b == base_url: continue
        if not b.startswith(base_url): continue
        if b == adres: continue
        sayfasay += 1
        print("{} {} {:05d} {}".format(turlib.damga(), turlib.gecen_sure(baslama), sayfasay, b))
        #link başka bir siteye ait olmasın
        if base_url in b:
            sayfa = turlib.sayfaOku(b)
            if sayfa == None: continue
            #sayfadan tüm linkleri kaldır
            for tag in sayfa.findAll('a', href=True):
                tag.extract()

            paragraflar = sayfa.find_all('div',attrs={'class' : 'entry-content'})
            for p in paragraflar:
                #script bölümlerini temizle
                [s.extract() for s in p('script')]
                #div - class=sharedaddy bölümünü temizle
                for div in p.findAll('div', attrs={'class':'sharedaddy'}):
                    div.extract()
                #http:// ile başlayan ardışık karakterleri sil
                re.sub('(http.*)\s','',p.text)
                print(p.text)
                print(p.text,file=outfile,flush=True)
                if turkcemi.turkcemi(p.text,fout=outfile) == True:
                    print("Bu metin Türkçedir")
                else:
                    print("Bu metin Türkçe değildir veya yeterli sayıda geçerli Türkçe sözcük barındırmamaktadır.")
コード例 #6
0
def load_arsiv_page(driver,adres):
    global sayfasay
    basla = time.perf_counter()
    if adres[-1]=='/': adres = adres[:-1]
    base_url = get_base_url(adres)
    driver.get(adres)
    elements = driver.find_elements_by_xpath("//li/a[@href]")
    for a in elements:
        try:
            b = a.get_attribute('href')
        except Exception as e:
            print("gamet.py Exception -1: {}".format(e))
            print("gamet.py Exception -1: {}".format(e),file=outfile, flush=True)
            continue

        if b[-1]=='/': b = b[:-1]
        if b == base_url: continue
        if not b.startswith(base_url): continue
        if b == adres: continue
        sayfasay += 1
        print("{} gamet.py-2 {} {:05d} {}".format(turlib.damga(), turlib.gecen_sure(baslama), sayfasay, b))
        #link başka bir siteye ait olmasın
        if base_url in b:
            sayfa = turlib.sayfaOku(b)
            if sayfa == None:
                print("gamet.py Sayfa okunamadı: {}".format(b))
                print("gamet.py Sayfa okunamadı: {}".format(b),file=outfile, flush=True)
                continue
            #sayfadan tüm linkleri kaldır
            for tag in sayfa.findAll('a', href=True):
                tag.extract()

            paragraflar = sayfa.find_all('div',attrs={'class' : 'entry-content'})
            if len(paragraflar)== 0:
                paragraflar = sayfa.find_all('div',attrs={'class' : 'entry fix'})
            if len(paragraflar)==0:
                print("Bu sayfada makale bulunmamaktadır.")
                print("Bu sayfada makale bulunmamaktadır.",file=outfile, flush=True)
                continue
            for p in paragraflar:
                #script bölümlerini temizle
                [s.extract() for s in p('script')]
                #div - class=sharedaddy bölümünü temizle
                for div in p.findAll('div', attrs={'class':'sharedaddy'}):
                    div.extract()
                #http:// ile başlayan ardışık karakterleri sil
                re.sub('(http.*)\s','',p.text)
                print(p.text)
                print(p.text,file=outfile,flush=True)
                if (turkcemi.turkcemi(p.text, fout=outfile) == True) and (len(p.text)>=1000):
                    print("Bu metin Türkçedir")
                    print("Bu metin Türkçedir", file=outfile, flush=True)
                    print("{} {:06d} {} {}".format(damga(), sayfasay,'gamet.py-1',b), flush=True)
                    print("{} {:06d} {} {}".format(damga(),sayfasay,'gamet.py',b),file=outfile, flush=True)
                    txttest = TXTDerlemTRText(p.text)
                    print("{} gamet.py Toplam çalışma süresi = {} saniye".format(damga(),time.perf_counter()-basla),flush=True)
                    print("{} gamet.py Toplam çalışma süresi = {} saniye".format(damga(),time.perf_counter()-basla),file=logfile,flush=True)
                else:
                    print("gamet.py Bu metin Türkçe değildir veya yeterli sayıda geçerli Türkçe sözcük barındırmamaktadır.")
                    print("gamet.py Bu metin Türkçe değildir veya yeterli sayıda geçerli Türkçe sözcük barındırmamaktadır.",file=logfile,flush=True)
        else:
             print("gamet.py Link başka siteye aittir: {}".format(b))
             print("gamet.py Link başka siteye aittir: {}".format(b),file=logfile,flush=True)