def test_get_base_url(self): url ="http://www.gamet.com.tr/gelecege-donus/" base_url = "http://www.gamet.com.tr" self.assertEqual(base_url, turlib.get_base_url(url)) self.assertEqual("gelecege-donus",turlib.get_path1(url)) url2="http://www.google.com/testing/retesting/x/" self.assertEqual("http://www.google.com",turlib.get_base_url(url2)) self.assertEqual("testing",turlib.get_path1(url2)) self.assertEqual("1:00:00:00",turlib.gecen_sure(int(time.time())-86400)) self.assertEqual("0:01:00:00",turlib.gecen_sure(int(time.time())-3600)) self.assertEqual("0:00:01:00",turlib.gecen_sure(int(time.time())-60)) self.assertEqual("0:00:00:00",turlib.gecen_sure(int(time.time())-0)) self.assertFalse(turlib.hepsi_turkce("Tequila")) self.assertFalse(turlib.hepsi_turkce("Washington Post")) self.assertTrue(turlib.hepsi_turkce("Bu Türkçe bir cümledir."))
def load_arsiv_page(driver,adres): global habersay basla = time.perf_counter() if adres[-1]=='/': adres = adres[:-1] base_url = get_base_url(adres) driver.get(adres) elements = driver.find_elements_by_xpath("//h3/a[@href]") for a in elements: try: b = a.get_attribute('href') except Exception as e: turkcemi.mesajyaz("{} Exception -1: {}".format(modname,e)) continue if b is None: continue if len(b)==0: continue if b[-1]=='/': b = b[:-1] if b == base_url: continue if not b.startswith(base_url): continue if b == adres: continue if b == base_url+"/index": continue habersay += 1 turkcemi.mesajyaz("\n{} {} {} {:05d} {}".format(turlib.damgatar(), modname, turlib.gecen_sure(baslama), habersay, b)) #link başka bir siteye ait olmasın if base_url in b: sayfa_oku(b,basla) else: turkcemi.mesajyaz(modname+" Link başka siteye aittir: {}".format(b))
def test_get_base_url(self): url = "http://www.gamet.com.tr/gelecege-donus/" base_url = "http://www.gamet.com.tr" self.assertEqual(base_url, turlib.get_base_url(url)) self.assertEqual("gelecege-donus", turlib.get_path1(url)) url2 = "http://www.google.com/testing/retesting/x/" self.assertEqual("http://www.google.com", turlib.get_base_url(url2)) self.assertEqual("testing", turlib.get_path1(url2)) self.assertEqual("1:00:00:00", turlib.gecen_sure(int(time.time()) - 86400)) self.assertEqual("0:01:00:00", turlib.gecen_sure(int(time.time()) - 3600)) self.assertEqual("0:00:01:00", turlib.gecen_sure(int(time.time()) - 60)) self.assertEqual("0:00:00:00", turlib.gecen_sure(int(time.time()) - 0)) self.assertFalse(turlib.hepsi_turkce("Tequila")) self.assertFalse(turlib.hepsi_turkce("Washington Post")) self.assertTrue(turlib.hepsi_turkce("Bu Türkçe bir cümledir."))
def load_arsiv_page(driver, adres): global sayfasay if adres[-1] == '/': adres = adres[:-1] base_url = get_base_url(adres) driver.get(adres) elements = driver.find_elements_by_xpath("//li/a[@href]") for a in elements: b = a.get_attribute('href') if b[-1] == '/': b = b[:-1] if b == base_url: continue if not b.startswith(base_url): continue if b == adres: continue sayfasay += 1 print("{} {} {:05d} {}".format(turlib.damga(), turlib.gecen_sure(baslama), sayfasay, b)) #link başka bir siteye ait olmasın if base_url in b: sayfa = turlib.sayfaOku(b) if sayfa == None: continue #sayfadan tüm linkleri kaldır for tag in sayfa.findAll('a', href=True): tag.extract() paragraflar = sayfa.find_all('div', attrs={'class': 'entry-content'}) for p in paragraflar: #script bölümlerini temizle [s.extract() for s in p('script')] #div - class=sharedaddy bölümünü temizle for div in p.findAll('div', attrs={'class': 'sharedaddy'}): div.extract() #http:// ile başlayan ardışık karakterleri sil re.sub('(http.*)\s', '', p.text) print(p.text) print(p.text, file=outfile, flush=True) if turkcemi.turkcemi(p.text, fout=outfile) == True: print("Bu metin Türkçedir") else: print( "Bu metin Türkçe değildir veya yeterli sayıda geçerli Türkçe sözcük barındırmamaktadır." )
def load_arsiv_page(driver,adres): global sayfasay if adres[-1]=='/': adres = adres[:-1] base_url = get_base_url(adres) driver.get(adres) elements = driver.find_elements_by_xpath("//li/a[@href]") for a in elements: b = a.get_attribute('href') if b[-1]=='/': b = b[:-1] if b == base_url: continue if not b.startswith(base_url): continue if b == adres: continue sayfasay += 1 print("{} {} {:05d} {}".format(turlib.damga(), turlib.gecen_sure(baslama), sayfasay, b)) #link başka bir siteye ait olmasın if base_url in b: sayfa = turlib.sayfaOku(b) if sayfa == None: continue #sayfadan tüm linkleri kaldır for tag in sayfa.findAll('a', href=True): tag.extract() paragraflar = sayfa.find_all('div',attrs={'class' : 'entry-content'}) for p in paragraflar: #script bölümlerini temizle [s.extract() for s in p('script')] #div - class=sharedaddy bölümünü temizle for div in p.findAll('div', attrs={'class':'sharedaddy'}): div.extract() #http:// ile başlayan ardışık karakterleri sil re.sub('(http.*)\s','',p.text) print(p.text) print(p.text,file=outfile,flush=True) if turkcemi.turkcemi(p.text,fout=outfile) == True: print("Bu metin Türkçedir") else: print("Bu metin Türkçe değildir veya yeterli sayıda geçerli Türkçe sözcük barındırmamaktadır.")
def load_arsiv_page(driver,adres): global sayfasay basla = time.perf_counter() if adres[-1]=='/': adres = adres[:-1] base_url = get_base_url(adres) driver.get(adres) elements = driver.find_elements_by_xpath("//li/a[@href]") for a in elements: try: b = a.get_attribute('href') except Exception as e: print("gamet.py Exception -1: {}".format(e)) print("gamet.py Exception -1: {}".format(e),file=outfile, flush=True) continue if b[-1]=='/': b = b[:-1] if b == base_url: continue if not b.startswith(base_url): continue if b == adres: continue sayfasay += 1 print("{} gamet.py-2 {} {:05d} {}".format(turlib.damga(), turlib.gecen_sure(baslama), sayfasay, b)) #link başka bir siteye ait olmasın if base_url in b: sayfa = turlib.sayfaOku(b) if sayfa == None: print("gamet.py Sayfa okunamadı: {}".format(b)) print("gamet.py Sayfa okunamadı: {}".format(b),file=outfile, flush=True) continue #sayfadan tüm linkleri kaldır for tag in sayfa.findAll('a', href=True): tag.extract() paragraflar = sayfa.find_all('div',attrs={'class' : 'entry-content'}) if len(paragraflar)== 0: paragraflar = sayfa.find_all('div',attrs={'class' : 'entry fix'}) if len(paragraflar)==0: print("Bu sayfada makale bulunmamaktadır.") print("Bu sayfada makale bulunmamaktadır.",file=outfile, flush=True) continue for p in paragraflar: #script bölümlerini temizle [s.extract() for s in p('script')] #div - class=sharedaddy bölümünü temizle for div in p.findAll('div', attrs={'class':'sharedaddy'}): div.extract() #http:// ile başlayan ardışık karakterleri sil re.sub('(http.*)\s','',p.text) print(p.text) print(p.text,file=outfile,flush=True) if (turkcemi.turkcemi(p.text, fout=outfile) == True) and (len(p.text)>=1000): print("Bu metin Türkçedir") print("Bu metin Türkçedir", file=outfile, flush=True) print("{} {:06d} {} {}".format(damga(), sayfasay,'gamet.py-1',b), flush=True) print("{} {:06d} {} {}".format(damga(),sayfasay,'gamet.py',b),file=outfile, flush=True) txttest = TXTDerlemTRText(p.text) print("{} gamet.py Toplam çalışma süresi = {} saniye".format(damga(),time.perf_counter()-basla),flush=True) print("{} gamet.py Toplam çalışma süresi = {} saniye".format(damga(),time.perf_counter()-basla),file=logfile,flush=True) else: print("gamet.py Bu metin Türkçe değildir veya yeterli sayıda geçerli Türkçe sözcük barındırmamaktadır.") print("gamet.py Bu metin Türkçe değildir veya yeterli sayıda geçerli Türkçe sözcük barındırmamaktadır.",file=logfile,flush=True) else: print("gamet.py Link başka siteye aittir: {}".format(b)) print("gamet.py Link başka siteye aittir: {}".format(b),file=logfile,flush=True)