def test_words(self): _str = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = _str.split(u" ") letters = utf8.get_letters(_str) outWords = utf8.get_words(letters, tamil_only=False) self.assertEqual(outWords, words)
def test_words(self): _str = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = _str.split(u" ") letters = utf8.get_letters( _str ) outWords = utf8.get_words( letters, tamil_only = False ) if ( LINUX ): print( u"|".join(words) ) print( u"|".join(outWords) ) self.assertEqual( outWords, words )
def test_words(self): _str = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = _str.split(u" ") letters = utf8.get_letters( _str ) outWords = utf8.get_words( letters ) if ( LINUX ): print( u"|".join(words) ) print( u"|".join(outWords) ) assert( outWords == words )
def test_words(self): string = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = string.split(u" ") letters = utf8.get_letters( string ) outWords = utf8.get_words( letters ) print u"|".join(words) print u"|".join(outWords) assert( outWords == words )
def test_words(self): string = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = string.split(u" ") letters = utf8.get_letters(string) outWords = utf8.get_words(letters) print u"|".join(words) print u"|".join(outWords) assert (outWords == words)
while True: f = open("output.txt", "w", encoding="utf-8") fil = open("output/file" + str(c) + ".txt", "w", encoding="utf-8") fil2 = open("scrap/file" + str(c) + ".txt", "w", encoding="utf-8") page = requests.get(URL) soup = BeautifulSoup(page.content, 'html.parser') job_elems = soup.find('div', class_='entry-content') try: href = soup.find('a', rel="next").attrs except: print('completed') break #print(href) fil2.write(job_elems.text) result = utf8.get_words(job_elems.text) for fb in final: result.append(fb) for a in result: a = a.replace('”', '') a = a.replace('“', '') a = a.replace('!', '', 10000000000) a = a.replace('.', '', 10000000000) a = a.replace(',', '', 10000000000) a = a.replace('?', '', 10000000000) a = a.replace('ஏற்றப்படுகின்றது', '', 10000000000) if (utf8.all_tamil(a)): if a not in new: new.append(a) fil.write(a) fil.write('\n')
def __init__(self, filename): with codecs.open(filename, 'r', 'utf-8') as fp: self.words = get_words(fp.read()) self.results = [] #object of type Result