Ejemplo n.º 1
0
    def test_words(self):
        _str = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
        words = _str.split(u" ")

        letters = utf8.get_letters(_str)
        outWords = utf8.get_words(letters, tamil_only=False)
        self.assertEqual(outWords, words)
Ejemplo n.º 2
0
 def test_words(self):
     _str = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
     words = _str.split(u" ")
     
     letters = utf8.get_letters( _str )
     outWords = utf8.get_words( letters, tamil_only = False )
     if ( LINUX ):
         print( u"|".join(words) )
         print( u"|".join(outWords) )
     self.assertEqual( outWords, words )
Ejemplo n.º 3
0
    def test_words(self):
        _str = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
        words = _str.split(u" ")

        letters = utf8.get_letters( _str )
        outWords = utf8.get_words( letters )
        if ( LINUX ):
            print( u"|".join(words) )
            print( u"|".join(outWords) )
        assert( outWords == words )
Ejemplo n.º 4
0
    def test_words(self):
        string = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
        words = string.split(u" ")

        letters = utf8.get_letters( string )
        outWords = utf8.get_words( letters )
        
        print u"|".join(words)
        print u"|".join(outWords)
        
        assert( outWords == words )
Ejemplo n.º 5
0
    def test_words(self):
        string = u"உடனே random elevator jazz உடனே எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
        words = string.split(u" ")

        letters = utf8.get_letters(string)
        outWords = utf8.get_words(letters)

        print u"|".join(words)
        print u"|".join(outWords)

        assert (outWords == words)
Ejemplo n.º 6
0
while True:
    f = open("output.txt", "w", encoding="utf-8")
    fil = open("output/file" + str(c) + ".txt", "w", encoding="utf-8")
    fil2 = open("scrap/file" + str(c) + ".txt", "w", encoding="utf-8")
    page = requests.get(URL)

    soup = BeautifulSoup(page.content, 'html.parser')
    job_elems = soup.find('div', class_='entry-content')
    try:
        href = soup.find('a', rel="next").attrs
    except:
        print('completed')
        break
    #print(href)
    fil2.write(job_elems.text)
    result = utf8.get_words(job_elems.text)
    for fb in final:
        result.append(fb)
    for a in result:
        a = a.replace('”', '')
        a = a.replace('“', '')
        a = a.replace('!', '', 10000000000)
        a = a.replace('.', '', 10000000000)
        a = a.replace(',', '', 10000000000)
        a = a.replace('?', '', 10000000000)
        a = a.replace('ஏற்றப்படுகின்றது', '', 10000000000)
        if (utf8.all_tamil(a)):
            if a not in new:
                new.append(a)
                fil.write(a)
                fil.write('\n')
Ejemplo n.º 7
0
 def __init__(self, filename):
     with codecs.open(filename, 'r', 'utf-8') as fp:
         self.words = get_words(fp.read())
     self.results = []  #object of type Result