Esempio n. 1
0
 def test_tamil_only_words(self):
     s = u"உடனே உடனே seventh heaven எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
     words = s.replace(u"seventh heaven ", u"").split(u" ")
     letters = utf8.get_letters(s)
     outWords = utf8.get_tamil_words(letters)
     if (LINUX):
         print(u"|".join(words))
         print(u"|".join(outWords))
     self.assertEqual(outWords, words)
Esempio n. 2
0
 def test_tamil_only_words(self):
     s = u"உடனே உடனே seventh heaven எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
     words = s.replace(u"seventh heaven ",u"").split(u" ")
     letters = utf8.get_letters( s )
     outWords = utf8.get_tamil_words( letters )
     if ( LINUX ):
         print( u"|".join(words) )
         print( u"|".join(outWords) )
     self.assertEqual( outWords, words )
Esempio n. 3
0
    def test_tamil_only_words(self):
        string = u"உடனே உடனே seventh heaven எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
        words = string.replace(u"seventh heaven ",u"").split(u" ")

        letters = utf8.get_letters( string )
        outWords = utf8.get_tamil_words( letters )
        
        print u"|".join(words)
        print u"|".join(outWords)
        
        assert( outWords == words )
Esempio n. 4
0
    def test_tamil_only_words(self):
        string = u"உடனே உடனே seventh heaven எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்"
        words = string.replace(u"seventh heaven ", u"").split(u" ")

        letters = utf8.get_letters(string)
        outWords = utf8.get_tamil_words(letters)

        print u"|".join(words)
        print u"|".join(outWords)

        assert (outWords == words)
Esempio n. 5
0
def main():
    eq = Counter()
    eqd = {}
    kural = Thirukkural()
    for kural_no in range(1330):
        kural_words = get_tamil_words(
            get_letters(kural.get_kural_no(kural_no + 1).ta))
        mathirai = sum([total_maaththirai(word) for word in kural_words])
        if eq[mathirai] == 0:
            eqd[mathirai] = [kural_no + 1]
        else:
            eqd[mathirai].append(kural_no + 1)
        eq[mathirai] += 1
    eq_sorted = OrderedDict(sorted(eq.items(), key=lambda x: x))
    pprint(eq_sorted)
    pprint(eq_sorted.values())
    pprint(eqd)
    print("total = ", sum(eq.values()))
    plt.scatter(eq_sorted.keys(), eq_sorted.values())
    plt.ylabel(u"குறட்பாக்கள் எண்ணிக்கை", {"fontname": "Catamaran"})
    plt.xlabel(u"மாத்திரை அளவு",
               {"fontname": "Catamaran"})  # Arial Unicode MS'})

    # p0 is the initial guess for the fitting coefficients (A, mu and sigma above)
    p0 = [75.0, 20.0, 5.0]
    coeff, var_matrix = curve_fit(gauss,
                                  list(eq_sorted.keys()),
                                  list(eq_sorted.values()),
                                  p0=p0)

    # Get the fitted curve
    hist_fit = gauss(list(eq_sorted.keys()), *coeff)
    plt.plot(
        eq_sorted.keys(),
        hist_fit,
        label="Gaussian Fitted data (mean=%g, std=%g)" % (coeff[1], coeff[2]),
    )
    plt.title(
        r"குறள் மாத்திரை வரிசை (Gauss \mu=%g, \sigma=%g)" %
        (coeff[1], coeff[2]),
        {"fontname": "Catamaran"},
    )

    # Finally, lets get the fitting parameters, i.e. the mean and standard deviation:
    print("Fitted mean = ", coeff[1])
    print("Fitted standard deviation = ", coeff[2])

    plt.show()
Esempio n. 6
0
def சொல்லாக்கு(எழுத்துவரிசை):
    return tamilutf8.get_tamil_words(எழுத்துவரிசை)
Esempio n. 7
0
#!/bin/env python3
from codecs import open
from tamil import utf8
import re

with open("kuttistory.txt", "r", "utf-8") as fp:
    data = fp.readlines()


class Stats:
    __fields__ = ("total_words", "tamil_words")


stats = Stats()
stats.total_words = 0.0
stats.tamil_words = 0.0

for line in data:
    all_words = re.split("\s+", line.strip())
    ta_words = list(utf8.get_tamil_words(utf8.get_letters(line)))
    print((all_words, len(ta_words)))
    stats.tamil_words += len(ta_words)
    stats.total_words += len(all_words)
# tamil fraction
taf = float(stats.tamil_words) / stats.total_words
print(("English = {0}%, Tamil = {1}%".format(100.0 * (1 - taf),
                                             100.0 * (taf))))
Esempio n. 8
0
def extract_tamil_text(txt):
    letters = utf8.get_letters(txt)
    words = utf8.get_tamil_words(letters)
    text = u" ".join(t for t in words)
    return text