def test_tamil_only_words(self): s = u"உடனே உடனே seventh heaven எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = s.replace(u"seventh heaven ", u"").split(u" ") letters = utf8.get_letters(s) outWords = utf8.get_tamil_words(letters) if (LINUX): print(u"|".join(words)) print(u"|".join(outWords)) self.assertEqual(outWords, words)
def test_tamil_only_words(self): s = u"உடனே உடனே seventh heaven எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = s.replace(u"seventh heaven ",u"").split(u" ") letters = utf8.get_letters( s ) outWords = utf8.get_tamil_words( letters ) if ( LINUX ): print( u"|".join(words) ) print( u"|".join(outWords) ) self.assertEqual( outWords, words )
def test_tamil_only_words(self): string = u"உடனே உடனே seventh heaven எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = string.replace(u"seventh heaven ",u"").split(u" ") letters = utf8.get_letters( string ) outWords = utf8.get_tamil_words( letters ) print u"|".join(words) print u"|".join(outWords) assert( outWords == words )
def test_tamil_only_words(self): string = u"உடனே உடனே seventh heaven எழுதினால் செய்திப் பத்திரிகை போஆகிவிடும் அசோகமித்திரன் நேர்காணல்" words = string.replace(u"seventh heaven ", u"").split(u" ") letters = utf8.get_letters(string) outWords = utf8.get_tamil_words(letters) print u"|".join(words) print u"|".join(outWords) assert (outWords == words)
def main(): eq = Counter() eqd = {} kural = Thirukkural() for kural_no in range(1330): kural_words = get_tamil_words( get_letters(kural.get_kural_no(kural_no + 1).ta)) mathirai = sum([total_maaththirai(word) for word in kural_words]) if eq[mathirai] == 0: eqd[mathirai] = [kural_no + 1] else: eqd[mathirai].append(kural_no + 1) eq[mathirai] += 1 eq_sorted = OrderedDict(sorted(eq.items(), key=lambda x: x)) pprint(eq_sorted) pprint(eq_sorted.values()) pprint(eqd) print("total = ", sum(eq.values())) plt.scatter(eq_sorted.keys(), eq_sorted.values()) plt.ylabel(u"குறட்பாக்கள் எண்ணிக்கை", {"fontname": "Catamaran"}) plt.xlabel(u"மாத்திரை அளவு", {"fontname": "Catamaran"}) # Arial Unicode MS'}) # p0 is the initial guess for the fitting coefficients (A, mu and sigma above) p0 = [75.0, 20.0, 5.0] coeff, var_matrix = curve_fit(gauss, list(eq_sorted.keys()), list(eq_sorted.values()), p0=p0) # Get the fitted curve hist_fit = gauss(list(eq_sorted.keys()), *coeff) plt.plot( eq_sorted.keys(), hist_fit, label="Gaussian Fitted data (mean=%g, std=%g)" % (coeff[1], coeff[2]), ) plt.title( r"குறள் மாத்திரை வரிசை (Gauss \mu=%g, \sigma=%g)" % (coeff[1], coeff[2]), {"fontname": "Catamaran"}, ) # Finally, lets get the fitting parameters, i.e. the mean and standard deviation: print("Fitted mean = ", coeff[1]) print("Fitted standard deviation = ", coeff[2]) plt.show()
def சொல்லாக்கு(எழுத்துவரிசை): return tamilutf8.get_tamil_words(எழுத்துவரிசை)
#!/bin/env python3 from codecs import open from tamil import utf8 import re with open("kuttistory.txt", "r", "utf-8") as fp: data = fp.readlines() class Stats: __fields__ = ("total_words", "tamil_words") stats = Stats() stats.total_words = 0.0 stats.tamil_words = 0.0 for line in data: all_words = re.split("\s+", line.strip()) ta_words = list(utf8.get_tamil_words(utf8.get_letters(line))) print((all_words, len(ta_words))) stats.tamil_words += len(ta_words) stats.total_words += len(all_words) # tamil fraction taf = float(stats.tamil_words) / stats.total_words print(("English = {0}%, Tamil = {1}%".format(100.0 * (1 - taf), 100.0 * (taf))))
def extract_tamil_text(txt): letters = utf8.get_letters(txt) words = utf8.get_tamil_words(letters) text = u" ".join(t for t in words) return text