Esempio n. 1
0
from sinling.sinhala.tokenizer import SinhalaTweetTokenizer

import codecs

# First Step. You need to remove special characters and garbage characters from the corpus.
# Used a Sinhala tokenizer available in https://github.com/ysenarath/sinling with several modifications. See in singling folder

if __name__ == '__main__':
    f = codecs.open("D:/NLP/Corpus/wikipedia.si_filtered",
                    encoding='utf-8',
                    errors='ignore')  # open source file
    f_w = codecs.open("wikipedia.si_filtered_tokenized.txt", 'w',
                      'utf-8')  # write to this file after processing

    tokenizer = SinhalaTweetTokenizer()
    docs = []
    i = 0
    for line in f:
        docs.append(line)

    for doc in docs:
        for sent in tokenizer.split_sentences(doc):
            tokens = tokenizer.tokenize(sent)
            line = " ".join(tokens)
            line = line + "\n"
            f_w.write(line)

f.close()
f_w.close()
Esempio n. 2
0
#save to disk
import pickle

f_1 = codecs.open("Preprocessed/test_1.txt", encoding='utf-8', errors='ignore')
f_2 = codecs.open("Preprocessed/test_2.txt", encoding='utf-8', errors='ignore')
f_3 = codecs.open("Preprocessed/test_3.txt", encoding='utf-8', errors='ignore')
f_4 = codecs.open("Preprocessed/test_4.txt", encoding='utf-8', errors='ignore')
f_5 = codecs.open("Preprocessed/test_5.txt", encoding='utf-8', errors='ignore')
f_6 = codecs.open("Preprocessed/test_6.txt", encoding='utf-8', errors='ignore')

tokenizer = SinhalaTweetTokenizer()

sentences = []
for line in f_1:
    line = line.rstrip()
    sentences.append(tokenizer.tokenize(line))
print("Finished File 1")

for line in f_2:
    line = line.rstrip()
    sentences.append(tokenizer.tokenize(line))
print("Finished File 2")

for line in f_3:
    line = line.rstrip()
    sentences.append(tokenizer.tokenize(line))
print("Finished File 3")

for line in f_4:
    line = line.rstrip()
    sentences.append(tokenizer.tokenize(line))
Esempio n. 3
0
from sinling.sinhala.tokenizer import SinhalaTweetTokenizer

if __name__ == '__main__':
    docs = [
        'මමත් රජයේ විශ්ව විද්‍යාලයකට තමා ගියේ, හැබැයි මම නම් හැමදාම කැම්පස් එකේ CCTV සවි කරන එක හොඳයි'
        ' කියන අදහසේ හිටියා අදත් එහෙමයි. රැග් එක නවත්තන්න එ්ක හොඳ උදව්වක්. අැයි පේරාදෙණියේ කට්ටිය එ්වට'
        ' එච්චර බය...? 😂😂😂 #lka #Srilanka',
        'ගොඩක් අයට ඩෙංගු හැදිල. මම බය වෙන්නෙ හැදුණොත් අනිත් අයට කරදර කරන්න වෙන නිසා. 😱 😱 #ඩෙංගු',
        'හෙට පේපර් එකට කුණුහරුප ලියවෙයි ද කියලයි බය.',
        'අම්මෝ ඒකට යන්න බය හිතුනා ප්‍රොපයිල් එක දැකලා😂😂',
        'බය වෙන්න එපො, ඔය තරම්',
        'Self love එක වැඩි උනාම selfish වෙනෝ ලු. ඒක නිසා බය හිතෙනෝ. 😅😄🙏👍',
        '@RW_UNP චිවරදාරින්ට ඔනෑම අපරාධයක් කිරිමට ලයිසන් දෙනවා විතරක් නෙමෙයි එයාලව ආරක්ශා කරන්න ප්‍රසිද්ධියේ'
        ' පෙනිහිටිම ඉතාම භයානකයි.. කහ සිවුරට මේච්චර බය ඇයි? එතකොට මේ අපරාධ කරන අයව කරුනු දක්වන්න'
        ' වඩම්මන්නේ නැද්ද?  @RamanayakeR https://pbs.twimg.com/media/D_vLaovUcAAGjQ_.jpg',
        'ආපදා මරණ 4ක් - කළු ගඟේ අවදානම තවදුරටත් - අදත් ප්‍රදේශ රැසකට තද වැසි සමඟ සුළං\n'
        'watch more>>>\n'
        'https://bit.ly/2XQbNYH',
        'හිසුබ්ල්ලාගේ ෂරියා විශ්ව විද්‍යාලයට සෞදි තහනම් සංවිධානයකින් කොටි 1757ක්\n'
        'Read more>>>\n'
        'https://bit.ly/2xXSRYx'
    ]
    tokenizer = SinhalaTweetTokenizer()
    # tokenizer = SinhalaTokenizer()
    for doc in docs:
        for sent in tokenizer.split_sentences(doc):
            print(tokenizer.tokenize(sent))