def test_tokenize_sentence_to_words(language, sentence, expected_words): tokenizer = Tokenizer(language) words = tokenizer.to_words(sentence) assert words == expected_words assert tokenizer.language == language
def test_tokenize_bangla_paragraph(): tokenizer = Tokenizer('bangla') expected = ( 'মানুষের সুন্দর মুখ দেখে আনন্দিত হয়ো না।', 'স্বভাবে সে সুন্দর নয়, দেখতে সুন্দর হলেও তার স্বভাব, তার স্পর্শ, তার রীতিনীতিকে মানুষ ঘৃণা করে।', 'দুঃস্বভাবের মানুষ মানুষের হৃদয়ে জ্বালা ও বেদনা দেয়?', 'তার সুন্দর মুখে মানুষ তৃপ্তি পায় না!') paragraph = 'মানুষের সুন্দর মুখ দেখে আনন্দিত হয়ো না। স্বভাবে সে সুন্দর নয়, দেখতে সুন্দর হলেও তার স্বভাব, তার স্পর্শ, তার রীতিনীতিকে মানুষ ঘৃণা করে। দুঃস্বভাবের মানুষ মানুষের হৃদয়ে জ্বালা ও বেদনা দেয়? তার সুন্দর মুখে মানুষ তৃপ্তি পায় না! ' #print(tokenizer.to_sentences(paragraph)) print(tokenizer.to_words(paragraph)) assert expected == tokenizer.to_sentences(paragraph)