示例#1
0
def test_tokenize_sentence_to_words(language, sentence, expected_words):
    tokenizer = Tokenizer(language)

    words = tokenizer.to_words(sentence)

    assert words == expected_words
    assert tokenizer.language == language
示例#2
0
def test_tokenize_bangla_paragraph():
    tokenizer = Tokenizer('bangla')
    expected = (
        'মানুষের সুন্দর মুখ দেখে আনন্দিত হয়ো না।',
        'স্বভাবে সে সুন্দর নয়, দেখতে সুন্দর হলেও তার স্বভাব, তার স্পর্শ, তার রীতিনীতিকে মানুষ ঘৃণা করে।',
        'দুঃস্বভাবের মানুষ মানুষের হৃদয়ে জ্বালা ও বেদনা দেয়?',
        'তার সুন্দর মুখে মানুষ তৃপ্তি পায় না!')

    paragraph = 'মানুষের সুন্দর মুখ দেখে আনন্দিত হয়ো না। স্বভাবে সে সুন্দর নয়, দেখতে সুন্দর হলেও তার স্বভাব, তার স্পর্শ, তার রীতিনীতিকে মানুষ ঘৃণা করে। দুঃস্বভাবের মানুষ মানুষের হৃদয়ে জ্বালা ও বেদনা দেয়? তার সুন্দর মুখে মানুষ তৃপ্তি পায় না! '
    #print(tokenizer.to_sentences(paragraph))
    print(tokenizer.to_words(paragraph))
    assert expected == tokenizer.to_sentences(paragraph)