Python Tokenizer.to_words示例

编程语言: Python

命名空间/包名称: Python.baselineAlgorithm.sumy.nlp.tokenizers

类/类型: Tokenizer

方法/功能: to_words

hotexamples.com的示例: 2

Python Tokenizer.to_words - 已找到2个示例。这些是从开源项目中提取的最受好评的Python.baselineAlgorithm.sumy.nlp.tokenizers.Tokenizer.to_words现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Tokenizer(30)

to_sentences(8)

to_words(2)

示例#1

显示文件

def test_tokenize_sentence_to_words(language, sentence, expected_words):
    tokenizer = Tokenizer(language)

    words = tokenizer.to_words(sentence)

    assert words == expected_words
    assert tokenizer.language == language

示例#2

显示文件

def test_tokenize_bangla_paragraph():
    tokenizer = Tokenizer('bangla')
    expected = (
        'মানুষের সুন্দর মুখ দেখে আনন্দিত হয়ো না।',
        'স্বভাবে সে সুন্দর নয়, দেখতে সুন্দর হলেও তার স্বভাব, তার স্পর্শ, তার রীতিনীতিকে মানুষ ঘৃণা করে।',
        'দুঃস্বভাবের মানুষ মানুষের হৃদয়ে জ্বালা ও বেদনা দেয়?',
        'তার সুন্দর মুখে মানুষ তৃপ্তি পায় না!')

    paragraph = 'মানুষের সুন্দর মুখ দেখে আনন্দিত হয়ো না। স্বভাবে সে সুন্দর নয়, দেখতে সুন্দর হলেও তার স্বভাব, তার স্পর্শ, তার রীতিনীতিকে মানুষ ঘৃণা করে। দুঃস্বভাবের মানুষ মানুষের হৃদয়ে জ্বালা ও বেদনা দেয়? তার সুন্দর মুখে মানুষ তৃপ্তি পায় না! '
    #print(tokenizer.to_sentences(paragraph))
    print(tokenizer.to_words(paragraph))
    assert expected == tokenizer.to_sentences(paragraph)