Python Rake._tokenize_sentence_to_words Beispiele

Programmiersprache: Python

Namespace / Paketname: rake_nltk

Klasse / Typ: Rake

Methode / Funktion: _tokenize_sentence_to_words

Beispiele auf hotexamples.com: 1

Python Rake._tokenize_sentence_to_words - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die rake_nltk.Rake._tokenize_sentence_to_words, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Rake(30)

get_ranked_phrases(30)

get_word_degrees(30)

get_ranked_phrases_with_scores(30)

extract_keywords_from_text(30)

extract_keywords_from_sentences(26)

get_word_frequency_distribution(11)

_generate_phrases(7)

run(4)

_build_frequency_dist(2)

_get_phrase_list_from_words(2)

_build_word_co_occurance_graph(2)

language(2)

_tokenize_sentence_to_words(1)

_tokenize_text_to_sentences(1)

iter_content(1)

json(1)

Beispiel #1

Datei anzeigen

def test_word_tokenizer_config():
    sentence = 'This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--'

    punct_tokenized_words = [
        'This',
        'is',
        'a',
        'cooool',
        '#',
        'dummysmiley',
        ':',
        ':-)',
        ':-',
        'P',
        '<',
        '3',
        'and',
        'some',
        'arrows',
        '<',
        '>',
        '->',
        '<--',
    ]

    # Default
    r = Rake()
    assert punct_tokenized_words == r._tokenize_sentence_to_words(sentence)

    # Punct tokenize.
    r = Rake(word_tokenizer=nltk.tokenize.wordpunct_tokenize)
    assert punct_tokenized_words == r._tokenize_sentence_to_words(sentence)

    # Custom tokenizer. (Tweet)
    r = Rake(word_tokenizer=nltk.tokenize.TweetTokenizer().tokenize)
    assert [
        'This',
        'is',
        'a',
        'cooool',
        '#dummysmiley',
        ':',
        ':-)',
        ':-P',
        '<3',
        'and',
        'some',
        'arrows',
        '<',
        '>',
        '->',
        '<--',
    ] == r._tokenize_sentence_to_words(sentence)