Esempi in Python per tokenizer

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: tensorshake.prepare_corpus

Metodo/funzione: tokenizer

Esempi su hotexamples.com: 3

tokenizer in Python: 3 esempi trovati. Questi sono i migliori esempi reali in Python per tensorshake.prepare_corpus.tokenizer, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Esempio n. 1

Mostra file

File: test_tokenizer.py Progetto: fethomas/Assignment5

def test_on_data():
    with open(ORIGINAL_TRAIN_PATH, 'r') as raw_file:
        weird_chars = {'thatas', 'thereas'}
        counter = 0
        for idx, raw_line in enumerate(raw_file):
            text = ' '.join(tokenizer(raw_line))
            for char in weird_chars:
                if char in text:
                    print text
                    counter += 1
    assert counter == 0

Esempio n. 2

Mostra file

File: test_tokenizer.py Progetto: fethomas/Assignment5

def test_malformed():
    for text1, text2 in TEXT_MALFORMED.iteritems():
        tokens1 = tokenizer(text1)
        tokens2 = tokenizer(text2)
        assert tokens1 == tokens2

Esempio n. 3

Mostra file

File: test_tokenizer.py Progetto: fethomas/Assignment5

def test_ntokens():
    for text, ntokens in TEXT_NTOKENS.iteritems():
        tokens = tokenizer(text)
        assert ntokens == len(tokens)