Esempi in Python per Tokenizer.rules

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: spacy.tokenizer

Classe/tipologia: Tokenizer

Metodo/funzione: rules

Esempi su hotexamples.com: 3

Tokenizer.rules in Python: 3 esempi trovati. Questi sono i migliori esempi reali in Python per spacy.tokenizer.Tokenizer.rules, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Tokenizer(30)

pipe(15)

explain(4)

rules(3)

to_bytes(3)

add_special_case(3)

token_match(2)

from_dir(2)

from_disk(2)

suffix_search(2)

to_disk(1)

load(1)

prefix_search(1)

infix_finditer(1)

from_bytes(1)

encode(1)

batch_encode_plus(1)

tokens_from_list(1)

Esempio n. 1

Mostra file

def test_serialize_custom_tokenizer(en_vocab, en_tokenizer):
    """Test that custom tokenizer with not all functions defined or empty
    properties can be serialized and deserialized correctly (see #2494,
    #4991)."""
    tokenizer = Tokenizer(en_vocab, suffix_search=en_tokenizer.suffix_search)
    tokenizer_bytes = tokenizer.to_bytes()
    Tokenizer(en_vocab).from_bytes(tokenizer_bytes)

    # test that empty/unset values are set correctly on deserialization
    tokenizer = get_lang_class("en")().tokenizer
    tokenizer.token_match = re.compile("test").match
    assert tokenizer.rules != {}
    assert tokenizer.token_match is not None
    assert tokenizer.url_match is not None
    tokenizer.from_bytes(tokenizer_bytes)
    assert tokenizer.rules == {}
    assert tokenizer.token_match is None
    assert tokenizer.url_match is None

    tokenizer = Tokenizer(en_vocab,
                          rules={"ABC.": [{
                              "ORTH": "ABC"
                          }, {
                              "ORTH": "."
                          }]})
    tokenizer.rules = {}
    tokenizer_bytes = tokenizer.to_bytes()
    tokenizer_reloaded = Tokenizer(en_vocab).from_bytes(tokenizer_bytes)
    assert tokenizer_reloaded.rules == {}

Esempio n. 2

Mostra file

File: test_tokenizer.py Progetto: snimrod/lda_test1

def test_tokenizer_flush_specials(en_vocab):
    suffix_re = re.compile(r"[\.]$")
    rules = {"a a": [{"ORTH": "a a"}]}
    tokenizer1 = Tokenizer(
        en_vocab,
        suffix_search=suffix_re.search,
        rules=rules,
    )
    assert [t.text for t in tokenizer1("a a.")] == ["a a", "."]
    tokenizer1.rules = {}
    assert [t.text for t in tokenizer1("a a.")] == ["a", "a", "."]

Esempio n. 3

Mostra file

File: test_serialize_tokenizer.py Progetto: cs394-s20/Aqua

def test_serialize_custom_tokenizer(en_vocab, en_tokenizer):
    """Test that custom tokenizer with not all functions defined or empty
    properties can be serialized and deserialized correctly (see #2494,
    #4991)."""
    tokenizer = Tokenizer(en_vocab, suffix_search=en_tokenizer.suffix_search)
    tokenizer_bytes = tokenizer.to_bytes()
    Tokenizer(en_vocab).from_bytes(tokenizer_bytes)

    tokenizer = Tokenizer(en_vocab,
                          rules={"ABC.": [{
                              "ORTH": "ABC",
                              "ORTH": "."
                          }]})
    tokenizer.rules = {}
    tokenizer_bytes = tokenizer.to_bytes()
    tokenizer_reloaded = Tokenizer(en_vocab).from_bytes(tokenizer_bytes)
    assert tokenizer_reloaded.rules == {}