Python Tokenizer.normalize Beispiele

Programmiersprache: Python

Namespace / Paketname: tokenizers

Klasse / Typ: Tokenizer

Methode / Funktion: normalize

Beispiele auf hotexamples.com: 8

Python Tokenizer.normalize - 8 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die tokenizers.Tokenizer.normalize, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Tokenizer(30)

decoder(30)

save(30)

normalizer(30)

from_file(30)

train(30)

post_processor(30)

encode(30)

pre_tokenizer(30)

add_special_tokens(26)

token_to_id(24)

encode_batch(18)

train_from_iterator(17)

add_tokens(17)

enable_padding(13)

enable_truncation(12)

normalize(8)

model(8)

decode_batch(6)

decode(5)

get_vocab(5)

from_str(4)

get_vocab_size(3)

_process_all_1(3)

decoders(3)

save_pretrained(2)

save_model(2)

with_pre_tokenizer(2)

with_padding(2)

with_decoder(2)

with_truncation(2)

from_pretrained(2)

convert_tokens_to_ids(2)

post_process(1)

raise_error(1)

pad_token(1)

mask_token(1)

get_special_tokens_mask(1)

save_tokenizer(1)

to_str(1)

tokenize(1)

tokenize_and_pad_training_data(1)

encode_plus(1)

convert_ids_to_tokens(1)

build_inputs_with_special_tokens(1)

batch_encode_plus(1)

load_tokenizer(1)

Beispiel #1

Datei anzeigen

Datei: test_tokenizer.py Projekt: xxg1413/tokenizers

    def test_normalize(self):
        tokenizer = Tokenizer(BPE())
        tokenizer.add_tokens(["my", "name", "is", "john", "pair"])
        tokenizer.normalizer = Lowercase()

        output = tokenizer.normalize("My Name Is John")
        assert output == "my name is john"

Beispiel #2

Datei anzeigen

Datei: test_normalizers.py Projekt: llogiq/tokenizers

    def test_strip_accents(self):
        tokenizer = Tokenizer(BPE.empty())
        tokenizer.normalizer = BertNormalizer(
            strip_accents=True, lowercase=False, handle_chinese_chars=False, clean_text=False
        )

        output = tokenizer.normalize("Héllò")
        assert output == "Hello"

Beispiel #3

Datei anzeigen

    def test_clean_text(self):
        tokenizer = Tokenizer(BPE())
        tokenizer.normalizer = BertNormalizer(strip_accents=False,
                                              lowercase=False,
                                              handle_chinese_chars=False,
                                              clean_text=True)

        output = tokenizer.normalize("\ufeffHello")
        assert output == "Hello"

Beispiel #4

Datei anzeigen

Datei: zh_en_split.py Projekt: jia-zhuang/nlp-utils

'''
将句子中的中文和英文分开，使用huggingface/tokenizers

https://github.com/huggingface/tokenizers/blob/master/bindings/python/tests/bindings/test_normalizers.py
'''

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.normalizers import BertNormalizer

text = "薛定谔的猫（英文名称：Erwin Schrödinger's Cat）是奥地利著名物理学家薛定谔"

tokenizer = Tokenizer(BPE())
tokenizer.normalizer = BertNormalizer(strip_accents=False,
                                      lowercase=False,
                                      handle_chinese_chars=True,
                                      clean_text=False)

output = tokenizer.normalize(txt)
print(output)

Beispiel #5

Datei anzeigen

Datei: test_normalizers.py Projekt: llogiq/tokenizers

    def test_full_strip(self):
        tokenizer = Tokenizer(BPE.empty())
        tokenizer.normalizer = Strip(left=True, right=True)

        output = tokenizer.normalize("  hello  ")
        assert output == "hello"

Beispiel #6

Datei anzeigen

Datei: test_normalizers.py Projekt: llogiq/tokenizers

    def test_lowercase(self):
        tokenizer = Tokenizer(BPE.empty())
        tokenizer.normalizer = Lowercase()

        output = tokenizer.normalize("HELLO")
        assert output == "hello"

Beispiel #7

Datei anzeigen

Datei: test_normalizers.py Projekt: llogiq/tokenizers

    def test_can_make_sequences(self):
        tokenizer = Tokenizer(BPE.empty())
        tokenizer.normalizer = Sequence([Lowercase(), Strip()])

        output = tokenizer.normalize("  HELLO  ")
        assert output == "hello"

Beispiel #8

Datei anzeigen

    def test_right_strip(self):
        tokenizer = Tokenizer(BPE())
        tokenizer.normalizer = Strip(left=False, right=True)

        output = tokenizer.normalize("  hello  ")
        assert output == "  hello"