Python CharacterTokenizer.CharacterTokenizer Beispiele

Programmiersprache: Python

Namespace / Paketname: transformers.tokenization_bert_japanese

Klasse / Typ: CharacterTokenizer

Methode / Funktion: CharacterTokenizer

Beispiele auf hotexamples.com: 2

Python CharacterTokenizer.CharacterTokenizer - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die transformers.tokenization_bert_japanese.CharacterTokenizer.CharacterTokenizer, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

CharacterTokenizer(2)

tokenize(2)

Häufig verwendete Methoden

CharacterTokenizer (2)

tokenize (2)

Beispiel #1

Datei anzeigen

    def test_character_tokenizer(self):
        vocab_tokens = ["[UNK]", "[CLS]", "[SEP]", "こ", "ん", "に", "ち", "は", "ば", "世", "界" "、", "。"]

        vocab = {}
        for (i, token) in enumerate(vocab_tokens):
            vocab[token] = i
        tokenizer = CharacterTokenizer(vocab=vocab, unk_token="[UNK]")

        self.assertListEqual(tokenizer.tokenize(""), [])

        self.assertListEqual(tokenizer.tokenize("こんにちは"), ["こ", "ん", "に", "ち", "は"])

        self.assertListEqual(tokenizer.tokenize("こんにちほ"), ["こ", "ん", "に", "ち", "[UNK]"])

Beispiel #2

Datei anzeigen

    def test_character_tokenizer(self):
        vocab_tokens = [
            u"[UNK]", u"[CLS]", u"[SEP]", u"こ", u"ん", u"に", u"ち", u"は", u"ば",
            u"世", u"界"
            u"、", u"。"
        ]

        vocab = {}
        for (i, token) in enumerate(vocab_tokens):
            vocab[token] = i
        tokenizer = CharacterTokenizer(vocab=vocab, unk_token=u"[UNK]")

        self.assertListEqual(tokenizer.tokenize(u""), [])

        self.assertListEqual(tokenizer.tokenize(u"こんにちは"),
                             [u"こ", u"ん", u"に", u"ち", u"は"])

        self.assertListEqual(tokenizer.tokenize(u"こんにちほ"),
                             [u"こ", u"ん", u"に", u"ち", u"[UNK]"])