Beispiel #1
0
    def test_character_tokenizer(self):
        vocab_tokens = ["[UNK]", "[CLS]", "[SEP]", "こ", "ん", "に", "ち", "は", "ば", "世", "界" "、", "。"]

        vocab = {}
        for (i, token) in enumerate(vocab_tokens):
            vocab[token] = i
        tokenizer = CharacterTokenizer(vocab=vocab, unk_token="[UNK]")

        self.assertListEqual(tokenizer.tokenize(""), [])

        self.assertListEqual(tokenizer.tokenize("こんにちは"), ["こ", "ん", "に", "ち", "は"])

        self.assertListEqual(tokenizer.tokenize("こんにちほ"), ["こ", "ん", "に", "ち", "[UNK]"])
Beispiel #2
0
    def test_character_tokenizer(self):
        vocab_tokens = [
            u"[UNK]", u"[CLS]", u"[SEP]", u"こ", u"ん", u"に", u"ち", u"は", u"ば",
            u"世", u"界"
            u"、", u"。"
        ]

        vocab = {}
        for (i, token) in enumerate(vocab_tokens):
            vocab[token] = i
        tokenizer = CharacterTokenizer(vocab=vocab, unk_token=u"[UNK]")

        self.assertListEqual(tokenizer.tokenize(u""), [])

        self.assertListEqual(tokenizer.tokenize(u"こんにちは"),
                             [u"こ", u"ん", u"に", u"ち", u"は"])

        self.assertListEqual(tokenizer.tokenize(u"こんにちほ"),
                             [u"こ", u"ん", u"に", u"ち", u"[UNK]"])