def test_tokenizer_template_texts_to_words_jp(self): tokenizer = TokenizerJP() self.assertIsNotNone(tokenizer) tokenizer.is_template = True self.assertEqual(["こんにちは「良い天気」ですね"], tokenizer.texts_to_words("こんにちは「良い天気」ですね"))
def test_tokenizer_template_texts_to_words_en(self): tokenizer = TokenizerJP() self.assertIsNotNone(tokenizer) tokenizer.is_template = True self.assertEqual([], tokenizer.texts_to_words("")) self.assertEqual( ["Hello, he is Mr.A (No name)"], tokenizer.texts_to_words("Hello, he is Mr.A (No name)"))
def test_tokenizer_template_texts_to_words_mix(self): tokenizer = TokenizerJP() self.assertIsNotNone(tokenizer) tokenizer.is_template = True self.assertEqual(["こんにちはhappyですか"], tokenizer.texts_to_words("こんにちはhappyですか")) self.assertEqual(["こんにちは happy ですか"], tokenizer.texts_to_words("こんにちは happy ですか")) self.assertEqual(["こんにちは(happy)ですか"], tokenizer.texts_to_words("こんにちは(happy)ですか"))