Exemplos de MecabTokenizer em Python, exemplos de transformers.tokenization_bert_japanese.MecabTokenizer em Python

Exemplo n.º 1

0

Exibir arquivo

    def test_mecab_tokenizer_no_normalize(self):
        tokenizer = MecabTokenizer(normalize_text=False)

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["ｱｯﾌﾟﾙストア", "で", "iPhone", "８", "が", "発売", "さ", "れ", "た", "　", "。"],
        )

Exemplo n.º 2

0

Exibir arquivo

    def test_mecab_tokenizer(self):
        tokenizer = MecabTokenizer()

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["アップルストア", "で", "iPhone", "8", "が", "発売", "さ", "れ", "た", "。"],
        )

Exemplo n.º 3

0

Exibir arquivo

Arquivo: test_tokenization_bert_japanese.py Projeto: handar423/test-transformer

    def test_mecab_tokenizer_lower(self):
        tokenizer = MecabTokenizer(do_lower_case=True, mecab_dic="ipadic")

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["アップルストア", "で", "iphone", "8", "が", "発売", "さ", "れ", "た", "。"],
        )

Exemplo n.º 4

0

Exibir arquivo

    def test_mecab_tokenizer_no_normalize(self):
        tokenizer = MecabTokenizer(normalize_text=False)

        self.assertListEqual(
            tokenizer.tokenize(u" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "), [
                u"ｱｯﾌﾟﾙストア", u"で", u"iPhone", u"８", u"が", u"発売", u"さ", u"れ",
                u"た", u"　", u"。"
            ])

Exemplo n.º 5

0

Exibir arquivo

    def test_mecab_tokenizer_lower(self):
        tokenizer = MecabTokenizer(do_lower_case=True)

        self.assertListEqual(
            tokenizer.tokenize(u" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "), [
                u"アップルストア", u"で", u"iphone", u"8", u"が", u"発売", u"さ", u"れ",
                u"た", u"。"
            ])

Exemplo n.º 6

0

Exibir arquivo

Arquivo: test_tokenization_bert_japanese.py Projeto: handar423/test-transformer

    def test_mecab_tokenizer_unidic_lite(self):
        try:
            tokenizer = MecabTokenizer(mecab_dic="unidic_lite")
        except ModuleNotFoundError:
            return

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["アップル", "ストア", "で", "iPhone", "8", "が", "発売", "さ", "れ", "た", "。"],
        )

Exemplo n.º 7

0

Exibir arquivo

Arquivo: test_tokenization_bert_japanese.py Projeto: lego0901/pytea

    def test_mecab_tokenizer_with_option(self):
        try:
            tokenizer = MecabTokenizer(
                do_lower_case=True, normalize_text=False, mecab_option="-d /usr/local/lib/mecab/dic/jumandic"
            )
        except RuntimeError:
            # if dict doesn't exist in the system, previous code raises this error.
            return

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["ｱｯﾌﾟﾙストア", "で", "iPhone", "８", "が", "発売", "さ", "れた", "\u3000", "。"],
        )