Python MecabTokenizer Beispiele

Programmiersprache: Python

Namespace / Paketname: transformers.tokenization_bert_japanese

Klasse / Typ: MecabTokenizer

Beispiele auf hotexamples.com: 7

Python MecabTokenizer - 7 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die transformers.tokenization_bert_japanese.MecabTokenizer, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

MecabTokenizer(7)

tokenize(7)

Häufig verwendete Methoden

MecabTokenizer (7)

tokenize (7)

Beispiel #1

Datei anzeigen

    def test_mecab_tokenizer_no_normalize(self):
        tokenizer = MecabTokenizer(normalize_text=False)

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["ｱｯﾌﾟﾙストア", "で", "iPhone", "８", "が", "発売", "さ", "れ", "た", "　", "。"],
        )

Beispiel #2

Datei anzeigen

    def test_mecab_tokenizer(self):
        tokenizer = MecabTokenizer()

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["アップルストア", "で", "iPhone", "8", "が", "発売", "さ", "れ", "た", "。"],
        )

Beispiel #3

Datei anzeigen

Datei: test_tokenization_bert_japanese.py Projekt: handar423/test-transformer

    def test_mecab_tokenizer_lower(self):
        tokenizer = MecabTokenizer(do_lower_case=True, mecab_dic="ipadic")

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["アップルストア", "で", "iphone", "8", "が", "発売", "さ", "れ", "た", "。"],
        )

Beispiel #4

Datei anzeigen

    def test_mecab_tokenizer_no_normalize(self):
        tokenizer = MecabTokenizer(normalize_text=False)

        self.assertListEqual(
            tokenizer.tokenize(u" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "), [
                u"ｱｯﾌﾟﾙストア", u"で", u"iPhone", u"８", u"が", u"発売", u"さ", u"れ",
                u"た", u"　", u"。"
            ])

Beispiel #5

Datei anzeigen

    def test_mecab_tokenizer_lower(self):
        tokenizer = MecabTokenizer(do_lower_case=True)

        self.assertListEqual(
            tokenizer.tokenize(u" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "), [
                u"アップルストア", u"で", u"iphone", u"8", u"が", u"発売", u"さ", u"れ",
                u"た", u"。"
            ])

Beispiel #6

Datei anzeigen

Datei: test_tokenization_bert_japanese.py Projekt: handar423/test-transformer

    def test_mecab_tokenizer_unidic_lite(self):
        try:
            tokenizer = MecabTokenizer(mecab_dic="unidic_lite")
        except ModuleNotFoundError:
            return

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["アップル", "ストア", "で", "iPhone", "8", "が", "発売", "さ", "れ", "た", "。"],
        )

Beispiel #7

Datei anzeigen

Datei: test_tokenization_bert_japanese.py Projekt: lego0901/pytea

    def test_mecab_tokenizer_with_option(self):
        try:
            tokenizer = MecabTokenizer(
                do_lower_case=True, normalize_text=False, mecab_option="-d /usr/local/lib/mecab/dic/jumandic"
            )
        except RuntimeError:
            # if dict doesn't exist in the system, previous code raises this error.
            return

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["ｱｯﾌﾟﾙストア", "で", "iPhone", "８", "が", "発売", "さ", "れた", "\u3000", "。"],
        )