Python MecabTokenizerの例

プログラミング言語: Python

名前空間/パッケージ名: transformers.models.bert_japanese.tokenization_bert_japanese

クラス/型: MecabTokenizer

hotexamples.comのコード掲載数: 4

Python MecabTokenizer - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtransformers.models.bert_japanese.tokenization_bert_japanese.MecabTokenizerの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

MecabTokenizer(4)

tokenize(4)

よく使われるメソッド

MecabTokenizer (4)

tokenize (4)

コード例 #1

ファイルを表示

ファイル: test_tokenization_bert_japanese.py プロジェクト: MaveriQ/transformers

    def test_mecab_tokenizer_no_normalize(self):
        tokenizer = MecabTokenizer(normalize_text=False, mecab_dic="ipadic")

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["ｱｯﾌﾟﾙストア", "で", "iPhone", "８", "が", "発売", "さ", "れ", "た", "　", "。"],
        )

コード例 #2

ファイルを表示

ファイル: test_tokenization_bert_japanese.py プロジェクト: MaveriQ/transformers

    def test_mecab_tokenizer_lower(self):
        tokenizer = MecabTokenizer(do_lower_case=True, mecab_dic="ipadic")

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["アップルストア", "で", "iphone", "8", "が", "発売", "さ", "れ", "た", "。"],
        )

コード例 #3

ファイルを表示

ファイル: test_tokenization_bert_japanese.py プロジェクト: MaveriQ/transformers

    def test_mecab_tokenizer_unidic(self):
        try:
            tokenizer = MecabTokenizer(mecab_dic="unidic")
        except ModuleNotFoundError:
            return

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["アップル", "ストア", "で", "iPhone", "8", "が", "発売", "さ", "れ", "た", "。"],
        )

コード例 #4

ファイルを表示

ファイル: test_tokenization_bert_japanese.py プロジェクト: MaveriQ/transformers

    def test_mecab_tokenizer_with_option(self):
        try:
            tokenizer = MecabTokenizer(
                do_lower_case=True, normalize_text=False, mecab_option="-d /usr/local/lib/mecab/dic/jumandic"
            )
        except RuntimeError:
            # if dict doesn't exist in the system, previous code raises this error.
            return

        self.assertListEqual(
            tokenizer.tokenize(" \tｱｯﾌﾟﾙストアでiPhone８ が  \n 発売された　。  "),
            ["ｱｯﾌﾟﾙストア", "で", "iPhone", "８", "が", "発売", "さ", "れた", "\u3000", "。"],
        )