Python ByT5Tokenizerの例

プログラミング言語: Python

名前空間/パッケージ名: transformers

クラス/型: ByT5Tokenizer

hotexamples.comのコード掲載数: 4

Python ByT5Tokenizer - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtransformers.ByT5Tokenizerの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

from_pretrained(3)

ByT5Tokenizer(1)

よく使われるメソッド

from_pretrained (3)

ByT5Tokenizer (1)

コード例 #1

ファイルを表示

ファイル: test_modeling_flax_t5.py プロジェクト: zhangbo2008/transformers

    def test_small_byt5_integration_test(self):
        """
        For comparision run:
        >>> import t5  # pip install t5==0.9.1

        >>> path_to_byt5_small_checkpoint = '<fill_in>'
        >>> t5_model = t5.models.MtfModel(model_dir=path_to_tf_checkpoint, batch_size=1, tpu=None)
        >>> vocab = t5.data.ByteVocabulary()
        >>> score = t5_model.score(inputs=["Hello there"], targets=["Hi I am"], vocabulary=vocab)
        """

        model = FlaxT5ForConditionalGeneration.from_pretrained(
            "google/byt5-small")
        tokenizer = ByT5Tokenizer.from_pretrained("google/byt5-small")

        input_ids = tokenizer("Hello there", return_tensors="np").input_ids
        labels = tokenizer("Hi I am", return_tensors="np").input_ids

        decoder_input_ids = shift_tokens_right(
            labels, model.config.pad_token_id,
            model.config.decoder_start_token_id)

        logits = model(input_ids, decoder_input_ids=decoder_input_ids).logits
        loss = optax.softmax_cross_entropy(logits,
                                           onehot(labels,
                                                  logits.shape[-1])).mean()

        mtf_score = -(labels.shape[-1] * loss.item())

        EXPECTED_SCORE = -60.7397
        self.assertTrue(abs(mtf_score - EXPECTED_SCORE) < 1e-4)

コード例 #2

ファイルを表示

    def test_small_byt5_integration_test(self):
        """
        For comparision run:
        >>> import t5  # pip install t5==0.9.1

        >>> path_to_byt5_small_checkpoint = '<fill_in>'
        >>> t5_model = t5.models.MtfModel(model_dir=path_to_tf_checkpoint, batch_size=1, tpu=None)
        >>> vocab = t5.data.ByteVocabulary()
        >>> score = t5_model.score(inputs=["Hello there"], targets=["Hi I am"], vocabulary=vocab)
        """

        model = TFT5ForConditionalGeneration.from_pretrained("google/byt5-small")
        tokenizer = ByT5Tokenizer.from_pretrained("google/byt5-small")

        input_ids = tokenizer("Hello there", return_tensors="tf").input_ids
        labels = tokenizer("Hi I am", return_tensors="tf").input_ids

        loss = model(input_ids, labels=labels).loss
        mtf_score = -tf.math.reduce_sum(loss).numpy()

        EXPECTED_SCORE = -60.7397
        self.assertTrue(abs(mtf_score - EXPECTED_SCORE) < 1e-4)

コード例 #3

ファイルを表示

ファイル: test_tokenization_byt5.py プロジェクト: yulinggu-cs/transformers

 def t5_base_tokenizer(self):
     return ByT5Tokenizer.from_pretrained("google/byt5-small")

コード例 #4

ファイルを表示

ファイル: test_tokenization_byt5.py プロジェクト: yulinggu-cs/transformers

 def setUp(self):
     super().setUp()
     tokenizer = ByT5Tokenizer()
     tokenizer.save_pretrained(self.tmpdirname)