Python PreprocessorBertTokeniserの例

プログラミング言語: Python

名前空間/パッケージ名: preprocessor_bert_tokeniser

hotexamples.comのコード掲載数: 4

Python PreprocessorBertTokeniser - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpreprocessor_bert_tokeniser.PreprocessorBertTokeniserの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

PreprocessorBertTokeniser(4)

item(2)

sequence_pad(2)

コード例 #1

ファイルを表示

    def test_sequence_long(self):
        """
        Test case sequences that are too long should be truncated
        :return:
        """
        sut = PreprocessorBertTokeniser(max_feature_len=5, tokeniser=None)
        sut.item = ["THE", "dog", "ate", "a", "biscuit"]
        expected = ["[CLS]", "THE", "dog", "ate", "[SEP]"]

        # Act
        sut.sequence_pad()

        # Assert
        self.assertSequenceEqual(expected, sut.item)

コード例 #2

ファイルを表示

    def test_sequence_short(self):
        """
        Test case  sequences that are too short should be padded
        :return:
        """
        sut = PreprocessorBertTokeniser(max_feature_len=5, tokeniser=None)
        sut.item = ["THE"]
        expected = ["[CLS]", "THE", "[PAD]", "[PAD]", "[SEP]"]

        # Act
        sut.sequence_pad()

        # Assert
        self.assertSequenceEqual(expected, sut.item)

コード例 #3

ファイルを表示

ファイル: builder.py プロジェクト: hy714335634/Veeva-Opendata-Sagemaker

    def get_preprocessor(self):
        self._logger.info("Retrieving Tokeniser")
        tokeniser = BertTokenizer.from_pretrained(self._bert_model_name, do_lower_case=self._token_lower_case)
        preprocessor = PreprocessorBertTokeniser(max_feature_len=self._max_seq_len, tokeniser=tokeniser)
        self._logger.info("Completed retrieving Tokeniser")

        return preprocessor

コード例 #4

ファイルを表示

ファイル: builder.py プロジェクト: timwukp/amazon-sagemaker-bert-classify-pytorch

 def get_preprocessor(self):
     tokeniser = BertTokenizer.from_pretrained(
         self._bert_model_name, do_lower_case=self._token_lower_case)
     preprocessor = PreprocessorBertTokeniser(
         max_feature_len=self._max_seq_len, tokeniser=tokeniser)
     return preprocessor