Python PreprocessorBertTokeniser примеры использования

Язык программирования: Python

Пространство имен/Пакет: preprocessor_bert_tokeniser

Примеров на hotexamples.com: 4

Python PreprocessorBertTokeniser - 4 примера найдено. Это лучшие примеры Python кода для preprocessor_bert_tokeniser.PreprocessorBertTokeniser, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

PreprocessorBertTokeniser(4)

item(2)

sequence_pad(2)

Пример #1

Показать файл

    def test_sequence_long(self):
        """
        Test case sequences that are too long should be truncated
        :return:
        """
        sut = PreprocessorBertTokeniser(max_feature_len=5, tokeniser=None)
        sut.item = ["THE", "dog", "ate", "a", "biscuit"]
        expected = ["[CLS]", "THE", "dog", "ate", "[SEP]"]

        # Act
        sut.sequence_pad()

        # Assert
        self.assertSequenceEqual(expected, sut.item)

Пример #2

Показать файл

    def test_sequence_short(self):
        """
        Test case  sequences that are too short should be padded
        :return:
        """
        sut = PreprocessorBertTokeniser(max_feature_len=5, tokeniser=None)
        sut.item = ["THE"]
        expected = ["[CLS]", "THE", "[PAD]", "[PAD]", "[SEP]"]

        # Act
        sut.sequence_pad()

        # Assert
        self.assertSequenceEqual(expected, sut.item)

Пример #3

Показать файл

Файл: builder.py Проект: hy714335634/Veeva-Opendata-Sagemaker

    def get_preprocessor(self):
        self._logger.info("Retrieving Tokeniser")
        tokeniser = BertTokenizer.from_pretrained(self._bert_model_name, do_lower_case=self._token_lower_case)
        preprocessor = PreprocessorBertTokeniser(max_feature_len=self._max_seq_len, tokeniser=tokeniser)
        self._logger.info("Completed retrieving Tokeniser")

        return preprocessor

Пример #4

Показать файл

Файл: builder.py Проект: timwukp/amazon-sagemaker-bert-classify-pytorch

 def get_preprocessor(self):
     tokeniser = BertTokenizer.from_pretrained(
         self._bert_model_name, do_lower_case=self._token_lower_case)
     preprocessor = PreprocessorBertTokeniser(
         max_feature_len=self._max_seq_len, tokeniser=tokeniser)
     return preprocessor