Python MCTCTProcessor примеры использования

Язык программирования: Python

Пространство имен/Пакет: transformers

Класс/Тип: MCTCTProcessor

Примеров на hotexamples.com: 8

Python MCTCTProcessor - 8 примеров найдено. Это лучшие примеры Python кода для transformers.MCTCTProcessor, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

MCTCTProcessor(5)

from_pretrained(5)

save_pretrained(2)

as_target_processor(1)

batch_decode(1)

Пример #1

Показать файл

    def test_save_load_pretrained_additional_features(self):
        processor = MCTCTProcessor(
            tokenizer=self.get_tokenizer(),
            feature_extractor=self.get_feature_extractor())
        processor.save_pretrained(self.tmpdirname)

        tokenizer_add_kwargs = self.get_tokenizer(bos_token="(BOS)",
                                                  eos_token="(EOS)")
        feature_extractor_add_kwargs = self.get_feature_extractor(
            do_normalize=False, padding_value=1.0)

        processor = MCTCTProcessor.from_pretrained(self.tmpdirname,
                                                   bos_token="(BOS)",
                                                   eos_token="(EOS)",
                                                   do_normalize=False,
                                                   padding_value=1.0)

        self.assertEqual(processor.tokenizer.get_vocab(),
                         tokenizer_add_kwargs.get_vocab())
        self.assertIsInstance(processor.tokenizer, Wav2Vec2CTCTokenizer)

        self.assertEqual(processor.feature_extractor.to_json_string(),
                         feature_extractor_add_kwargs.to_json_string())
        self.assertIsInstance(processor.feature_extractor,
                              MCTCTFeatureExtractor)

Пример #2

Показать файл

    def test_tokenizer_decode(self):
        feature_extractor = self.get_feature_extractor()
        tokenizer = self.get_tokenizer()

        processor = MCTCTProcessor(tokenizer=tokenizer,
                                   feature_extractor=feature_extractor)

        predicted_ids = [[1, 4, 5, 8, 1, 0, 8], [3, 4, 3, 1, 1, 8, 9]]

        decoded_processor = processor.batch_decode(predicted_ids)
        decoded_tok = tokenizer.batch_decode(predicted_ids)

        self.assertListEqual(decoded_tok, decoded_processor)

Пример #3

Показать файл

    def test_inference_ctc_robust_batched(self):
        model = MCTCTForCTC.from_pretrained("speechbrain/m-ctc-t-large").to(
            torch_device)
        processor = MCTCTProcessor.from_pretrained("speechbrain/m-ctc-t-large",
                                                   do_lower_case=True)

        input_speech = self._load_datasamples(4)

        inputs = processor(input_speech,
                           return_tensors="pt",
                           padding=True,
                           return_attention_mask=True)

        input_features = inputs.input_features.to(torch_device)
        attention_mask = inputs.attention_mask.to(torch_device)

        with torch.no_grad():
            logits = model(input_features,
                           attention_mask=attention_mask).logits

        predicted_ids = torch.argmax(logits, dim=-1)
        predicted_trans = processor.batch_decode(predicted_ids)

        EXPECTED_TRANSCRIPTIONS = [
            "a man said to the universe, sir, i exist.",
            '"sweat-covered brion\'s body, trickling into the tight-lowing clossa was the only germent huor." "',
            "\"the cadona's chest still-dripping bloodthe acofis overstrained eyes, even the soring arena around him"
            " with thousands of spectators retrivialities not worth-thinking about.",
            "his instant panic was followed by a small sharp blow high on his chestr.",
        ]
        self.assertListEqual(predicted_trans, EXPECTED_TRANSCRIPTIONS)

Пример #4

Показать файл

    def test_inference_ctc_normal_batched(self):
        model = MCTCTForCTC.from_pretrained("speechbrain/m-ctc-t-large")
        model.to(torch_device)
        processor = MCTCTProcessor.from_pretrained("speechbrain/m-ctc-t-large",
                                                   do_lower_case=True)

        input_speech = self._load_datasamples(2)

        inputs = processor(input_speech, return_tensors="pt", padding=True)

        input_features = inputs.input_features.to(torch_device)
        attention_mask = inputs.attention_mask.to(torch_device)

        with torch.no_grad():
            logits = model(input_features,
                           attention_mask=attention_mask).logits

        predicted_ids = torch.argmax(logits, dim=-1)
        predicted_trans = processor.batch_decode(predicted_ids)

        EXPECTED_TRANSCRIPTIONS = [
            "a man said to the universe, sir, i exist.",
            '"sweat-covered brion\'s body, trickling into the tight-lowing clossa was the only germent huor."',
        ]
        self.assertListEqual(predicted_trans, EXPECTED_TRANSCRIPTIONS)

Пример #5

Показать файл

    def test_tokenizer(self):
        feature_extractor = self.get_feature_extractor()
        tokenizer = self.get_tokenizer()

        processor = MCTCTProcessor(tokenizer=tokenizer,
                                   feature_extractor=feature_extractor)

        input_str = "This is a test string"

        with processor.as_target_processor():
            encoded_processor = processor(input_str)

        encoded_tok = tokenizer(input_str)

        for key in encoded_tok.keys():
            self.assertListEqual(encoded_tok[key], encoded_processor[key])

Пример #6

Показать файл

    def test_save_load_pretrained_default(self):
        tokenizer = self.get_tokenizer()
        feature_extractor = self.get_feature_extractor()

        processor = MCTCTProcessor(tokenizer=tokenizer,
                                   feature_extractor=feature_extractor)

        processor.save_pretrained(self.tmpdirname)
        processor = MCTCTProcessor.from_pretrained(self.tmpdirname)

        self.assertEqual(processor.tokenizer.get_vocab(),
                         tokenizer.get_vocab())
        self.assertIsInstance(processor.tokenizer, Wav2Vec2CTCTokenizer)

        self.assertEqual(processor.feature_extractor.to_json_string(),
                         feature_extractor.to_json_string())
        self.assertIsInstance(processor.feature_extractor,
                              MCTCTFeatureExtractor)

Пример #7

Показать файл

    def test_feature_extractor(self):
        feature_extractor = self.get_feature_extractor()
        tokenizer = self.get_tokenizer()

        processor = MCTCTProcessor(tokenizer=tokenizer,
                                   feature_extractor=feature_extractor)

        raw_speech = floats_list((3, 1000))

        input_feat_extract = feature_extractor(raw_speech, return_tensors="np")
        input_processor = processor(raw_speech, return_tensors="np")

        for key in input_feat_extract.keys():
            self.assertAlmostEqual(input_feat_extract[key].sum(),
                                   input_processor[key].sum(),
                                   delta=1e-2)

Пример #8

Показать файл

    def test_inference_ctc_normal(self):
        model = MCTCTForCTC.from_pretrained("speechbrain/m-ctc-t-large")
        model.to(torch_device)
        processor = MCTCTProcessor.from_pretrained("speechbrain/m-ctc-t-large",
                                                   do_lower_case=True)
        input_speech = self._load_datasamples(1)

        input_features = processor(
            input_speech, return_tensors="pt").input_features.to(torch_device)

        with torch.no_grad():
            logits = model(input_features).logits

        predicted_ids = torch.argmax(logits, dim=-1)
        predicted_trans = processor.batch_decode(predicted_ids)

        EXPECTED_TRANSCRIPTIONS = ["a man said to the universe, sir, i exist."]
        self.assertListEqual(predicted_trans, EXPECTED_TRANSCRIPTIONS)