Python Utilities.strip_puc 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utilities.utilities

클래스/타입: Utilities

메소드/함수: strip_puc

hotexamples.com에서의 예제들: 2

Python Utilities.strip_puc - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utilities.utilities.Utilities.strip_puc에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Utilities(30)

string_to_enum(4)

get_root_filename(3)

filter_files(3)

create_unique_queue_file_name(2)

get_count_of_word_instances(2)

get_audio_set(2)

create_unique_root(2)

strip_puc(2)

append_uri(2)

_is_valid_file_extension(2)

clean_dataset(1)

build_counters(1)

_get_ref_set(1)

parse_uri(1)

move_up_directory(1)

local_files(1)

get_dates(1)

get_cities(1)

build_mineable_view(1)

clean_dots_beginning_of_text(1)

dates_fix(1)

check_language_langid(1)

check_language_languagedetect(1)

clean_url(1)

_get_extension(1)

clean_smileys(1)

clean_multiple_whitespaces(1)

clean_multiple_punctuations(1)

clean_multiple_dots(1)

clean_text(1)

예제 #1

파일 보기

파일: cloud_storage.py 프로젝트: bbookman/Google-Speech-to-Text-API-Word-Error-Rate-Analysis-Tool

 def read_ref(self, uri, txt_file):
     from google.cloud import storage as storage
     logger = logging.getLogger(__name__)
     client = storage.Client()
     bucket, folder = self._parse_uri(uri)
     b = client.bucket(bucket)
     path = f"{txt_file}"
     if len(folder) > 0:
         path = f"{folder}/{txt_file}"
     blob = b.get_blob(path)
     result = blob.download_as_string().decode('latin-1')
     r = result.replace('\n', '')
     r = str(r)
     r = r.lower()
     utilities = Utilities()
     r = utilities.strip_puc(text = r)
     logger.debug(f'REF STRIPPED: {r}')
     return r

예제 #2

파일 보기

파일: speech_to_text.py 프로젝트: bbookman/Google-Speech-to-Text-API-Word-Error-Rate-Analysis-Tool

    def get_hypothesis(self, uri, configuration):
        import time
        """Asynchronously transcribes the audio uri specified by the gcs_uri."""
        client = speech.SpeechClient()
        config = {
            "model":
            configuration.get_model(),
            "use_enhanced":
            configuration.get_use_enhanced(),
            "encoding":
            configuration.get_encoding(),
            "sample_rate_hertz":
            configuration.get_sample_rate_hertz(),
            "language_code":
            configuration.get_language_code(),
            "alternative_language_codes":
            configuration.get_alternative_language_codes(),
            "audio_channel_count":
            configuration.get_audio_channel_count(),
            "enable_separate_recognition_per_channel":
            configuration.get_enable_separate_recognition_per_channel(),
            "enable_speaker_diarization":
            configuration.get_enableSpeakerDiarization(),
            "diarization_speaker_count":
            configuration.get_diarizationSpeakerCount(),
            "enable_automatic_punctuation":
            configuration.get_enableAutomaticPunctuation(),
            "speech_contexts":
            configuration.get_speech_context()
        }

        audio = {"uri": uri}
        operation = object
        try:
            operation = client.long_running_recognize(config=config,
                                                      audio=audio)
        except google.api_core.exceptions.InvalidArgument as e:
            raise e
        count = 0
        sleep_time = 5
        while not operation.done() and count != 30000:
            print(
                f"{operation.metadata.progress_percent}% complete - updates every {sleep_time} seconds"
            )
            if count == 29999:
                raise TimeoutError("Time out processing audio")
            count += 1
            time.sleep(sleep_time)
        print(
            f"{operation.metadata.progress_percent}% complete - updates every {sleep_time} seconds"
        )

        response = operation.result(timeout=1200)

        transcript = str()
        for result in response.results:
            # First alternative is the most probable result
            transcript += " " + result.alternatives[0].transcript
        if not transcript:
            logger.debug('No transcript returned')
        utilities = Utilities()
        t = utilities.strip_puc(text=transcript)
        return t.lower()