Python run_with_termination 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ote.utils

메소드/함수: run_with_termination

hotexamples.com에서의 예제들: 2

Python run_with_termination - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ote.utils.run_with_termination에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

    def _train_internal(self, config, gpu_num, update_config, tensorboard_dir):
        tools_dir = self._get_tools_dir()
        if tensorboard_dir is not None:
            update_config += f' data.tb_log_dir {tensorboard_dir}'

        if get_cuda_device_count() > 0:
            logging.info('Training on GPUs started ...')
            available_gpu_num = get_cuda_device_count()
            if available_gpu_num < gpu_num:
                logging.warning(
                    f'available_gpu_num < args.gpu_num: {available_gpu_num} < {gpu_num}'
                )
                logging.warning(
                    f'decreased number of gpu to: {available_gpu_num}')
                gpu_num = available_gpu_num
                sys.stdout.flush()
            logging.info('... training on GPUs completed.')
        else:
            gpu_num = 0
            logging.info('Training on CPU started ...')

        run_with_termination(f'python {tools_dir}/main.py'
                             f' --config-file {config}'
                             f' --gpu-num {gpu_num}'
                             f' {update_config}'.split(' '))

        if get_cuda_device_count() > 0:
            logging.info('... training on GPUs completed.')
        else:
            logging.info('... training on CPU completed.')

예제 #2

파일 보기

파일: base.py 프로젝트: zk886/training_extensions

    def _train_internal(self, config, gpu_num, update_config, tensorboard_dir):
        tools_dir = self._get_tools_dir()
        tensorboard_dir = f' --tensorboard-dir {tensorboard_dir}' if tensorboard_dir is not None else ''

        training_info = {'training_gpu_num': 0}
        if os.getenv('MASTER_ADDR') is not None and os.getenv(
                'MASTER_PORT') is not None:
            # Distributed training is handled by Kubeflow’s PyTorchJob at a higher level.
            logging.info('Distributed training started ...')
            run_with_termination(f'python {tools_dir}/train.py'
                                 f' --launcher=pytorch'
                                 f' {config}'
                                 f'{tensorboard_dir}'
                                 f'{update_config}'.split(' '))
            logging.info('... distributed training completed.')
        elif torch.cuda.is_available():
            logging.info('Training on GPUs started ...')
            available_gpu_num = torch.cuda.device_count()
            if available_gpu_num < gpu_num:
                logging.warning(
                    f'available_gpu_num < args.gpu_num: {available_gpu_num} < {gpu_num}'
                )
                logging.warning(
                    f'decreased number of gpu to: {available_gpu_num}')
                gpu_num = available_gpu_num
                sys.stdout.flush()
            run_with_termination(f'{tools_dir}/dist_train.sh'
                                 f' {config}'
                                 f' {gpu_num}'
                                 f'{tensorboard_dir}'
                                 f'{update_config}'.split(' '))
            training_info['training_gpu_num'] = gpu_num
            logging.info('... training on GPUs completed.')
        else:
            logging.info('Training on CPU started ...')
            run_with_termination(f'python {tools_dir}/train.py'
                                 f' {config}'
                                 f'{tensorboard_dir}'
                                 f'{update_config}'.split(' '))
            logging.info('... training on CPU completed.')

        return training_info