Python ConvDQN.state_dict 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: models

클래스/타입: ConvDQN

메소드/함수: state_dict

hotexamples.com에서의 예제들: 2

Python ConvDQN.state_dict - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 models.ConvDQN.state_dict에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ConvDQN(5)

eval(3)

load_state_dict(3)

state_dict(2)

parameters(1)

to(1)

예제 #1

파일 보기

                torch.tensor(np.array([done])).to(device).float()))

            state = next_state
            episode_rewards += reward
            if done:
                break
        rewards.append(episode_rewards)
        
        # Train the model if memory is sufficient
        if len(memory) + len(episode_transitions) >= min_buffer:
            for i in range(train_steps):
                loss = optimize(model, target, memory, episode_transitions, optimizer)
                losses.append(loss.item())
       
        memory.extend(episode_transitions)

        # Update target network every once in a while
        if episode % target_update == 0:
            target.load_state_dict(model.state_dict())
            target.eval()

        if episode % print_interval == 0 and episode > 0:
            print("[Episode {}] | avg rewards : {:.3f} | s.d. rewards: {:.3f} | avg loss : {:.10f} | buffer size : {} | epsilon : {:.1f}%".format(
                            episode, np.mean(rewards), np.std(rewards), np.mean(losses), len(memory), epsilon*100))
            rewards = []
            losses = []

        if episode % SAVE_INTERVAL == 0 and episode > 0:
            torch.save(model.state_dict(), SAVE_PATH)

예제 #2

파일 보기

파일: train_dqn_active.py 프로젝트: sean-dingxu/cs4246-project-1

            episode_rewards += reward
            if done:
                break
        rewards.append(episode_rewards)

        # Train the model if memory is sufficient
        if len(memory_success) >= min_buffer and len(
                memory_failure) >= min_buffer:
            for i in range(train_steps):
                loss = optimize(model, target, memory_success, memory_failure,
                                episode_transitions, optimizer)
                losses.append(loss.item())

            # Update target network every once in a while
            if episode % target_update == 0:
                target.load_state_dict(model.state_dict())
                target.eval()

        if episode_rewards > 0:
            memory_success.extend(episode_transitions)
        else:
            memory_failure.extend(episode_transitions)

        if episode % print_interval == 0 and episode > 0:
            print(
                "[Episode {}] | avg rewards : {:.3f} | s.d. rewards: {:.3f} | avg loss : {:.10f} | succ. buffer : {} | fail. buffer : {}"
                .format(episode, np.mean(rewards), np.std(rewards),
                        np.mean(losses), len(memory_success),
                        len(memory_failure)))
            rewards = []
            losses = []