Python Config.current_step Examples

Programming Language: Python

Namespace/Package Name: src.util

Class/Type: Config

Method/Function: current_step

Examples at hotexamples.com: 2

Python Config.current_step - 2 examples found. These are the top rated real world Python examples of src.util.Config.current_step extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Config(14)

parameter_size(6)

num_obs_features(6)

alpha(5)

init_noise_var(4)

max_num_features(4)

theta(4)

ini_stepsize(3)

init_beta(3)

init_alpha(3)

init_stepsize(2)

num_true_features(2)

current_step(2)

get(2)

initial_centers(1)

norm_state(1)

num_actions(1)

init_noise_mean(1)

rescale(1)

sigma(1)

state_dims(1)

state_lims(1)

tau(1)

Example #1

Show file

def random_policy_test(steps=100, verbose=False):
    print("==== Results with Random Policy ====")
    config = Config()
    actions = 3

    config.current_step = 0
    env = MountainCar(config)

    cumulative_reward = 0
    terminations = 0
    steps_per_episode = []

    episode_steps = 0

    for i in range(steps):
        A = np.random.randint(actions)
        old_state = env.get_current_state()
        next_S, R, terminate = env.step(A)
        if verbose:
            print("Old state:", np.round(old_state, 3), "-->", "Action:", A,
                  "-->", "New state:", np.round(next_S, 3))
        cumulative_reward += R
        episode_steps += 1
        if terminate:
            if verbose:
                print("\n## Reset ##\n")
            if terminate:
                terminations += 1
                steps_per_episode.append(episode_steps)
                episode_steps *= 0
            env.reset()

    if not terminate:
        steps_per_episode.append(episode_steps)

    print("Number of steps per episode:", steps_per_episode)
    print("Number of episodes that reached the end:", terminations)
    average_length = np.average(episode_steps)
    print("The average number of steps per episode was:", average_length)
    print("Cumulative reward:", cumulative_reward)
    print("\n\n")

Example #2

Show file

def pumping_action_test(steps=100, verbose=False):
    print("==== Results with Pumping Action Policy ====")
    config = Config()

    config.current_step = 0
    env = MountainCar(config)

    steps_per_episode = []
    return_per_episode = []

    episode_steps = 0
    episode_return = 0
    terminations = 0
    for i in range(steps):
        current_state = env.get_current_state()
        A = 1 + np.sign(current_state[1])
        old_state = env.get_current_state()
        next_S, R, terminate = env.step(A)
        if verbose:
            print("Old state:", np.round(old_state, 3), "-->", "Action:", A,
                  "-->", "New state:", np.round(next_S, 3))

        episode_steps += 1
        episode_return += R
        if terminate:
            terminations += 1
            if verbose:
                print("\n## Reset ##\n")
            env.reset()
            steps_per_episode.append(episode_steps)
            return_per_episode.append(episode_return)
            episode_steps *= 0
            episode_return *= 0

    print("Number of steps per episode:", steps_per_episode)
    print("Number of successful episodes:", terminations)
    print("Return per episode:", return_per_episode)
    print("The average return per episode is:", np.mean(return_per_episode))