Python Reporter.draw_rewards Examples

Programming Language: Python

Namespace/Package Name: Reporter

Class/Type: Reporter

Method/Function: draw_rewards

Examples at hotexamples.com: 2

Python Reporter.draw_rewards - 2 examples found. These are the top rated real world Python examples of Reporter.Reporter.draw_rewards extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Reporter(30)

print_iteration_stats(7)

CountFailure(2)

set_startDate(2)

iterate(2)

CountSuccess(2)

get_reporter_for(2)

generateReport(2)

draw_rewards(2)

set_endTime(2)

doReport(2)

set_endDate(2)

set_startTime(2)

set_testCaseTitle(2)

addLogs(2)

warning(1)

preserver(1)

test_model(1)

print_category_distribution(1)

start(1)

program_execution_time(1)

report_for_file(1)

run(1)

runerror(1)

single_function_recent_history(1)

save(1)

save_report_detailed(1)

setTM(1)

open(1)

similiarity_of_texts(1)

show_and_close(1)

parse_opts(1)

increment_report(1)

logs_per_txg(1)

done(1)

__init__(1)

accept(1)

appendNewEntry(1)

blocks_per_txg(1)

checkAlarms(1)

close(1)

createInstance(1)

create_index(1)

delete_old_logfile(1)

end_line(1)

load(1)

error(1)

flush_stats(1)

flushes_per_txg(1)

generate_report(1)

Example #1

Show file

File: Karpathy_CNN.py Project: NishanthVAnand/DeepRL

    def learn(self, env):
        reporter = Reporter()

        self.session.run([self.reset_accumulative_grads])

        iteration = 0  # amount of batches processed
        episode_nr = 0
        episode_lengths = np.zeros(self.config['batch_size'])
        episode_rewards = np.zeros(self.config['batch_size'])
        mean_rewards = []
        while True:  # Keep executing episodes
            trajectory = self.get_trajectory(env,
                                             self.config["episode_max_length"])

            episode_rewards[episode_nr % self.config['batch_size']] = sum(
                trajectory['reward'])
            episode_lengths[episode_nr % self.config['batch_size']] = len(
                trajectory['reward'])
            episode_nr += 1
            action_taken = (np.arange(
                self.nA) == trajectory['action'][:, None]).astype(
                    np.float32)  # one-hot encoding

            discounted_episode_rewards = discount_rewards(
                trajectory['reward'], self.config['gamma'])
            # standardize
            discounted_episode_rewards -= np.mean(discounted_episode_rewards)
            std = np.std(discounted_episode_rewards)
            std = std if std > 0 else 1
            discounted_episode_rewards /= std
            feedback = np.reshape(
                np.repeat(discounted_episode_rewards, self.nA),
                (len(discounted_episode_rewards), self.nA))

            self.session.run(
                [self.accumulate_grads],
                feed_dict={
                    self.state: trajectory["state"],
                    self.action_taken: action_taken,
                    self.feedback: feedback
                })
            if episode_nr % self.config['batch_size'] == 0:  # batch is done
                iteration += 1
                self.session.run([self.apply_gradients])
                self.session.run([self.reset_accumulative_grads])
                reporter.print_iteration_stats(iteration, episode_rewards,
                                               episode_lengths, episode_nr)
                mean_rewards.append(episode_rewards.mean())
                if episode_nr % self.config['draw_frequency'] == 0:
                    reporter.draw_rewards(mean_rewards)

Example #2

Show file

    def learn(self):
        reporter = Reporter()

        gradient1 = np.zeros_like(self.w1)
        gradient2 = np.zeros_like(self.w2)

        rmsprop1 = np.zeros_like(self.w1)
        rmsprop2 = np.zeros_like(self.w2)

        iteration = 0  # amount of batches processed
        episode_nr = 0
        episode_lengths = np.zeros(self.config['batch_size'])
        episode_rewards = np.zeros(self.config['batch_size'])
        mean_rewards = []
        while True:  # Keep executing episodes
            trajectory = self.get_trajectory(self.config["episode_max_length"])

            episode_rewards[episode_nr % self.config['batch_size']] = sum(trajectory['reward'])
            episode_lengths[episode_nr % self.config['batch_size']] = len(trajectory['reward'])
            episode_nr += 1
            action_taken = (np.arange(self.nA) == trajectory['action'][:, None]).astype(np.float32)  # one-hot encoding
            epdlogp = action_taken - trajectory['prob']

            # episode_states = np.vstack(encountered_states)

            discounted_episode_rewards = discount_rewards(trajectory['reward'], self.config['gamma'])
            # print(discounted_episode_rewards)
            # standardize
            discounted_episode_rewards -= np.mean(discounted_episode_rewards)
            discounted_episode_rewards /= np.std(discounted_episode_rewards)
            epdlogp *= np.reshape(np.repeat(discounted_episode_rewards, self.nA), (len(discounted_episode_rewards), self.nA))

            change_w1, change_w2 = self.backward_step(trajectory['state'], trajectory['x1'], epdlogp)

            gradient1 += change_w1
            gradient2 += change_w2

            if episode_nr % self.config['batch_size'] == 0:  # batch is done
                iteration += 1
                rmsprop1 = self.config['decay_rate'] * rmsprop1 + (1 - self.config['decay_rate']) * gradient1**2
                rmsprop2 = self.config['decay_rate'] * rmsprop2 + (1 - self.config['decay_rate']) * gradient2**2
                self.w1 += self.config['learning_rate'] * gradient1 / (np.sqrt(rmsprop1) + 1e-5)
                self.w2 += self.config['learning_rate'] * gradient2 / (np.sqrt(rmsprop2) + 1e-5)
                gradient1 = np.zeros_like(self.w1)
                gradient2 = np.zeros_like(self.w2)
                reporter.print_iteration_stats(iteration, episode_rewards, episode_lengths, episode_nr)
                mean_rewards.append(episode_rewards.mean())
                if episode_nr % self.config['draw_frequency'] == 0:
                    reporter.draw_rewards(mean_rewards)