Python Experiment 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: lib.simulation

클래스/타입: Experiment

hotexamples.com에서의 예제들: 5

Python Experiment - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 lib.simulation.Experiment에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

run_qlearning(3)

run_sarsa(2)

Experiment(1)

run_agent(1)

run_bandit(1)

예제 #1

파일 보기

import numpy as np
import matplotlib

matplotlib.use('TkAgg')

from lib.envs.bandit import BanditEnv
from lib.simulation import Experiment
from shared.policy import UCB

evaluation_seed = 1239
num_actions = 10
trials = 100
distribution = "normal"

env = BanditEnv(num_actions, distribution, evaluation_seed)
agent = UCB(num_actions)
experiment = Experiment(env, agent)
experiment.run_bandit(trials)

예제 #2

파일 보기

        "maze": SimpleRoomsEnv(),
        "grid": SimpleRoomsEnv()
    }
    return switcher.get(argument)


env = get_env(env_string)

if agent_string.startswith('q'):
    print("Running Q Learning on {} environment for {} epochs".format(
        env_string, num_iter))
    agent = QLearningAgent(range(env.action_space.n),
                           epsilon=epsilon,
                           alpha=alpha,
                           decay_every=decay)
    experiment = Experiment(env, agent)
    experiment.run_qlearning(num_iter, interactive)
    #print("Running Q Learning")
elif agent_string.startswith('s'):
    print("Running SARSA on {} environment for {} epochs".format(
        env_string, num_iter))
    agent = SarsaAgent(range(env.action_space.n),
                       epsilon=epsilon,
                       alpha=alpha,
                       decay_every=decay)
    experiment = Experiment(env, agent)
    experiment.run_sarsa(num_iter, interactive)
    #print("Running SARSA")

else:
    print("Invalid Agent argument")

예제 #3

파일 보기

파일: 18_qlearn_windy_world.py 프로젝트: 4n1k1/DAT257x

                    max_value_indices.append(idx)

            return np.random.choice(max_value_indices)

    def learn(self, state1, action1, reward, state2, stop):
        """
          SARSA Update
          Q(s,a) <- Q(s,a) + alpha * (reward + gamma * Q(s',a') - Q(s,a))
          or
          Q(s,a) <- Q(s,a) + alpha * (td_target - Q(s,a))
          or
          Q(s,a) <- Q(s,a) + alpha * td_delta
        """

        self._Q_table[state1][action1] = self._Q_table[state1][action1] + \
            self._alpha * (
                reward + self._gamma * max(self._Q_table[state2]) - \
                self._Q_table[state1][action1]
            )


interactive = True

env = WindyGridworldEnv()
agent = QLearningAgent(
    range(env.action_space.n),
    env.S,
)
experiment = Experiment(env, agent)
experiment.run_sarsa(10, interactive)

예제 #4

파일 보기

import numpy as np
import matplotlib

matplotlib.use('TkAgg')

from lib.envs.simple_rooms import SimpleRoomsEnv
from lib.simulation import Experiment
from shared.agent import RandomAgent


interactive = True
max_number_of_episodes = 5
env = SimpleRoomsEnv()
agent = RandomAgent(range(env.action_space.n))
experiment = Experiment(env, agent)
experiment.run_agent(max_number_of_episodes, interactive)

예제 #5

파일 보기

파일: Q_Learning_Agent.py 프로젝트: semg101/22-Microsoft-Artificial-Intelligence-reinforcement-learning-temporal-difference-learning-

        ## TODO 3
        ## Implement the q-learning update here
        """
        Q-learning Update:
        Q(s,a) <- Q(s,a) + alpha * (reward + gamma * max(Q(s') - Q(s,a))
        or
        Q(s,a) <- Q(s,a) + alpha * (td_target - Q(s,a))
        or
        Q(s,a) <- Q(s,a) + alpha * td_delta
        """


interactive = True
env = SimpleRoomsEnv()
agent = QLearningAgent(range(env.action_space.n))
experiment = Experiment(env, agent)
experiment.run_qlearning(10, interactive)

interactive = False
env = SimpleRoomsEnv()
agent = QLearningAgent(range(env.action_space.n))
experiment = Experiment(env, agent)
experiment.run_qlearning(50, interactive)

interactive = True
env = CliffWalkingEnv()
agent = QLearningAgent(range(env.action_space.n))
experiment = Experiment(env, agent)
experiment.run_qlearning(10, interactive)

interactive = False