Python Experiment.runEpisodes Beispiele

Programmiersprache: Python

Namespace / Paketname: dopamine.experiments

Klasse / Typ: Experiment

Methode / Funktion: runEpisodes

Beispiele auf hotexamples.com: 4

Python Experiment.runEpisodes - 4 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die dopamine.experiments.Experiment.runEpisodes, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

addAdapter(7)

evaluateEpisodes(4)

runEpisodes(4)

runEpisode(1)

setup(1)

Beispiel #1

Datei anzeigen

Datei: cart_bas_rbf.py Projekt: rueckstiess/dopamine

environment = CartPoleEnvironment()
experiment = Experiment(environment, agent)

# cut off last two state dimensions
indexer = IndexingAdapter([0, 1], None)
experiment.addAdapter(indexer)

# add normalization adapter
normalizer = NormalizingAdapter(scaleActions=[(-50, 50)])
experiment.addAdapter(normalizer)

# # add e-greedy exploration
# explorer = EpsilonGreedyExplorer(0.4, episodeCount=500)
# experiment.addAdapter(explorer)

experiment.runEpisodes(10)
agent.forget()

# explorer.decay = 0.999
# renderer = CartPoleRenderer()
# environment.renderer = renderer
# renderer.start()

# run experiment
for i in range(100):
    experiment.runEpisodes(5)
    agent.learn()

    # agent.forget()
    
    valdata = experiment.evaluateEpisodes(10, visualize=True)

Beispiel #2

Datei anzeigen

Datei: cart_play.py Projekt: rueckstiess/dopamine

    print "mean return", mean_return
    raise SystemExit

# add e-greedy exploration
explorer = EpsilonGreedyExplorer(0.3, episodeCount=1000)
experiment.addAdapter(explorer)
    
if os.path.exists('cart_play.saved'):
    os.remove('cart_play.saved')
      
# run experiment
for i in range(1000):
    valdata = experiment.evaluateEpisodes(20, visualize=True)
    mean_return = mean([sum(v.rewards) for v in valdata])

    experiment.runEpisodes(1)
    agent.learn()
    # agent.history.truncate(20)
    # agent.forget()
    
    # save file after each learning step
    f = open('cart_play.saved', 'w')
    cPickle.dump(agent, f)
    f.close()
    
    print normalizer.minStates, normalizer.maxStates
    print "params", agent.estimator.models[0].W
    print "exploration", explorer.epsilon
    print "mean return", mean_return
    print "num episodes", len(agent.history)
    print "num total samples", agent.history.numTotalSamples()

Beispiel #3

Datei anzeigen

Datei: mirror_bas.py Projekt: rueckstiess/dopamine

import numpy as np

# create agent, environment, renderer, experiment
agent = APIAgent(faClass=LWPRFA, resetFA=True, vectorblock=False)
agent.gamma = 2.
agent.alpha = 1.0
agent.iterations = 1
agent.presentations = 1

environment = MirrorEnvironment()
experiment = Experiment(environment, agent)

# add bas adapter
bas = BinaryActionSearchAdapter(3., 4., 10)
experiment.addAdapter(bas)

# add e-greedy exploration
# explorer = EpsilonGreedyExplorer(0.5, episodeCount=10000)
# experiment.addAdapter(explorer)

# run experiment
valdata = experiment.evaluateEpisodes(1000)
print "mean rewards:", np.mean([sum(e.rewards) for e in valdata]) #, "exploration:", explorer.epsilon
# print "exploration:", explorer.epsilon

experiment.runEpisodes(10000)
agent.learn()    

valdata = experiment.evaluateEpisodes(1000)
print "mean rewards:", np.mean([sum(e.rewards) for e in valdata]) #, "exploration:", explorer.epsilon

Beispiel #4

Datei anzeigen

Datei: cart_fd_nn.py Projekt: rueckstiess/dopamine

from dopamine.environments import CartPoleEnvironment, CartPoleRenderer
from dopamine.agents import FiniteDifferenceAgent, NNController
from dopamine.adapters import IndexingAdapter, NormalizingAdapter
from dopamine.experiments import Experiment
from numpy import *

environment = CartPoleEnvironment()
environment.centerCart = False
agent = FiniteDifferenceAgent(controllerClass=NNController)
experiment = Experiment(environment, agent)

# cut off last two state dimensions
indexer = IndexingAdapter([0, 1], None)
experiment.addAdapter(indexer)

# add normalization adapter
normalizer = NormalizingAdapter(scaleActions=[(-50, 50)])
experiment.addAdapter(normalizer)

# run experiment
for i in range(1000):
    experiment.runEpisodes(50)
    agent.learn()
    agent.forget()

    valdata = experiment.evaluateEpisodes(10)
    print "mean return", mean([sum(v.rewards) for v in valdata])