Python ActionLearner示例

编程语言: Python

命名空间/包名称: rl_tensorflow_model

类/类型: ActionLearner

hotexamples.com的示例: 4

Python ActionLearner - 已找到4个示例。这些是从开源项目中提取的最受好评的rl_tensorflow_model.ActionLearner现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

ActionLearner(1)

return_action(1)

set_sess(1)

示例#1

显示文件

文件： play_phong.py 项目： ericdanz/ReinforcingRobots

    epsilon = 1
    epsilon_decay = args.epsilon_decay
    display_steps = args.display_iterations
    sim = Simulator(1)
    if gpu_flag > -1:
        device_string = '/gpu:{}'.format(gpu_flag)
    else:
        device_string = "/cpu:0"
    with tf.Graph().as_default(), tf.device(device_string):
        sess = tf.Session(config=tf.ConfigProto(
            allow_soft_placement=True,
            log_device_placement=False))
        with sess.as_default():
            learner = ActionLearner(
                image_size=sim.image_size,
                n_filters=args.number_of_filters,
                n_hidden=args.number_of_hidden,
                n_out=sim.number_of_actions
                )
            learner.set_sess(sess)

            global_step = tf.Variable(0, name="global_step", trainable=False)

            saver = tf.train.Saver(tf.all_variables())
            sess.run(tf.initialize_all_variables())
            summary_writer = tf.train.SummaryWriter(args.save_folder, sess.graph_def)
            if args.restore != "No":
                saver.restore(sess, args.save_folder+args.restore)


            #just display games
            sim.reset()

示例#2

显示文件

文件： phong_values.py 项目： ericdanz/ReinforcingRobots

    #initially, you want to use random actions - but over time as the actor learns,
    #the actor's actions will be better
    epsilon = 1
    epsilon_decay = args.epsilon_decay
    display_steps = args.display_iterations
    sim = Simulator(1)

    device_string = "/cpu:0"
    with tf.Graph().as_default(), tf.device(device_string):
        sess = tf.Session(config=tf.ConfigProto(
            allow_soft_placement=True,
            log_device_placement=False))
        with sess.as_default():
            learner = ActionLearner(
                image_size=sim.screen_size,
                n_filters=args.number_of_filters,
                n_hidden=args.number_of_hidden,
                n_out=sim.number_of_actions
                )
            learner.set_sess(sess)

            saver = tf.train.Saver(tf.all_variables())
            sess.run(tf.initialize_all_variables())
            summary_writer = tf.train.SummaryWriter(args.save_folder, sess.graph_def)
            if args.restore != "No":
                saver.restore(sess, args.save_folder+args.restore)


            def redraw_heatmap(x,y,angle):
                #convert to radians
                angle = (angle - 90) *numpy.pi / 180.0
                #load the screen

示例#3

显示文件

    epsilon = 1
    epsilon_decay = args.epsilon_decay
    display_steps = args.display_iterations
    sim = Simulator(1,
                    screen_size=args.image_size,
                    state_space=args.state_space)
    if gpu_flag > -1:
        device_string = '/gpu:{}'.format(gpu_flag)
    else:
        device_string = "/cpu:0"
    with tf.Graph().as_default(), tf.device(device_string):
        sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=True,
                                                log_device_placement=False))
        with sess.as_default():
            learner = ActionLearner(image_size=sim.screen_size,
                                    n_filters=args.number_of_filters,
                                    n_hidden=args.number_of_hidden,
                                    n_out=sim.number_of_actions)
            learner.set_sess(sess)

            global_step = tf.Variable(0, name="global_step", trainable=False)
            optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)

            grads_and_vars = optimizer.compute_gradients(
                learner.single_action_cost
            )  #could also use learner.normal_cost
            train_op = optimizer.apply_gradients(grads_and_vars,
                                                 global_step=global_step)

            loss_summary = tf.scalar_summary("cost",
                                             learner.single_action_cost)
            #visualize those first level filters

示例#4

显示文件

文件： play_phong.py 项目： Jonathankuoabae/ReinforcingRobots

    #initially, you want to use random actions - but over time as the actor learns,
    #the actor's actions will be better
    epsilon = 1
    epsilon_decay = args.epsilon_decay
    display_steps = args.display_iterations
    sim = Simulator(1)
    if gpu_flag > -1:
        device_string = '/gpu:{}'.format(gpu_flag)
    else:
        device_string = "/cpu:0"
    with tf.Graph().as_default(), tf.device(device_string):
        sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=True,
                                                log_device_placement=False))
        with sess.as_default():
            learner = ActionLearner(image_size=sim.image_size,
                                    n_filters=args.number_of_filters,
                                    n_hidden=args.number_of_hidden,
                                    n_out=sim.number_of_actions)
            learner.set_sess(sess)

            global_step = tf.Variable(0, name="global_step", trainable=False)

            saver = tf.train.Saver(tf.all_variables())
            sess.run(tf.initialize_all_variables())
            summary_writer = tf.train.SummaryWriter(args.save_folder,
                                                    sess.graph_def)
            if args.restore != "No":
                saver.restore(sess, args.save_folder + args.restore)

            #just display games
            sim.reset()
            previous_state = numpy.zeros((sim.image_size, sim.image_size, 3))