Exemple #1
0
def parse_args():
    parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)

    parser.add_argument('--env-id', type=str, default='Baxter3dbox-v0')
    boolean_flag(parser, 'render-eval', default=False)
    boolean_flag(parser, 'render', default=False)
    parser.add_argument('--seed', help='RNG seed', type=int, default=0)
    parser.add_argument('--batch-size', type=int, default=32)
    parser.add_argument('--lr', type=float, default=1e-3)
    parser.add_argument('--gamma', type=float, default=0.98)
    
    parser.add_argument('--num-timesteps', type=int, default=100000)
    boolean_flag(parser, 'evaluation', default=True)
    parser.add_argument('--eval-env-id', type=str, default=None)
    parser.add_argument('--num-eval-episodes', type=int, default=10)
    boolean_flag(parser, 'prioritized_replay', default=True)

    ## saving and restoring param parser
    parser.add_argument('--log-dir', type=str, default='/tmp/her')
    parser.add_argument('--save-freq', type=int, default=20)
    parser.add_argument('--skillset', type=str, default='set4')

    ## TODO: add model restore and continue training
    # parser.add_argument('--restore-dir', type=str, default=None)  
    

    # meta parameters
    parser.add_argument('--commit-for', type=int, default=1)

    args = parser.parse_args()
    dict_args = vars(args)
    return dict_args
def parse_args():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)

    parser.add_argument('--env-id', type=str, default='Baxter3dbox-v0')
    boolean_flag(parser, 'render-eval', default=True)
    parser.add_argument('--seed', help='RNG seed', type=int, default=0)
    parser.add_argument('--nb-eval-episodes', type=int,
                        default=100)  # per epoch cycle and MPI worker
    boolean_flag(parser, 'evaluation', default=True)

    ## saving and restoring param parser
    parser.add_argument('--log-dir', type=str, default='/tmp/her')
    parser.add_argument('--restore-dir', type=str, default=None)
    boolean_flag(parser, 'dologging', default=False)
    boolean_flag(parser, 'invert-grad', default=False)

    # meta parameters
    parser.add_argument('--commit-for', type=int, default=1)
    parser.add_argument('--skillset', type=str, default='set3')

    args = parser.parse_args()
    # we don't directly specify timesteps for this script, so make sure that if we do specify them
    # they agree with the other parameters
    dict_args = vars(args)
    return dict_args
Exemple #3
0
def parse_args():
    parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)

    parser.add_argument('--env-id', type=str, default='Baxter-v1')
    boolean_flag(parser, 'render', default=False)
    parser.add_argument('--lr', type=float, default=1e-4)
    
    parser.add_argument('--log-dir', type=str, default='/tmp/her')
    parser.add_argument('--restore-dir', type=str, default=None)

    parser.add_argument('--dataset-size', type=int, default=2000)
    parser.add_argument('--commit-for', type=int, default=5)

    
    args = parser.parse_args()
    dict_args = vars(args)
    return dict_args
Exemple #4
0
def parse_args():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)

    parser.add_argument('--env-id', type=str, default='Reacher3d-v0')
    boolean_flag(parser, 'render', default=False)
    parser.add_argument('--lr', type=float, default=1e-4)

    parser.add_argument('--log-dir', type=str, default='/tmp/succmodel')

    parser.add_argument('--train-epoch', type=int, default=10)

    parser.add_argument('--batch-size', type=int, default=64)
    boolean_flag(parser, 'whiten', default=True)

    args = parser.parse_args()
    dict_args = vars(args)
    return dict_args
Exemple #5
0
def parse_args():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)

    parser.add_argument('--env-id', type=str, default='Baxter-v1')
    boolean_flag(parser, 'render-eval', default=False)
    boolean_flag(parser, 'layer-norm', default=True)
    boolean_flag(parser, 'render', default=False)
    boolean_flag(parser, 'normalize-returns', default=False)
    boolean_flag(parser, 'normalize-observations', default=True)
    parser.add_argument('--seed', help='RNG seed', type=int, default=0)
    parser.add_argument('--critic-l2-reg', type=float, default=0.)
    parser.add_argument('--batch-size', type=int,
                        default=128)  # per MPI worker
    parser.add_argument('--actor-lr', type=float, default=1e-4)
    parser.add_argument('--critic-lr', type=float, default=1e-3)
    boolean_flag(parser, 'popart', default=False)
    parser.add_argument('--gamma', type=float, default=0.98)
    parser.add_argument('--reward-scale', type=float, default=1.)
    parser.add_argument('--clip-norm', type=float, default=None)
    parser.add_argument(
        '--nb-epochs', type=int,
        default=200)  # with default settings, perform 1M steps total
    parser.add_argument('--nb-epoch-cycles', type=int, default=20)
    parser.add_argument('--nb-train-steps', type=int,
                        default=40)  # per epoch cycle and MPI worker
    parser.add_argument('--nb-eval-episodes', type=int, default=20)
    parser.add_argument('--nb-rollout-steps', type=int,
                        default=800)  # per epoch cycle and MPI worker
    parser.add_argument(
        '--noise-type', type=str, default='epsnorm_0.01_0.2'
    )  # choices are adaptive-param_xx, ou_xx, normal_xx, none
    parser.add_argument('--num-timesteps', type=int, default=None)
    boolean_flag(parser, 'evaluation', default=True)
    parser.add_argument('--eval-env-id', type=str, default=None)

    ## saving and restoring param parser
    parser.add_argument('--log-dir', type=str, default='/tmp/her')
    parser.add_argument('--save-freq', type=int, default=1)
    parser.add_argument('--restore-dir', type=str, default=None)
    boolean_flag(parser, 'dologging', default=True)
    boolean_flag(parser, 'invert-grad', default=False)
    boolean_flag(parser, 'her', default=True)
    boolean_flag(parser, 'actor-reg', default=True)
    boolean_flag(parser, 'tf-sum-logging', default=False)

    # look ahead
    boolean_flag(parser, 'look-ahead', default=True)
    parser.add_argument('--commit-for', type=int, default=10)
    parser.add_argument('--exploration-final-eps', type=float, default=0.001)
    parser.add_argument('--num-samples', type=int, default=5)
    parser.add_argument('--skillset', type=str, default='set13')

    args = parser.parse_args()
    # we don't directly specify timesteps for this script, so make sure that if we do specify them
    # they agree with the other parameters
    if args.num_timesteps is not None:
        assert (args.num_timesteps == args.nb_epochs * args.nb_epoch_cycles *
                args.nb_rollout_steps)
    dict_args = vars(args)
    del dict_args['num_timesteps']
    return dict_args
Exemple #6
0
def parse_args():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)

    parser.add_argument('--env-id', type=str, default='HalfCheetah-v1')
    boolean_flag(parser, 'render-eval', default=False)
    boolean_flag(parser, 'layer-norm', default=True)
    boolean_flag(parser, 'render', default=False)
    boolean_flag(parser, 'normalize-returns', default=False)
    boolean_flag(parser, 'normalize-observations', default=True)
    parser.add_argument('--seed', help='RNG seed', type=int, default=0)
    parser.add_argument('--critic-l2-reg', type=float, default=1e-2)
    parser.add_argument('--batch-size', type=int, default=64)  # per MPI worker
    parser.add_argument('--actor-lr', type=float, default=1e-4)
    parser.add_argument('--critic-lr', type=float, default=1e-3)
    boolean_flag(parser, 'popart', default=True)
    parser.add_argument('--gamma', type=float, default=0.99)
    parser.add_argument('--reward-scale', type=float, default=1.)
    parser.add_argument('--clip-norm', type=float, default=None)
    parser.add_argument(
        '--nb-epochs', type=int,
        default=500)  # with default settings, perform 1M steps total
    parser.add_argument('--nb-epoch-cycles', type=int, default=20)
    parser.add_argument('--nb-train-steps', type=int,
                        default=50)  # per epoch cycle and MPI worker
    parser.add_argument('--nb-eval-steps', type=int,
                        default=100)  # per epoch cycle and MPI worker
    parser.add_argument('--nb-rollout-steps', type=int,
                        default=100)  # per epoch cycle and MPI worker
    parser.add_argument(
        '--noise-type', type=str, default='adaptive-param_0.2'
    )  # choices are adaptive-param_xx, ou_xx, normal_xx, none
    parser.add_argument('--num-timesteps', type=int, default=None)
    boolean_flag(parser, 'evaluation', default=True)

    ## saving and restoring param parser
    parser.add_argument(
        '--log-dir',
        type=str,
        default='/home/arpit/new_RL3/baseline_results/HalfCheetah/run1')
    parser.add_argument('--save-freq', type=int, default=1)
    parser.add_argument('--restore-dir', type=str, default=None)
    boolean_flag(parser, 'dologging', default=True)

    args = parser.parse_args()
    # we don't directly specify timesteps for this script, so make sure that if we do specify them
    # they agree with the other parameters
    if args.num_timesteps is not None:
        assert (args.num_timesteps == args.nb_epochs * args.nb_epoch_cycles *
                args.nb_rollout_steps)
    dict_args = vars(args)
    del dict_args['num_timesteps']
    return dict_args
Exemple #7
0
def parse_args():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter)

    parser.add_argument('--env-id', type=str, default='Baxter-v1')
    boolean_flag(parser, 'render-eval', default=False)
    boolean_flag(parser, 'layer-norm', default=True)
    boolean_flag(parser, 'normalize-returns', default=False)
    boolean_flag(parser, 'normalize-observations', default=True)
    parser.add_argument('--seed', help='RNG seed', type=int, default=0)
    parser.add_argument('--critic-l2-reg', type=float, default=1e-2)
    parser.add_argument('--batch-size', type=int, default=64)  # per MPI worker
    parser.add_argument('--actor-lr', type=float, default=1e-4)
    parser.add_argument('--critic-lr', type=float, default=1e-3)
    boolean_flag(parser, 'popart', default=False)
    parser.add_argument('--gamma', type=float, default=0.99)
    parser.add_argument('--reward-scale', type=float, default=1.)
    parser.add_argument('--clip-norm', type=float, default=None)
    parser.add_argument('--nb-eval-steps', type=int,
                        default=10000)  # per epoch cycle and MPI worker
    parser.add_argument(
        '--noise-type', type=str, default='ou_0.02'
    )  # choices are adaptive-param_xx, ou_xx, normal_xx, none
    boolean_flag(parser, 'evaluation', default=True)
    parser.add_argument('--factor', type=int, default=0)
    parser.add_argument('--memory-size', type=int, default=50000)

    ## saving and restoring param parser
    parser.add_argument('--log-dir', type=str, default='/tmp/run1')
    parser.add_argument('--save-freq', type=int, default=100000)
    parser.add_argument(
        '--restore-dir',
        type=str,
        default="/home/arpit/new_RL3/baseline_results/Baxter-v3/run19")
    boolean_flag(parser, 'dologging', default=False)

    args = parser.parse_args()
    dict_args = vars(args)
    return dict_args