def parse_args(): parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter) parser.add_argument('--env-id', type=str, default='Baxter3dbox-v0') boolean_flag(parser, 'render-eval', default=False) boolean_flag(parser, 'render', default=False) parser.add_argument('--seed', help='RNG seed', type=int, default=0) parser.add_argument('--batch-size', type=int, default=32) parser.add_argument('--lr', type=float, default=1e-3) parser.add_argument('--gamma', type=float, default=0.98) parser.add_argument('--num-timesteps', type=int, default=100000) boolean_flag(parser, 'evaluation', default=True) parser.add_argument('--eval-env-id', type=str, default=None) parser.add_argument('--num-eval-episodes', type=int, default=10) boolean_flag(parser, 'prioritized_replay', default=True) ## saving and restoring param parser parser.add_argument('--log-dir', type=str, default='/tmp/her') parser.add_argument('--save-freq', type=int, default=20) parser.add_argument('--skillset', type=str, default='set4') ## TODO: add model restore and continue training # parser.add_argument('--restore-dir', type=str, default=None) # meta parameters parser.add_argument('--commit-for', type=int, default=1) args = parser.parse_args() dict_args = vars(args) return dict_args
def parse_args(): parser = argparse.ArgumentParser( formatter_class=argparse.ArgumentDefaultsHelpFormatter) parser.add_argument('--env-id', type=str, default='Baxter3dbox-v0') boolean_flag(parser, 'render-eval', default=True) parser.add_argument('--seed', help='RNG seed', type=int, default=0) parser.add_argument('--nb-eval-episodes', type=int, default=100) # per epoch cycle and MPI worker boolean_flag(parser, 'evaluation', default=True) ## saving and restoring param parser parser.add_argument('--log-dir', type=str, default='/tmp/her') parser.add_argument('--restore-dir', type=str, default=None) boolean_flag(parser, 'dologging', default=False) boolean_flag(parser, 'invert-grad', default=False) # meta parameters parser.add_argument('--commit-for', type=int, default=1) parser.add_argument('--skillset', type=str, default='set3') args = parser.parse_args() # we don't directly specify timesteps for this script, so make sure that if we do specify them # they agree with the other parameters dict_args = vars(args) return dict_args
def parse_args(): parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter) parser.add_argument('--env-id', type=str, default='Baxter-v1') boolean_flag(parser, 'render', default=False) parser.add_argument('--lr', type=float, default=1e-4) parser.add_argument('--log-dir', type=str, default='/tmp/her') parser.add_argument('--restore-dir', type=str, default=None) parser.add_argument('--dataset-size', type=int, default=2000) parser.add_argument('--commit-for', type=int, default=5) args = parser.parse_args() dict_args = vars(args) return dict_args
def parse_args(): parser = argparse.ArgumentParser( formatter_class=argparse.ArgumentDefaultsHelpFormatter) parser.add_argument('--env-id', type=str, default='Reacher3d-v0') boolean_flag(parser, 'render', default=False) parser.add_argument('--lr', type=float, default=1e-4) parser.add_argument('--log-dir', type=str, default='/tmp/succmodel') parser.add_argument('--train-epoch', type=int, default=10) parser.add_argument('--batch-size', type=int, default=64) boolean_flag(parser, 'whiten', default=True) args = parser.parse_args() dict_args = vars(args) return dict_args
def parse_args(): parser = argparse.ArgumentParser( formatter_class=argparse.ArgumentDefaultsHelpFormatter) parser.add_argument('--env-id', type=str, default='Baxter-v1') boolean_flag(parser, 'render-eval', default=False) boolean_flag(parser, 'layer-norm', default=True) boolean_flag(parser, 'render', default=False) boolean_flag(parser, 'normalize-returns', default=False) boolean_flag(parser, 'normalize-observations', default=True) parser.add_argument('--seed', help='RNG seed', type=int, default=0) parser.add_argument('--critic-l2-reg', type=float, default=0.) parser.add_argument('--batch-size', type=int, default=128) # per MPI worker parser.add_argument('--actor-lr', type=float, default=1e-4) parser.add_argument('--critic-lr', type=float, default=1e-3) boolean_flag(parser, 'popart', default=False) parser.add_argument('--gamma', type=float, default=0.98) parser.add_argument('--reward-scale', type=float, default=1.) parser.add_argument('--clip-norm', type=float, default=None) parser.add_argument( '--nb-epochs', type=int, default=200) # with default settings, perform 1M steps total parser.add_argument('--nb-epoch-cycles', type=int, default=20) parser.add_argument('--nb-train-steps', type=int, default=40) # per epoch cycle and MPI worker parser.add_argument('--nb-eval-episodes', type=int, default=20) parser.add_argument('--nb-rollout-steps', type=int, default=800) # per epoch cycle and MPI worker parser.add_argument( '--noise-type', type=str, default='epsnorm_0.01_0.2' ) # choices are adaptive-param_xx, ou_xx, normal_xx, none parser.add_argument('--num-timesteps', type=int, default=None) boolean_flag(parser, 'evaluation', default=True) parser.add_argument('--eval-env-id', type=str, default=None) ## saving and restoring param parser parser.add_argument('--log-dir', type=str, default='/tmp/her') parser.add_argument('--save-freq', type=int, default=1) parser.add_argument('--restore-dir', type=str, default=None) boolean_flag(parser, 'dologging', default=True) boolean_flag(parser, 'invert-grad', default=False) boolean_flag(parser, 'her', default=True) boolean_flag(parser, 'actor-reg', default=True) boolean_flag(parser, 'tf-sum-logging', default=False) # look ahead boolean_flag(parser, 'look-ahead', default=True) parser.add_argument('--commit-for', type=int, default=10) parser.add_argument('--exploration-final-eps', type=float, default=0.001) parser.add_argument('--num-samples', type=int, default=5) parser.add_argument('--skillset', type=str, default='set13') args = parser.parse_args() # we don't directly specify timesteps for this script, so make sure that if we do specify them # they agree with the other parameters if args.num_timesteps is not None: assert (args.num_timesteps == args.nb_epochs * args.nb_epoch_cycles * args.nb_rollout_steps) dict_args = vars(args) del dict_args['num_timesteps'] return dict_args
def parse_args(): parser = argparse.ArgumentParser( formatter_class=argparse.ArgumentDefaultsHelpFormatter) parser.add_argument('--env-id', type=str, default='HalfCheetah-v1') boolean_flag(parser, 'render-eval', default=False) boolean_flag(parser, 'layer-norm', default=True) boolean_flag(parser, 'render', default=False) boolean_flag(parser, 'normalize-returns', default=False) boolean_flag(parser, 'normalize-observations', default=True) parser.add_argument('--seed', help='RNG seed', type=int, default=0) parser.add_argument('--critic-l2-reg', type=float, default=1e-2) parser.add_argument('--batch-size', type=int, default=64) # per MPI worker parser.add_argument('--actor-lr', type=float, default=1e-4) parser.add_argument('--critic-lr', type=float, default=1e-3) boolean_flag(parser, 'popart', default=True) parser.add_argument('--gamma', type=float, default=0.99) parser.add_argument('--reward-scale', type=float, default=1.) parser.add_argument('--clip-norm', type=float, default=None) parser.add_argument( '--nb-epochs', type=int, default=500) # with default settings, perform 1M steps total parser.add_argument('--nb-epoch-cycles', type=int, default=20) parser.add_argument('--nb-train-steps', type=int, default=50) # per epoch cycle and MPI worker parser.add_argument('--nb-eval-steps', type=int, default=100) # per epoch cycle and MPI worker parser.add_argument('--nb-rollout-steps', type=int, default=100) # per epoch cycle and MPI worker parser.add_argument( '--noise-type', type=str, default='adaptive-param_0.2' ) # choices are adaptive-param_xx, ou_xx, normal_xx, none parser.add_argument('--num-timesteps', type=int, default=None) boolean_flag(parser, 'evaluation', default=True) ## saving and restoring param parser parser.add_argument( '--log-dir', type=str, default='/home/arpit/new_RL3/baseline_results/HalfCheetah/run1') parser.add_argument('--save-freq', type=int, default=1) parser.add_argument('--restore-dir', type=str, default=None) boolean_flag(parser, 'dologging', default=True) args = parser.parse_args() # we don't directly specify timesteps for this script, so make sure that if we do specify them # they agree with the other parameters if args.num_timesteps is not None: assert (args.num_timesteps == args.nb_epochs * args.nb_epoch_cycles * args.nb_rollout_steps) dict_args = vars(args) del dict_args['num_timesteps'] return dict_args
def parse_args(): parser = argparse.ArgumentParser( formatter_class=argparse.ArgumentDefaultsHelpFormatter) parser.add_argument('--env-id', type=str, default='Baxter-v1') boolean_flag(parser, 'render-eval', default=False) boolean_flag(parser, 'layer-norm', default=True) boolean_flag(parser, 'normalize-returns', default=False) boolean_flag(parser, 'normalize-observations', default=True) parser.add_argument('--seed', help='RNG seed', type=int, default=0) parser.add_argument('--critic-l2-reg', type=float, default=1e-2) parser.add_argument('--batch-size', type=int, default=64) # per MPI worker parser.add_argument('--actor-lr', type=float, default=1e-4) parser.add_argument('--critic-lr', type=float, default=1e-3) boolean_flag(parser, 'popart', default=False) parser.add_argument('--gamma', type=float, default=0.99) parser.add_argument('--reward-scale', type=float, default=1.) parser.add_argument('--clip-norm', type=float, default=None) parser.add_argument('--nb-eval-steps', type=int, default=10000) # per epoch cycle and MPI worker parser.add_argument( '--noise-type', type=str, default='ou_0.02' ) # choices are adaptive-param_xx, ou_xx, normal_xx, none boolean_flag(parser, 'evaluation', default=True) parser.add_argument('--factor', type=int, default=0) parser.add_argument('--memory-size', type=int, default=50000) ## saving and restoring param parser parser.add_argument('--log-dir', type=str, default='/tmp/run1') parser.add_argument('--save-freq', type=int, default=100000) parser.add_argument( '--restore-dir', type=str, default="/home/arpit/new_RL3/baseline_results/Baxter-v3/run19") boolean_flag(parser, 'dologging', default=False) args = parser.parse_args() dict_args = vars(args) return dict_args