def _run(argstr): M(('--alg=ddpg --env=Pendulum-v0 --num_timesteps=0 ' + argstr).split(' '))
def ppo2(): M('--alg=ppo2 --env=SocialBot-CartPole-v0 --num_timesteps=1e6 --save_path=~/models/cartpole' .split(' '))
def eval_ppo2(): M('--alg=ppo2 --env=SocialBot-Pr2Gripper-v0 --num_timesteps=0 --network=cnn --load_path=~/models/pr2.model --play' .split(' '))
def eval_ppo2_lstm(): M('--alg=ppo2 --env=SocialBot-Pr2Gripper-v0 --num_timesteps=0 --network=cnn_lstm --load_path=~/models/pr2_lstm.model --play --num_env 1 --nminibatches=1 --ent_coef=0.01' .split(' '))
def ppo2_mlp(): M('--alg=ppo2 --env=SocialBot-Pr2Gripper-v0 --num_timesteps=2e6 --network=lstm --save_path=~/models/pr2_lstm.model --num_env 1 --nminibatches=1 --ent_coef=0.01' .split(' '))
def ppo2(): M('--alg=ppo2 --env=SocialBot-Pr2Gripper-v0 --num_timesteps=1e6 --network=cnn --save_path=~/models/pr2.model' .split(' '))