Python KukaDiverseObjectEnv.step示例

编程语言: Python

命名空间/包名称: pybullet_envs.bullet.kuka_diverse_object_gym_env

方法/功能: step

hotexamples.com的示例: 3

Python KukaDiverseObjectEnv.step - 已找到3个示例。这些是从开源项目中提取的最受好评的pybullet_envs.bullet.kuka_diverse_object_gym_env.KukaDiverseObjectEnv.step现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

KukaDiverseObjectEnv(11)

reset(5)

observation_space(2)

render(2)

seed(2)

step(2)

cid(1)

close(1)

示例#1

显示文件

文件： enjoy_kuka_diverse_object_grasping.py 项目： AndrewMeadows/bullet3

def main():
    
    env = KukaDiverseObjectEnv(renders=True, isDiscrete=False)
    policy = ContinuousDownwardBiasPolicy()

    while True:
        obs, done = env.reset(), False
        print("===================================")        
        print("obs")
        print(obs)
        episode_rew = 0
        while not done:
            env.render(mode='human')
            act = policy.sample_action(obs, .1)
            print("Action")
            print(act)
            obs, rew, done, _ = env.step([0, 0, 0, 0, 0])
            episode_rew += rew
        print("Episode reward", episode_rew)

示例#2

显示文件

文件： enjoy_kuka_diverse_object_grasping.py 项目： xiaoerlaigeid/bullet3

def main():

    env = KukaDiverseObjectEnv(renders=True, isDiscrete=False)
    policy = ContinuousDownwardBiasPolicy()

    while True:
        obs, done = env.reset(), False
        print("===================================")
        print("obs")
        print(obs)
        episode_rew = 0
        while not done:
            env.render()
            act = policy.sample_action(obs, .1)
            print("Action")
            print(act)
            obs, rew, done, _ = env.step([0, 0, 0, 0, 0])
            episode_rew += rew
        print("Episode reward", episode_rew)

示例#3

显示文件

文件： main.py 项目： KaiFukazawa/RL-Projects-SK

        episodic_reward = 0
        frames = []
        steps = 0
        while True:
            if episode > MAX_EPISODES - 3:
                frames.append(env.render(mode='rgb_array'))

            # take an action as per the policy
            if episode < RAND_EPS:  # explore for some episodes
                action = env.action_space.sample()
            else:
                action = agent.policy(state)

            # obtain next state and rewards

            next_obsv, reward, done, info = env.step(action)
            next_state = np.asarray(
                next_obsv,
                dtype=np.float32) / 255.0  # convert into float array

            #tb_img = np.reshape(next_state, (-1, 48, 48, 3))  # for tensorboard
            tb_img = np.reshape(next_state,
                                (-1, ) + state_size)  # for tensorboard

            with train_summary_writer.as_default():
                tf.summary.image("Training Image", tb_img, step=episode)
                tf.summary.histogram("action_vector", action, step=steps)

            episodic_reward += reward

            # print('reward:', episodic_reward)