Python DDPG.initail_netの例

プログラミング言語: Python

名前空間/パッケージ名: ddpg

クラス/型: DDPG

メソッド/関数: initail_net

hotexamples.comのコード掲載数: 2

Python DDPG.initail_net - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのddpg.DDPG.initail_netの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

DDPG(30)

evaluate_actor(17)

choose_action(12)

add_experience(8)

get_action(7)

eval(6)

act(5)

get_stats(4)

adapt_param_noise(4)

actor(3)

best_reward(2)

calc_last_error(2)

Action(2)

before_cycle(2)

expl_rate_decay(2)

get_action_noise(2)

hard_update(2)

before_epoch(2)

calc_action(2)

assign_global_optimizer(2)

addMemory(2)

Tensor(2)

Update(2)

apply_lr_decay(2)

initail_net(2)

add_optim(2)

freeze_shared_weights(1)

Add2Mem(1)

get_variables_to_save(1)

apply_action(1)

get_shared_weights(1)

get_model(1)

get_loss(1)

Train(1)

build(1)

act_without_noise(1)

converter(1)

experience(1)

action_taking(1)

ActorPredict(1)

eval_all(1)

add_step(1)

ddpg_update(1)

cuda(1)

critic(1)

eval_all1(1)

コード例 #1

ファイルを表示

VAR = 3                     # 随机策略随机部分方差
KESI = 0.9995               # 随机策略随机部分方差衰减因子

RENDER = True               # 是否展示
# endregion

env = gym.make('Pendulum-v0')

s_dim = env.observation_space.shape[0]                  # 状态空间维度
a_dim = env.action_space.shape[0]                       # 动作空间维度
a_bound = env.action_space.low, env.action_space.high   # 动作取值上下界

ddpg = DDPG(s_dim, a_dim, a_bound,
            MEMORY_CAPACITY, BATCH_SIZE,
            GAMMA, ALPHA_A, ALPHA_C, TAO)
ddpg.initail_net('./result.ckpt')

for each_episode in range(MAX_EPISODES):

    ep_reward = 0
    s = env.reset()
    for each_step in range(MAX_EP_STEPS):

        if RENDER:

            env.render()

        a = ddpg.choose_action(s[np.newaxis, :])[0]
        print(a)

        s_, r, done, _ = env.step(a)

コード例 #2

ファイルを表示

ファイル: run_this.py プロジェクト: Xzavier0214/DDPG

VAR = 3  # 随机策略随机部分方差
KESI = .99995  # 随机策略随机部分方差衰减因子

RENDER = True  # 是否展示
# endregion

env = gym.make('Pendulum-v0')
env.seed(1)

s_dim = env.observation_space.shape[0]  # 状态空间维度
a_dim = env.action_space.shape[0]  # 动作空间维度
a_bound = env.action_space.low, env.action_space.high  # 动作取值上下界

ddpg = DDPG(s_dim, a_dim, a_bound, MEMORY_CAPACITY, BATCH_SIZE, GAMMA, ALPHA_A,
            ALPHA_C, TAO)
ddpg.initail_net()

var = VAR
for each_episode in range(MAX_EPISODES):

    ep_reward = 0
    s = env.reset()
    for each_step in range(MAX_EP_STEPS):

        if RENDER:

            env.render()

        # 根据状态选择动作并加上随机部分
        # 这里必须加上[0]索引，因为env.step一次只能接受一个动作
        a = ddpg.choose_action(s[np.newaxis, :])[0]