Python ReplayBuffer.idx примеры использования

Язык программирования: Python

Пространство имен/Пакет: replay_buffer

Класс/Тип: ReplayBuffer

Метод/Функция: idx

Примеров на hotexamples.com: 2

Python ReplayBuffer.idx - 2 примера найдено. Это лучшие примеры Python кода для replay_buffer.ReplayBuffer.idx, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

ReplayBuffer(30)

add(30)

count(26)

get_batch(25)

append(17)

encode_recent_observation(7)

getBatch(7)

add_sample(7)

insert(7)

clear(6)

load(5)

load_memory(5)

can_sample(4)

add_episode(4)

add_transition(4)

get_last_steps(3)

get_size(3)

create_batch(3)

is_ready(3)

add_experience(3)

add_to_memory(2)

make_index(2)

compute_values(2)

compute_value_difference(2)

compute_reward_distances(2)

compute_returns(2)

compute_lambda_returns(2)

fetch_sample(2)

compute_episode_boundaries(2)

encoder_recent_observation(2)

idx(2)

get_batch_data(1)

get_current_size(1)

get_experiences(1)

get_len(1)

get_current_state(1)

load_replay(1)

get_losses_offline(1)

get_memory(1)

get_minibatch(1)

importance_sampling(1)

in_order_iterate(1)

insert_sample(1)

k(1)

length(1)

lenth(1)

load_from_file(1)

get_random_minibatch(1)

dump(1)

get(1)

Пример #1

Показать файл

def train(env, config):
    """

    """
    t0 = time.time()
    save_models_path = str(config["locexp"])
    memory = ReplayBuffer((8, ), (1, ), config["buffer_size"], config["seed"],
                          config["device"])
    memory.load_memory(config["buffer_path"])
    agent = Agent(state_size=8, action_size=4, config=config)
    if config["idx"] < memory.idx:
        memory.idx = config["idx"]
    print("memory idx ", memory.idx)
    for t in range(config["predicter_time_steps"]):
        text = "Train Predicter {}  \ {}  time {}  \r".format(
            t, config["predicter_time_steps"], time_format(time.time() - t0))
        print(text, end='')
        agent.learn(memory)
        if t % int(config["eval"]) == 0:
            print(text)
            agent.save(save_models_path + "/models/{}-".format(t))
            #agent.test_predicter(memory)
            agent.test_q_value(memory)
            agent.eval_policy()
            agent.eval_policy(True, 1)

Пример #2

Показать файл

Файл: iql_train.py Проект: ChrisProgramming2018/DDIQLearning

def train(env, config):
    """

    """
    t0 = time.time()
    memory = ReplayBuffer((8,), (1,), config["expert_buffer_size"], config["device"])
    memory.load_memory(config["buffer_path"])
    agent = Agent(state_size=8, action_size=4,  config=config) 
    memory.idx = config["idx"] 
    #for i in range(10):
    #    print("state", memory.obses[i])
    # sys.exit()
    print("memroy idx ",memory.idx)
    if config["mode"] == "predict":
        for t in range(config["predicter_time_steps"]):
            text = "Train Predicter {}  \ {}  time {}  \r".format(t, config["predicter_time_steps"], time_format(time.time() - t0))
            print(text, end = '')
            agent.learn_predicter(memory)
            if t % 2000 == 0:
                # agent.test_predicter(memory)
                agent.save("pytorch_models-{trained_predicter}/")
        return

    
    if config["mode"] == "iql":
        agent.test_predicter(memory)
        for t in range(config["predicter_time_steps"]):
            text = "Train Predicter {}  \ {}  time {}  \r".format(t, config["predicter_time_steps"], time_format(time.time() - t0))
            print(text, end = '')
            agent.learn(memory)
            if t % 100 == 0:
                print(text)
                agent.test_predicter(memory)
                agent.test_q_value(memory)
                # agent.test_policy()

    if config["mode"] == "dqn":
        print("mode dqn")
        agent.dqn_train()
        return