Python Environment.getObservationの例

プログラミング言語: Python

名前空間/パッケージ名: environment.environment

クラス/型: Environment

メソッド/関数: getObservation

hotexamples.comのコード掲載数: 2

Python Environment.getObservation - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのenvironment.environment.Environment.getObservationの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

create_environment(30)

Environment(30)

get_action_size(30)

reset(23)

observation_size(12)

get_objective_size(10)

set_cluster_size(8)

set_observation_rotation_size(4)

__init__(3)

get_obs_size(3)

render(3)

robotStep(3)

run(3)

get(3)

get_actions(3)

set_mode(3)

outer_env(2)

getObservation(2)

define(2)

get_state(2)

get_actions_n(2)

get_observation_size_buffer(2)

start(2)

obs(2)

setRunTimeStat(1)

get_valid_actions(1)

initialize_memory(1)

set_wall(1)

set_time_step(1)

new_simulation(1)

set_snake(1)

reached_top(1)

perform_action(1)

reached_max_steps(1)

run_human_game(1)

relations(1)

set_scene(1)

set_primary_agent(1)

reward(1)

set_log_dir(1)

set_fruit(1)

get_state_size(1)

get_observation_size(1)

get_scenes(1)

getRunTimeStat(1)

add_obstacle(1)

adjust_learning_rate_by_stage(1)

agents(1)

assign(1)

close(1)

コード例 #1

ファイルを表示

ファイル: Model.py プロジェクト: masterrom/CRLMachineLearningProject

def modelTest(test=False, chkpt=None, device='cuda'):
    """
    modelTest is used to upload a saved model, and test out the results
    :param test: Bool should be set to true
    :param chkpt: string path of where the model exists
    :param device: cuda or cpu
    :return: None
    """
    # device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    if not test:
        wandb.init(project="MultiSection Continum",
                   name="Reaching Task 32 Per Layer")

    robot = Robot()
    robot.newSection()
    robot.newSection()

    env = Environment(robot)
    if test:
        env.staticPoint([-75, 150])
        env.render()
    else:
        env.staticPoint([-75, 150])

    lastObs = env.getObservation()

    rb = ReplayBuffer()

    minRBSize = 10000
    sampleSize = 2500
    envStepsBeforeTrain = 100
    targetModelUpdate = 150

    epsMin = 0.01
    epsDecay = 0.99998

    model = Model(len(lastObs.state), len(env.robot.actions))
    if chkpt != None:
        model.load_state_dict(
            torch.load(chkpt, map_location=torch.device('cpu')))

    targetModel = Model(len(lastObs.state), len(env.robot.actions))
    updateTGTModel(model, targetModel)

    stepSinceTrain = 0
    stepSinceTGTUpdate = 0
    stepNum = -1 * minRBSize

    episodeRewards = []
    rollingReward = 0

    # Copying over the weights
    tq = tqdm()
    # Work in progress
    while True:
        if test:
            env.render()
            time.sleep(0.05)
        tq.update(1)
        eps = epsDecay**(stepNum / 100)
        if test:
            eps = 0

        if random() < eps:
            action = env.robot.randomAction()
        else:
            actNum = model(torch.tensor(lastObs.state)).max(-1)[-1].item()
            action = env.robot.actions[actNum]

        obs = env.robotStep(action[0], action[1])
        rollingReward = obs.reward

        # print(obs)
        # # env.render()
        # x = model(torch.Tensor(obs.state))
        # # print(x)
        #
        episodeRewards.append(rollingReward)
        #
        # if stepSinceTGTUpdate > targetModelUpdate:
        # # if env.done():
        #     episodeRewards.append(rollingReward)
        #     if test:
        #         print(rollingReward)
        #     print(episodeRewards)
        #     rollingReward = 0
        #     # env.reset()

        obs.reward = obs.reward / 100

        stepSinceTrain += 1
        stepNum += 1
        rb.insert(obs)
        if (not test) and len(
                rb.buffer
        ) >= minRBSize and stepSinceTrain > envStepsBeforeTrain:
            stepSinceTGTUpdate += 1
            loss = trainStep(rb.sample(sampleSize), model, targetModel,
                             len(env.robot.actions), device)
            wandb.log(
                {
                    "Loss": loss.detach().item(),
                    "eps": eps,
                    "Step Rewards:": np.mean(episodeRewards)
                },
                step=stepNum)
            stepSinceTrain = 0

            if stepSinceTGTUpdate > targetModelUpdate:
                print("Updating Target Model")
                updateTGTModel(model, targetModel)
                stepSinceTGTUpdate = 0
                torch.save(targetModel.state_dict(), f"Models/{stepNum}.pth")
                episodeRewards = []

コード例 #2

ファイルを表示

ファイル: Model.py プロジェクト: masterrom/CRLMachineLearningProject

def main(test=False, chkpt=None, device='cuda'):
    """
    main is used to start and preform the training in non-render mode
    :param test: Not required
    :param chkpt: Not required
    :param device: string (cuda or cpu)
    :return: None
    """
    # device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    if not test:
        wandb.init(project="MultiSection Continum",
                   name="Reaching Task 32 Per Layer")

    robot = Robot()
    robot.newSection()
    robot.newSection()

    env = Environment(robot)
    if test:
        # env.staticPoint([-9.966711079379195, 99.3346653975306])
        env.render()
    # else:
    #     env.staticPoint([-9.966711079379195, 99.3346653975306])

    lastObs = env.getObservation()

    rb = ReplayBuffer()

    memorySize = 500000
    minRBSize = 20000

    sampleSize = 750

    envStepsBeforeTrain = 250

    targetModelUpdate = 500

    epsMin = 0.01
    epsDecay = 0.99999

    model = Model(len(lastObs.state), len(env.robot.actions)).to(device)
    if chkpt != None:
        model.load_state_dict(torch.load(chkpt))

    targetModel = Model(len(lastObs.state), len(env.robot.actions)).to(device)
    updateTGTModel(model, targetModel)

    stepSinceTrain = 0
    # stepSinceTrain keeps track of the number of steps since the last main network training
    # in this case main network updates after every envStepsBeforeTrain

    stepSinceTGTUpdate = 0
    # stepSinceTGTUpdate keeps track of the number of steps since the last target network update (ie transfering main network weights)
    # in this case the target network updates after every targetModelUpdate

    stepNum = -1 * minRBSize

    episodeRewards = []
    rollingReward = 0

    # Copying over the weights
    tq = tqdm()
    # Work in progress
    while True:
        if test:
            env.render()
            time.sleep(0.05)
        tq.update(1)
        eps = epsDecay**(stepNum / 10)
        if test:
            eps = 0

        if random() < eps:
            # print("Taking random action")
            action = env.robot.randomAction()
        else:
            actNum = model(torch.tensor(
                lastObs.state).to(device)).max(-1)[-1].item()
            action = env.robot.actions[actNum]

        obs = env.robotStep(action[0], action[1])

        rollingReward = obs.reward

        # print(obs)
        # # env.render()
        # x = model(torch.Tensor(obs.state))
        # # print(x)
        #
        episodeRewards.append(rollingReward)
        #
        # if stepSinceTGTUpdate > targetModelUpdate:
        # # if env.done():
        #     episodeRewards.append(rollingReward)
        #     if test:
        #         print(rollingReward)
        #     print(episodeRewards)
        #     rollingReward = 0
        #     # env.reset()
        if env.done():
            env.reset()
            # env.staticPoint([-9.966711079379195, 99.3346653975306])

        # obs.reward = obs.reward / 100

        stepSinceTrain += 1
        stepNum += 1
        rb.insert(obs)
        if (
                not test
        ) and rb.index >= minRBSize and stepSinceTrain > envStepsBeforeTrain:
            stepSinceTGTUpdate += 1
            loss = trainStep(rb.sample(sampleSize), model, targetModel,
                             len(env.robot.actions), device)
            wandb.log(
                {
                    "Loss": loss.detach().cpu().item(),
                    "eps": eps,
                    "Step Rewards:": np.mean(episodeRewards)
                },
                step=stepNum)
            stepSinceTrain = 0

            if stepSinceTGTUpdate > targetModelUpdate:
                print("Updating Target Model")
                updateTGTModel(model, targetModel)
                stepSinceTGTUpdate = 0
                torch.save(
                    targetModel.state_dict(),
                    f"/u/meharabd/research/CRLMachineLearningProject/Models/{stepNum}.pth"
                )
                episodeRewards = []