Exemplos de Env.black em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: env

Classe / Tipo: Env

Método / Função: black

Exemplos em hotexamples.com: 1

Env.black em Python - 1 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de env.Env.black em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

Env(30)

action_space(6)

actions(4)

declare(3)

GetInitState(2)

Step(2)

getColor(2)

addParser(2)

getRectIMG(2)

BlackWins(1)

check_env_wrt_manifest(1)

directly_defined(1)

draw(1)

draw_field(1)

getRectPos(1)

bound(1)

getRectSize(1)

getResolution(1)

get_base_url(1)

get_rnn_url(1)

log(1)

provision_resources(1)

provision_zone(1)

set_robots(1)

build_map(1)

batch_size(1)

blob_name_run_info(1)

action_bound(1)

IsTerminal(1)

_graceexit(1)

_set(1)

_update(1)

act(1)

action(1)

actionTransform(1)

action_dim(1)

blob_name(1)

actions_dim(1)

add_item(1)

add_loaded_module(1)

advance(1)

appendSeq(1)

apply_action(1)

assign_cidr(1)

black(1)

top_module(1)

Métodos Frequentes

Env (30)

action_space (6)

actions (4)

declare (3)

GetInitState (2)

Step (2)

getColor (2)

addParser (2)

getRectIMG (2)

BlackWins (1)

Métodos Frequentes

check_env_wrt_manifest (1)

directly_defined (1)

draw (1)

draw_field (1)

getRectPos (1)

bound (1)

getRectSize (1)

getResolution (1)

get_base_url (1)

get_rnn_url (1)

log (1)

provision_resources (1)

provision_zone (1)

set_robots (1)

build_map (1)

batch_size (1)

blob_name_run_info (1)

action_bound (1)

IsTerminal (1)

_graceexit (1)

Métodos Frequentes

log (1)

provision_resources (1)

provision_zone (1)

set_robots (1)

build_map (1)

batch_size (1)

blob_name_run_info (1)

action_bound (1)

IsTerminal (1)

_graceexit (1)

_set (1)

_update (1)

act (1)

action (1)

actionTransform (1)

action_dim (1)

blob_name (1)

actions_dim (1)

add_item (1)

add_loaded_module (1)

advance (1)

appendSeq (1)

apply_action (1)

assign_cidr (1)

black (1)

top_module (1)

Métodos Frequentes

_set (1)

_update (1)

act (1)

action (1)

actionTransform (1)

action_dim (1)

blob_name (1)

actions_dim (1)

add_item (1)

add_loaded_module (1)

advance (1)

appendSeq (1)

apply_action (1)

assign_cidr (1)

black (1)

top_module (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: rl.py Projeto: omukazu/Othello-AI

def main(): parser = argparse.ArgumentParser(description='SLPolicyNetwork', formatter_class=RawTextHelpFormatter) parser.add_argument('CONFIG', default=None, type=str, help='path to config file') parser.add_argument('MODEL', default=None, type=str, help='path to model.npz') parser.add_argument('--gpu', type=int, default=-1, help='gpu numbers\nto specify') parser.add_argument('--debug', default=False, action='store_true', help='switch to debug mode') args = parser.parse_args() print('*** load config ***') with open(args.CONFIG, "r") as f: config = json.load(f) print('*** set up model ***') n_input_channel = config["arguments"]["n_input_channel"] n_output_channel = config["arguments"]["n_output_channel"] rl_policy_network = RLPolicyNetwork(n_input_channel=n_input_channel, n_output_channel=n_output_channel) serializers.load_npz(args.MODEL, rl_policy_network) optimizer = chainer.optimizers.Adam(alpha=config["arguments"]["learning_rate"]) optimizer.setup(rl_policy_network) if args.gpu: cuda.get_device_from_id(args.gpu).use() rl_policy_network.to_gpu(args.gpu) xp = cuda.cupy else: xp = np rl_policy_network.set_cache() # define parameters N = 30000 batch_size = 150 first_choices = [0x0000100000000000, 0x0000002000000000, 0x0000000004000000, 0x0000000000080000] bar = ProgressBar(0, N) print('*** start iteration ***') for i in range(N): bar.update(i) start = time.time() opponent = SLPolicyNetwork(n_input_channel=n_input_channel, n_output_channel=n_output_channel) opponent_model_path = np.random.choice(glob.glob("./result/sl_policy/slpn.epoch*.npz")) print(f'\nmodel:{opponent_model_path} is chosen') serializers.load_npz(opponent_model_path, opponent) if args.gpu: opponent.to_gpu(args.gpu) opponent.set_cache() agent = Agent(batch_size, xp, rl_policy_network, optimizer) env = Env(batch_size, xp, rl_policy_network, opponent) env.reset() is_black = True if i % 2 == 1: first_actions = xp.random.choice(first_choices, batch_size).astype('uint64').reshape(-1, 1) reversible_mask = env.reversible(first_actions, is_black) env.black, env.white = \ env.reverse(first_actions, is_black, reversible_mask) is_black = not is_black obs = env.create_current_states(is_black) done = False while not done: action_indices = agent.act(obs) obs, _, done, _ = env.step(action_indices, is_black) bs = xp.sum(obs[:, 0].reshape(batch_size, -1), axis=1) # (b, 8, 8) -> (b, ) ws = xp.sum(obs[:, 1].reshape(batch_size, -1), axis=1) true_rewards = bs > ws if is_black else ws > bs agent.update(true_rewards) count = xp.sum(bs > ws) if is_black else xp.sum(ws > bs) print(f'{time.time() - start:.02f} sec elapsed') print(f'win rate:{int(count) * 100 / batch_size:.02f}') else: serializers.save_npz("result/rl_policy.npz", rl_policy_network)