Python Episode.generate 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: episode

클래스/타입: Episode

메소드/함수: generate

hotexamples.com에서의 예제들: 3

Python Episode.generate - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 episode.Episode.generate에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Episode(30)

from_string(3)

tokenize(3)

title(3)

run(3)

player_wins(3)

compile_file_name(3)

generate(3)

Add(2)

update_file_meta(2)

opponent_wins(2)

insert(2)

guid(2)

getbyfeed(2)

get_last(2)

Clear(2)

url(2)

add(2)

Complete(2)

Episode2CSV(2)

_from_json(2)

enclosure_length(1)

Query(1)

show_name(1)

season(1)

scrap(1)

run_script(1)

_MigrateShare(1)

retime_subs(1)

retime_audio(1)

reset(1)

player_score(1)

play(1)

opponent_score(1)

episode(1)

description(1)

episodes_from_rss(1)

execute(1)

from_soup(1)

e_nr(1)

draw(1)

generate_symmetric(1)

demux(1)

mux(1)

get_title(1)

chapters(1)

cached(1)

add_step(1)

make_avs(1)

move_demuxed_files(1)

예제 #1

파일 보기

파일: train.py 프로젝트: Arnolddomaya/mastermind_deepl

def train(num_episodes=1000,
          save_every=100,
          checkpoint_dir="checkpoints",
          tensorboard_dir="tensorboard",
          tboard_every=10,
          find_target_prop=0):
    pol = Policy()
    writer = tf.contrib.summary.create_file_writer(tensorboard_dir)
    for j in range(1, num_episodes + 1):
        random_secret = random.randint(0, config.max_guesses - 1)
        e = Episode(pol, random_secret, find_target_prop, True)
        history = e.generate()

        print("Episode:{}, length: {}".format(j, len(history)))

        G = -1

        optimizer = \
            tf.train.GradientDescentOptimizer(
                learning_rate=config.reinforce_alpha*G)

        for i in reversed(range(1, len(history))):
            history_so_far = history[:i]
            next_action, _ = history[i]
            with tfe.GradientTape() as tape:
                action_logits = pol(history_so_far, with_softmax=False)
                loss = tf.nn.softmax_cross_entropy_with_logits_v2(
                    labels=tf.one_hot(tf.convert_to_tensor([next_action]),
                                      config.max_guesses),
                    logits=action_logits)

            grads = tape.gradient(loss, pol.variables)
            optimizer.apply_gradients(zip(grads, pol.variables))

            G -= 1
            optimizer._learning_rate = G * config.reinforce_alpha
            optimizer._learning_rate_tensor = None
            # hack. Should be able to pass a callable as learning_rate, see
            # https://www.tensorflow.org/api_docs/python/tf/train/GradientDescentOptimizer#args
            # can I perhaps submit a PR to fix this bug?

            sys.stdout.write("{}/{}\r".format(len(history) - i, len(history)))

        if j % save_every == 0 or j == num_episodes:
            saver = tfe.Saver(pol.named_variables)
            save_path = os.path.join(
                checkpoint_dir,
                "episode{}".format(str(j).zfill(len(str(num_episodes)))))
            saver.save(save_path)

        if j % tboard_every == 0:
            with writer.as_default():
                with tf.contrib.summary.always_record_summaries():
                    tf.contrib.summary.scalar('total_return',
                                              tf.convert_to_tensor([G]),
                                              step=j)
    return pol

예제 #2

파일 보기

파일: policy.py 프로젝트: egeromin/mastermind

        state = self.lstm.zero_state(1, tf.float32)

        for guess, feedback in game_state:
            guess_tensor = tf.reshape(tf.convert_to_tensor(guess), (1,))
            feedback_tensor = tf.reshape(tf.convert_to_tensor(feedback), (1,))
            guess_embedded = self.guess_embedding(guess_tensor)
            feedback_embedded = self.feedback_embedding(feedback_tensor)

            combined_embedded = tf.concat([guess_embedded,
                                            feedback_embedded],
                                            axis=-1)
            # can I do multiple inputs to the LSTM instead of concatenating?

            output, state = self.lstm(combined_embedded, state)

        logits = self.dense(output)
        if with_softmax:
            return tf.nn.softmax(logits)
        return logits


if __name__ == "__main__":
    from episode import Episode
    import numpy as np
    np.random.seed(123)
    p = Policy()
    e = Episode(p, "0000")
    x = p(e.generate())
    print(x.numpy())

예제 #3

파일 보기

파일: policy.py 프로젝트: Arnolddomaya/mastermind_deepl

        for guess, feedback in game_state:
            guess_tensor = tf.reshape(tf.convert_to_tensor(guess), (1, ))
            feedback_tensor = tf.reshape(tf.convert_to_tensor(feedback), (1, ))
            guess_embedded = self.guess_embedding(guess_tensor)
            feedback_embedded = self.feedback_embedding(feedback_tensor)

            combined_embedded = tf.concat([guess_embedded, feedback_embedded],
                                          axis=-1)
            # can I do multiple inputs to the LSTM instead of concatenating?

            output, state = self.lstm(combined_embedded, state)

        logits = self.dense(output)
        if with_softmax:
            return tf.nn.softmax(logits)
        return logits


if __name__ == "__main__":
    from episode import Episode
    import numpy as np
    np.random.seed(123)
    p = Policy()
    print("lstm")
    print(p.lstm)
    e = Episode(p, "0000", find_target_proba=0.3, train=True)
    g = e.generate()
    print(g)
    x = p(g)
    print(x)