tetris_ri

2017.11.13

sample로 가져온 initial point의 경우 학습을 하여 reward가 발생하면 모든 action에 동일한 reward를 반영한다.

마지막 행위가 reward를 발생시켜지만, 이전 행위가 하나의 묶음으로 생각을 해야 하기 때문이다
계속 0(LEFT)만 predict이 되고 있음.

TODO

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.idea		.idea
othello		othello
reference		reference
.gitignore		.gitignore
README.md		README.md
ai.py		ai.py
ai3.py		ai3.py
ai4.py		ai4.py
board.py		board.py
card_pole.py		card_pole.py
dqn.py		dqn.py
dqn2.py		dqn2.py
pygame_tetris.py		pygame_tetris.py
pygame_tetris_learning.py		pygame_tetris_learning.py
pygame_tetris_learning_2.py		pygame_tetris_learning_2.py
reward.py		reward.py
train_othello.py		train_othello.py

ssshow16/tetris_ri