alphagomoku

1. 简介

如名所示，本项目意欲用alphago[1]所采用的的算法来建造一个下五子棋的AI。
一为学习，二主要是不想用启发式+搜索，因为获得好的启发式很难，且不自由。
实际上，已有很多五子棋AI[2]很厉害，相关算法可以参考这儿[3]或这儿[4]。
目前采用新方法的一些尝试[5]还没有达到期望。

2. 流程

就像alphago[1]，我们也想采用类似的方式：

1. 用监督学习训练策略网络
1. 在前面的基础上，通过self-play来增强策略网络和训练一个值网络
1. 用MCTS结合它们

对于监督学习，首先是收集数据。
我们的数据采集自gomocup前几名AI对弈记录。
你可以在这儿[6]下载，它们是经过对称旋转变换的。
做了几种不同的数据集，9x9和15x15大小的，有csv格式和TFRecord格式，
数据的含义参考[6]里的README。

3. 代码

主要的文件有:

main.py          #GUI，提供人机对弈界面和其它一些功能入口(通过按键)
game.py          #一局游戏，由2个AI和1个棋盘组成，可以有或没有GUI
board.py         #棋盘状态
strategy.py      #策略(AI)基类
strategy_dnn.py  #使用dnn作决策的AI
dnn*.py          #不同结构的DCNN，从本身运行可训练或强化, 用到tensorflow
mcts.py          #TODO MCTS，使用NN记录统计信息
mcts1.py         #单线程MCTS，使用Tree记录统计信息
dfs.py           #另一个AI，来自[7]
server.py        #用于和gomocup的其它AI切磋，因为gomocup manager[8]
                 #是个Windows程序，而我们的程序主要跑在Linux上，
                 #所以做了一次转发：
                 #gomocup manager <-> Windows stub[9] <-> server.py

4. 使用

为了跑起来，你需要在代码里改些配置，主要是在config.py里。
监督学习: python dnn3.py
强化学习: python main.py, 再按F4
参与到gomocup manager: python server.py

5. 下一步想做的

1. 探索新的网络结构，增加特征面
1. 解决或绕开self-play过拟合的问题

6. 参考

[1]Mastering the game of Go with deep neural networks and tree search
[2]Gomoku AI
[3]Gomoku Resources
[4]Carbon Gomoku
[5]Convolutional and Recurrent Neural Network for Gomoku
[6]Gomoku Dataset
[7]Gobang game with AI in 900 Lines
[8]Gomocup Manager
[9]Windows gomocup stub
[10]Human-level control through deep reinforcement learning
[11]MCTS

7. 踩过的坑

1. 监督学习所用的数据集会严重影响训练效果。
  之前我们用一个比较简单的启发式AI生成的数据集就连简单的规则都学不会，
  和人博弈时简直就是乱下
1. 用CNN描述棋盘状态，同样一些input features用不同形式喂给CNN，对结果影响不大
1. loss曲线和真正的效果感觉很奇怪
1. 直接和gomocup的其它AI对弈做强化学习实在是太慢，因为它们搜索一步
  都要很久，感觉self-play才是出路，要么能从很少的对弈中学习

8. 当前的问题

1. 当前监督学习得到的策略网络预测正确率只有40%多，应该还有提升空间。
1. self-play的做法和alphago[1]一样的: 在对手池中挑一个对手，与之对弈，
  对手总采用贪婪策略，己方做探索，满足一定条件后加入对手池。
  看起来很完美，但是通过self-play得到的agent会过拟合于自己的对手，虽然可以打败了所有以前的对手，
  但是实际上变得没有通用性了，仅仅是这些以前的那些对手的克星。
1. 单线程MCTS[11]太慢，不实用，得改成APV-MCTS[1]

欢迎讨论，渴望指导，谢谢!

email: splendor.kill@gmail.com
QQ: 363599755
微信: splendor_k

Name		Name	Last commit message	Last commit date
Latest commit History 102 Commits
.settings		.settings
tentacle		tentacle
.gitignore		.gitignore
.project		.project
.pydevproject		.pydevproject
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.settings

.settings

tentacle

tentacle

.gitignore

.gitignore

.project

.project

.pydevproject

.pydevproject

LICENSE

LICENSE

README.md

README.md

Repository files navigation

alphagomoku

1. 简介

2. 流程

3. 代码

4. 使用

5. 下一步想做的

6. 参考

7. 踩过的坑

8. 当前的问题

欢迎讨论，渴望指导，谢谢!

About

Releases

Packages

Languages

License

splendor-kill/ml-five

Folders and files

Latest commit

History

Repository files navigation

alphagomoku

1. 简介

2. 流程

3. 代码

4. 使用

5. 下一步想做的

6. 参考

7. 踩过的坑

8. 当前的问题

欢迎讨论，渴望指导，谢谢!

About

Resources

License

Stars

Watchers

Forks

Languages