CCFADLOnline5——Suphx-Superhuman-Mahjong-AI
Pushing the Frontier of Game AI
主讲老师:刘铁岩博士,微软亚洲研究院副院长
DeepBlue
mimax, \(\alpha \beta\) Search 算法
本质上是一种搜索,主要由硬件实现了剪纸。
AlphaGO
先用专家标识的有监督学习。
蒙特卡洛书搜索,
Notes
AlphaGo Zero: Removing Human Knowledge
Libratus: Superhuman Poker Player
德州扑克,相较于前两者,最主要的是信息的不完整性。而且由于这样信息的不完整性,还会有一些技巧,比如“诈胡”。
Challenge
- Imperfect information
Key Technologyies
- 游戏的抽象简化,求纳什均衡解
- 子博弈(Subgame solving)
Game Abstraction and Blueprint Strategy
由于原有
纳什均衡概念:形象理解,博弈中的任何一方,如果不采取这个策略(另一者采取了),则会吃亏。
前面两轮用粗略的 Blueprint Strategy(纳什均衡)处理,然后转向状态空间细化的搜索。
Pluribus: Playing Multiplayer Poker
多人,从博弈策略转向一种学习的
启发
从完美信息博弈(Perfect-information),和非完美信息博弈(Imperfect-information)。
选择 Mahjong 的原因(Why Mahjong as the Next Big Thing?):
- 历史长,玩家基数大
- 非完美信息博弈,有相当大的不可见信息量(看不到 3 个人每个人 13 张手牌)
Why Mahjong So Challenging?
策略,局次间的结构,不同局次的策略选择等等。
Suphiex
Mahjong 101
日麻规则介绍
Suphx(Super Phoenix):
决策流图
麻将状态
Mahjong State
- Tile set
- Private tiles
- Open hand
- Doras
- Sequence of discarded tiles
- Integer information
- Accmulated round score
- Number of tiles left
- Categorical information
- Round id
- Dealer
- Counter of..
Channel-based Feature Representation
Look-ahead Features
做一些向前看的工作,
Model Architecture
网络架构
和 AlphaGo 类似,使用了专家经验(天凤平台提供的 log)
Distributed RL system in Suphx
Use Perfect Information to Accelerate Training
使用完美信息来加速训练,先知信息。。
完美信息与局部信息的引申,对于同声传译来说,没有看到完整句型就进行翻译,实际上也是一种利用局部信息推测的行为,如果我们训练这样的同声传译 AI,就要考虑这一层。
Policy Adaptation
参数化的方式,做有限次的 Sampling 和模型的更新。
追求的是 LongTerm Rewared
游戏 AI 的前瞻
非完美信息博弈。桥牌相关(但是目前没有个很好的平台)
Q&A
Q1: 如果训练过程中没有 Perfect Information 可以利用,对 Oracle Guiding 的影响是什么样的?
如果没有 Perfect Information 的话就没有 Oracle Guiding 一说了,会减慢收敛的过程。我们的研究中做了对比,没有 Perfect Information 是可以进行的(一般强化学习),只是需要进行更多的轮数。
Q2: 牌谱链接,更多相关消息?
天凤平台上,可以查到过去的棋局。
Q3: AI 会不会考虑对手模型,是否研究对手风格?
在工作中没有对对手进行建模,比如对手的牌序,但是整体 State 的描述中涉及了很多对手出牌的 Feature,所以理论上是对对手风格有考量。但是没有直接向对手(人)进行建模,这是一个值得讨论的问题。建模,难,但是不是不可能。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!