Pushing the Frontier of Game AI

主讲老师：刘铁岩博士，微软亚洲研究院副院长

DeepBlue

mimax, \(\alpha \beta\) Search 算法

本质上是一种搜索，主要由硬件实现了剪纸。

AlphaGO

先用专家标识的有监督学习。

蒙特卡洛书搜索，

Notes

AlphaGo Zero: Removing Human Knowledge

Libratus: Superhuman Poker Player

德州扑克，相较于前两者，最主要的是信息的不完整性。而且由于这样信息的不完整性，还会有一些技巧，比如“诈胡”。

Challenge

Imperfect information

Key Technologyies

游戏的抽象简化，求纳什均衡解
子博弈（Subgame solving）

Game Abstraction and Blueprint Strategy

由于原有

纳什均衡概念：形象理解，博弈中的任何一方，如果不采取这个策略（另一者采取了），则会吃亏。

前面两轮用粗略的 Blueprint Strategy（纳什均衡）处理，然后转向状态空间细化的搜索。

Pluribus: Playing Multiplayer Poker

多人，从博弈策略转向一种学习的

启发

从完美信息博弈（Perfect-information），和非完美信息博弈（Imperfect-information）。

选择 Mahjong 的原因（Why Mahjong as the Next Big Thing?）：

历史长，玩家基数大
非完美信息博弈，有相当大的不可见信息量（看不到 3 个人每个人 13 张手牌）

Why Mahjong So Challenging?

策略，局次间的结构，不同局次的策略选择等等。

Suphiex

Mahjong 101

日麻规则介绍

Suphx(Super Phoenix):

决策流图

麻将状态

Mahjong State

Tile set
- Private tiles
- Open hand
- Doras
Sequence of discarded tiles
Integer information
- Accmulated round score
- Number of tiles left
Categorical information
- Round id
- Dealer
- Counter of..

Channel-based Feature Representation

Look-ahead Features

做一些向前看的工作，

Model Architecture

网络架构

和 AlphaGo 类似，使用了专家经验（天凤平台提供的 log）

Distributed RL system in Suphx

Use Perfect Information to Accelerate Training

使用完美信息来加速训练，先知信息。。

完美信息与局部信息的引申，对于同声传译来说，没有看到完整句型就进行翻译，实际上也是一种利用局部信息推测的行为，如果我们训练这样的同声传译 AI，就要考虑这一层。

Policy Adaptation

参数化的方式，做有限次的 Sampling 和模型的更新。

追求的是 LongTerm Rewared

游戏 AI 的前瞻

非完美信息博弈。桥牌相关（但是目前没有个很好的平台）

Q&A

Q1: 如果训练过程中没有 Perfect Information 可以利用，对 Oracle Guiding 的影响是什么样的？

如果没有 Perfect Information 的话就没有 Oracle Guiding 一说了，会减慢收敛的过程。我们的研究中做了对比，没有 Perfect Information 是可以进行的（一般强化学习），只是需要进行更多的轮数。
Q2: 牌谱链接，更多相关消息？

天凤平台上，可以查到过去的棋局。
Q3: AI 会不会考虑对手模型，是否研究对手风格？

在工作中没有对对手进行建模，比如对手的牌序，但是整体 State 的描述中涉及了很多对手出牌的 Feature，所以理论上是对对手风格有考量。但是没有直接向对手（人）进行建模，这是一个值得讨论的问题。建模，难，但是不是不可能。

Research 讲座会议

讲座会议 CCFADL

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

形式化方法——Software-Reliability-Methods-Chap3 上一篇

形式化方法——Software-Reliability-Methods-Chap2 下一篇

CCFADLOnline5——Suphx-Superhuman-Mahjong-AI