USTCReadingGroup——Cloud-Based-Distributed-Training

Step 1

题目摘要引言

基本理论概况

结论部分

回答基本问题

  1. 类别
  1. 内容
  1. 正确性
  1. 创新点
  1. 清晰度

阅读选择

Step 2

细读笔记

问题记录

未读(且值得读)文献记录

Step 3

思路复现

证明与推理复现

实验验证复现

ReadingGroup 会议

Motivation

PC2:Pytorch/Caffee2

MX:MxNet()

GV:Gradient Compression Enable(梯度压缩)

Q:ec2 和 Azure 时可以设置“部署”在同一个机架?好像不能这个拓扑? A:现在提出的就是,提出一种算法,探测这种拓扑。

Inefficiencies in Existing Approaches

拓扑感知

Design and Implementation

  • Idea #1: Two Level Hierarchial Aggregation
    • HA does not reduce the total amount of data transferred on the wire, but create more localized traffic and avoid slow links
    • 为什么选择两级,经验法则选取
      • Step. 数据转入 buffer,分块,选出 local master
  • Idea #2: Capturing Network Locality with ProbeEmbed(?嵌入)
    • 嵌入到一个欧式空间(优化一个最小值)
    • Grouping nodes
      • \(k+\frac{n}{k}\)\(k = \sqrt{n}\)取最值。
      • 用 K-means
      • 我问的问题:\(a\)参数是可调的(\(a\)越大越“推开”)
  • Idea #3:Reacting to Network Changes with Autotune
    • 核心想法:将负载从 bottleneck node 转移走,基于blame(惩罚系数)
    • 惩罚系数构成:
      • \(t(i), l(i), B(i)\)

Summary

  • PLink 工作包括:

    • Topology-aware
    • Hierarchical aggregation
    • Autotune
  • Limitations:
    • Can't get enough benefit from finetune
    • The complexity of topology-aware 是 O(n)