USTCReadingGroup——Supporting-Very-Large-Models

Step 1

题目摘要引言

题目

使用自动数据流图分割支持超大模型

摘要

介绍新的模型——Tofu,用于在多个 GPU 上划分超大的 DNN 模型,从而减少单个 GPU 的内存占用。

基本理论概况

结论部分

回答基本问题

  1. 类别
  1. 内容
  1. 正确性
  1. 创新点
  1. 清晰度

阅读选择

Step 2

细读笔记

问题记录

未读(且值得读)文献记录

Step 3

思路复现

证明与推理复现

实验验证复现

ReadingGroup 笔记

分布式训练

How to fit a large DNN across GPUs

    1. 数据并行 Data Parallelism
    • 后台 Sync
    • 适用于小数据规模量
    1. 来不及记录
    1. 层级并行 Layer Parallelism
    • 针对大的模型

tofu

tensorflow mash