USTCReadingGroup——Supporting-Very-Large-Models
Step 1
题目摘要引言
题目
使用自动数据流图分割支持超大模型
摘要
介绍新的模型——Tofu,用于在多个 GPU 上划分超大的 DNN 模型,从而减少单个 GPU 的内存占用。
基本理论概况
结论部分
回答基本问题
- 类别
- 内容
- 正确性
- 创新点
- 清晰度
阅读选择
Step 2
细读笔记
问题记录
未读(且值得读)文献记录
Step 3
思路复现
证明与推理复现
实验验证复现
ReadingGroup 笔记
分布式训练
How to fit a large DNN across GPUs
- 数据并行 Data Parallelism
- 后台 Sync
- 适用于小数据规模量
- 来不及记录
- 层级并行 Layer Parallelism
- 针对大的模型
tofu
tensorflow mash
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!